ЗАСТОСУВАННЯ НЕЙРОННИХ МЕРЕЖ ДЛЯ АВТОМАТИЗОВАНОГО РОЗПІЗНАВАННЯ ТЕКСТУ ТА СИМВОЛІВ У ЗАДАЧАХ КІБЕРБЕЗПЕКИ

Наталія Чернящук

doi:10.28925/2663-4023.2025.31.1032

Автор(и)

Наталія Чернящук Волинський національний університет імені Лесі Українки https://orcid.org/0000-0002-3178-8377

DOI:

https://doi.org/10.28925/2663-4023.2025.31.1032

Ключові слова:

розпізнавання тексту, OCR, CNN, RNN, CTC, машинне навчання, спотворені зображення, Tesseract OCR.

Анотація

У цій роботі представлено розробку та дослідження системи оптичного розпізнавання тексту (OCR) для низькоякісних зображень із застосуванням методів машинного навчання. Для виконання завдання було створено два набори зображень у відтінках сірого: перший містив окремі символи англійського алфавіту та цифри (4 960 зображень розміром 250×50 пікселів), а другий – фрагменти осмисленого тексту з книги «Голодні ігри» (4 010 зображень розміром 680×50 пікселів). Щоб підвищити стійкість моделі, зображення було спеціально спотворено за допомогою розмиття та цифрового шуму. OCR-модель була побудована на основі поєднання згорткових нейронних мереж (CNN) і рекурентних мереж (RNN) із шаром Connectionist Temporal Classification (CTC) для корекції послідовностей. Навчання проводилося протягом 70–80 епох із розподілом даних 9:1 для навчання та валідації. Було проведено порівняльний аналіз між розробленою системою та Tesseract OCR. Експериментальні результати показали, що запропонована модель забезпечує кращу точність розпізнавання на низькоякісних зображеннях, особливо тих, що містять цифровий шум, тоді як Tesseract OCR значно втрачає точність у таких умовах. Отримані результати підтверджують ефективність гібридних архітектур нейронних мереж для розпізнавання спотвореного тексту. У подальшій роботі планується зосередитися на розпізнаванні багаторядкового осмисленого тексту та підвищенні стійкості моделі до різних типів візуальних спотворень.

Завантаження

Дані завантаження ще не доступні.

Посилання

Kumar, M., Singh, S., Dureja, A., Narula, R., & Shyla, S. (2025). OCR-CRNN (WBS): An optical character recognition system based on convolutional recurrent neural network embedded with word beam search decoder for extraction of text. International Journal of Information Technology, 17(7), 849–860. https://doi.org/10.1007/s41870-025-02540-x

Bernasconi, E. (2025). Enhancing symbol recognition in library science via convolutional neural networks. Journal of Computer Science, 16(2), 119–130. https://doi.org/10.3390/jcs16020119

Liu, Y. (2023). A convolutional recurrent neural-network-based model for scene text recognition. Symmetry, 15(4), 849–860. https://doi.org/10.3390/sym15040849

Drobac, S. (2020). Optical character recognition with neural networks and post-correction techniques. Pattern Recognition, 100, 107–118. https://doi.org/10.1007/s10032-020-00359-9

Sinthuja, M. (2024). Extraction of text from images using deep learning. Procedia Computer Science, 187, 751–758. https://doi.org/10.1016/j.procs.2024.04.099

Yousef, M., Hussain, K. F., & Mohammed, U. S. (2018). Accurate, data-efficient, unconstrained text recognition with convolutional neural networks. arXiv preprint arXiv:1812.11894. https://arxiv.org/abs/1812.11894

Chen, L. (2020). Attacking optical character recognition (OCR) systems with adversarial examples. arXiv preprint arXiv:2002.03095. https://arxiv.org/abs/2002.03095

Li, B., Tang, X., Qi, X., Chen, Y., & Xiao, R. (2020). Hamming OCR: A locality sensitive hashing neural network for scene text recognition. arXiv preprint arXiv:2009.10874. https://arxiv.org/abs/2009.10874

Du, Y., et al. (2020). PP-OCR: A practical ultra lightweight OCR system. arXiv preprint arXiv:2009.09941. https://arxiv.org/abs/2009.09941

Liao, M., et al. (2019). Mask TextSpotter: An end-to-end trainable neural network for spotting text with arbitrary shapes. arXiv preprint arXiv:1908.08207. https://arxiv.org/abs/1908.08207

Shi, B., Bai, X., & Yao, C. (2017). An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(11), 2298–2304. https://doi.org/10.1109/TPAMI.2016.2645393

Liu, Y. (2024, October 14). Convolutional recurrent neural network for text recognition. XenonStack Insights. https://www.xenonstack.com/insights/crnn-for-text-recognition