ЗАСТОСУВАННЯ НЕЙРОННИХ МЕРЕЖ ДЛЯ АВТОМАТИЗОВАНОГО РОЗПІЗНАВАННЯ ТЕКСТУ ТА СИМВОЛІВ У ЗАДАЧАХ КІБЕРБЕЗПЕКИ
DOI:
https://doi.org/10.28925/2663-4023.2025.31.1032Ключові слова:
розпізнавання тексту, OCR, CNN, RNN, CTC, машинне навчання, спотворені зображення, Tesseract OCR.Анотація
У цій роботі представлено розробку та дослідження системи оптичного розпізнавання тексту (OCR) для низькоякісних зображень із застосуванням методів машинного навчання. Для виконання завдання було створено два набори зображень у відтінках сірого: перший містив окремі символи англійського алфавіту та цифри (4 960 зображень розміром 250×50 пікселів), а другий – фрагменти осмисленого тексту з книги «Голодні ігри» (4 010 зображень розміром 680×50 пікселів). Щоб підвищити стійкість моделі, зображення було спеціально спотворено за допомогою розмиття та цифрового шуму. OCR-модель була побудована на основі поєднання згорткових нейронних мереж (CNN) і рекурентних мереж (RNN) із шаром Connectionist Temporal Classification (CTC) для корекції послідовностей. Навчання проводилося протягом 70–80 епох із розподілом даних 9:1 для навчання та валідації. Було проведено порівняльний аналіз між розробленою системою та Tesseract OCR. Експериментальні результати показали, що запропонована модель забезпечує кращу точність розпізнавання на низькоякісних зображеннях, особливо тих, що містять цифровий шум, тоді як Tesseract OCR значно втрачає точність у таких умовах. Отримані результати підтверджують ефективність гібридних архітектур нейронних мереж для розпізнавання спотвореного тексту. У подальшій роботі планується зосередитися на розпізнаванні багаторядкового осмисленого тексту та підвищенні стійкості моделі до різних типів візуальних спотворень.
Завантаження
Посилання
Kumar, M., Singh, S., Dureja, A., Narula, R., & Shyla, S. (2025). OCR-CRNN (WBS): An optical character recognition system based on convolutional recurrent neural network embedded with word beam search decoder for extraction of text. International Journal of Information Technology, 17(7), 849–860. https://doi.org/10.1007/s41870-025-02540-x
Bernasconi, E. (2025). Enhancing symbol recognition in library science via convolutional neural networks. Journal of Computer Science, 16(2), 119–130. https://doi.org/10.3390/jcs16020119
Liu, Y. (2023). A convolutional recurrent neural-network-based model for scene text recognition. Symmetry, 15(4), 849–860. https://doi.org/10.3390/sym15040849
Drobac, S. (2020). Optical character recognition with neural networks and post-correction techniques. Pattern Recognition, 100, 107–118. https://doi.org/10.1007/s10032-020-00359-9
Sinthuja, M. (2024). Extraction of text from images using deep learning. Procedia Computer Science, 187, 751–758. https://doi.org/10.1016/j.procs.2024.04.099
Yousef, M., Hussain, K. F., & Mohammed, U. S. (2018). Accurate, data-efficient, unconstrained text recognition with convolutional neural networks. arXiv preprint arXiv:1812.11894. https://arxiv.org/abs/1812.11894
Chen, L. (2020). Attacking optical character recognition (OCR) systems with adversarial examples. arXiv preprint arXiv:2002.03095. https://arxiv.org/abs/2002.03095
Li, B., Tang, X., Qi, X., Chen, Y., & Xiao, R. (2020). Hamming OCR: A locality sensitive hashing neural network for scene text recognition. arXiv preprint arXiv:2009.10874. https://arxiv.org/abs/2009.10874
Du, Y., et al. (2020). PP-OCR: A practical ultra lightweight OCR system. arXiv preprint arXiv:2009.09941. https://arxiv.org/abs/2009.09941
Liao, M., et al. (2019). Mask TextSpotter: An end-to-end trainable neural network for spotting text with arbitrary shapes. arXiv preprint arXiv:1908.08207. https://arxiv.org/abs/1908.08207
Shi, B., Bai, X., & Yao, C. (2017). An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(11), 2298–2304. https://doi.org/10.1109/TPAMI.2016.2645393
Liu, Y. (2024, October 14). Convolutional recurrent neural network for text recognition. XenonStack Insights. https://www.xenonstack.com/insights/crnn-for-text-recognition
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2025 Наталія Чернящук

Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.