НЕЙРОМЕРЕЖЕВА МОДЕЛЬ ОЦІНЮВАННЯ РІВНЯ ЗАХИЩЕНОСТІ СКЛАДНОЗАШУМЛЕНОЇ МОВНОЇ ІНФОРМАЦІЇ НА ОСНОВІ СТРУКТУРНОЇ СХЕМИ RII
DOI:
https://doi.org/10.28925/2663-4023.2025.30.970Ключові слова:
складнозашумлений мовний сигнал; індекс залишкової розбірливості; трифонна модель; емісійна нейромережа; BayesianNN.Анотація
У роботі розглянуто проблему визначення рівня захищеності мовної інформації в умовах дії складних акустичних та віброакустичних завад, коли традиційні показники якості мовлення (SNR, STI, SII, PESQ, STOI) не відображають реальної здатності сучасних алгоритмів реконструкції (HMM, DNN, BayesianNN, GAN) відновлювати семантичний зміст перехоплених сигналів. За низького відношення сигнал/шум і навіть після застосування активних віброакустичних завад значна частка мовних структур залишається доступною для реконструкції, що створює ризик витоку інформації. Відсутність кількісного критерію, який би узгоджував фізичні, лінгвістичні та нейромережеві параметри сигналу та дозволяв оцінювати фактичну можливість семантичного відновлення, визначає ключову науково-технічну проблему роботи. Для її дослідження запропоновано інтегральну модель оцінювання залишкової мовної інформації складнозашумленої мови з урахуванням спектральної структури, контекстних лінгвістичних залежностей і можливостей сучасних реконструкційних систем. Багаторівнева архітектура моделі включає аналітичний спектральний опис сигналу (Aᵢ, μᵢ, σᵢ*, Z₀(f), s(f)), баєсівсько-марківську трифонну структуру та багатошарову емісійну нейромережу, побудовану на основі CNN, MLP і BayesianNN. Спектральний рівень забезпечує формальний опис енергетичних максимумів і адаптивного згладження; лінгвістичний – відображає ймовірнісні закономірності переходів між трифонами; нейромережевий – інтегрує всі типи ознак і моделює невизначеність емісійних імовірностей. На основі синтезу цих рівнів сформовано критерій залишкової розбірливості (RII), що кількісно характеризує здатність потенційного перехоплювача відновити зміст повідомлення після дії завад і фільтрації. Визначено порогове значення RII*, яке інтерпретується як умовна межа між інформаційно небезпечним та інформаційно недостатнім для реконструкції режимами. Запропонована модель може бути використана в системах технічного захисту інформації, випробувальних лабораторіях і комплексах оцінювання ефективності активних віброакустичних завад. Отримані результати формують науково-технічні засади створення інструментальних методів визначення рівня залишкової інформативності мови та підвищення її захищеності.
Завантаження
Посилання
Deng, L., & Li, X. (2020). Deep learning in speech processing: A review. IEEE Signal Processing Magazine, 37(3), 107–139.
Kolossa, D., & Haeb-Umbach, R. (2018). Robust Speech Recognition: A Probabilistic Approach. Academic Press.
Pardo, J. M., et al. (2023). Bayesian deep learning for acoustic uncertainty modelling. IEEE SPL, 30, 642–646.
Zhao, Y., & Ma, J. (2020). Probabilistic reconstruction of masked speech using Bayesian neural networks. Neural Networks, 132, 229–241.
Arora, A., & Singh, R. (2021). Whisper-to-speech reconstruction using GANs. Pattern Recognition Letters, 152, 62–70. https://doi.org/10.1016/j.patrec.2021.09.011.
Koizumi, Y., et al. (2020). Speech enhancement using deep generative models. IEEE/ACM TASLP, 28, 1778–1788.
Pascual, S., Ravanelli, M., & Serrà, J. (2020). SEGAN and its descendants: Generative enhancement of degraded speech. IEEE SPS Magazine, 37(6), 22–38.
Fogerty, D. (2017). Predicting speech intelligibility in noise. Attention, Perception, & Psychophysics, 79, 333–344.
Wang, D., & Chen, J. (2018). Supervised speech separation based on deep learning. IEEE TASLP, 26(10), 1872–1892.
Zolfaghari, M., & Sameti, H. (2023). End-to-end noise-robust ASR integrating spectral and linguistic features. Computer Speech & Language, 77, 101439.
ISO 22955:2021. Acoustics — Acoustic quality of open office spaces.
ISO 3382-3:2022. Acoustics — Measurement of room acoustic parameters — Part 3: Open public offices.
Reddy, C. K., et al. (2019). The Interspeech Deep Noise Suppression Challenge. Interspeech.
Li, A., et al. (2021). Two-stage deep enhancement for ultra-low SNR conditions. Applied Acoustics, 178, 108018.
Bhat, S., & Chatterjee, S. (2020). Complex-domain deep networks for speech enhancement at low SNR. Speech Communication, 122, 48–62.
Adiga, V. S., & Seltzer, M. L. (2020). End-to-end models for robust speech recognition in low-resource and noisy conditions. ICASSP.
Dong, L., & Xu, B. (2022). Noise-robust ASR using factorized time-domain convolutional networks. Speech Communication, 139, 15–27.
Sriram, J., & Chen, M. (2021). Transformer architectures for robust speech recognition. ICASSP.
Biswas, S., & Manocha, D. (2023). Transformer-based low-SNR speech enhancement using multi-scale spectral attention. IEEE SPL, 30, 124–128.
Hershey, J. R., et al. (2016). Deep clustering: Discriminative embeddings for segmentation and separation. ICASSP.
Qin, K., & Wang, D. (2020). Time-domain speech enhancement using deep learning: A survey. Speech Communication, 127, 1–16.
Andronic, E., & Dehak, N. (2019). End-to-end text-independent speaker verification for extremely noisy environments. Interspeech 2019, 4075–4079. https://doi.org/10.21437/Interspeech.2019-2447
Chen, J., Wang, X., & Xu, Y. (2021). Multi-task neural networks for joint speech enhancement and ASR. IEEE TASLP, 29, 2071–2084.
Kim, J., & Hahn, M. (2018). Voice conversion using GANs. NeurIPS Workshop.
Ma, J., & Zhao, Y. (2022). Audio-visual speech reconstruction in extremely noisy environments. IEEE TPAMI, 44(8), 4105–4117.
Alkin, B. (2021). Applied acoustics research for speech privacy. Springer. https://doi.org/10.1007/978-3-030-67379-8. ISBN 978-3-030-67378-1
Nuzhnyi, S. (2025). Udoskonalennia alhorytmu vidnovlennia linhvistychnoyi skladovoyi movnoyi informatsiyi fonemno-formantnym metodom dlia zadach otsinky rivnia yii zakhyshchenosti. Elektronne fakhove naukove vydannia Kiberbezpeka: osvita, nauka, tekhnika, 3(27). https://doi.org/10.28925/2663-4023.2025.27
Nuzhnyi, S. (2025). Adaptyvnyi fonemno-spektralnyi metod vidnovlennia movlennia v umovakh aktyvnykh akustychnykh zavad. Elektronne fakhove naukove vydannia Kiberbezpeka: osvita, nauka, tekhnika, 4(28). https://doi.org/10.28925/2663-4023.2025.28.794805
Nuzhnyi, S. (2025). Otsiniuvannia rivnia zakhyshchenosti skladnozashumlendnoyi movnoyi informatsiyi za kryteriiem zalyshkovoyi rozbirlyvosti movy. Elektronne fakhove naukove vydannia Kiberbezpeka: osvita, nauka, tekhnika, 1(29). https://doi.org/10.28925/2663-4023.2025.29.937
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2025 Сергій Нужний

Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.