АДАПТИВНИЙ ФОНЕМНО-СПЕКТРАЛЬНИЙ МЕТОД ВІДНОВЛЕННЯ МОВЛЕННЯ В УМОВАХ АКТИВНИХ АКУСТИЧНИХ ЗАВАД

Автор(и)

DOI:

https://doi.org/10.28925/2663-4023.2025.28.794805

Ключові слова:

спектральна огинаюча; форманти; вейвлет-фільтрація; енергетичний центр μ; σ; SNR; STI; активні акустичні завади.

Анотація

У статті розгорнуто фонемно-спектральну методологію відновлення складнозашумленої мови, орієнтовану на інтерпретованість параметрів і відтворення фізично узгодженої огинаючої у присутності активних акустичних завад. Підхід поєднує локальні характеристики пікових компонент (амплітуди Aᵢ, частоти Fᵢ, ширини σᵢ) з глобальним енергетичним центром μ, забезпечуючи стійке відновлення контурів формант при знижених SNR та збереження енергетичного балансу між низько- і високочастотними ділянками. На першому етапі сигнал переводиться у спектральну область (FFT), виконується нормування амплітуд і визначається робочий діапазон частот. Початкова спектральна огинаюча задається сумою гауссових компонент, ініціалізованих за локальними енергетичними максимумами, з подальшим уточненням параметрів мінімізацією похибки між спектром фонеми /ж/ та його огинаючою. Для пригнічення шуму застосовується дискретне вейвлет-перетворення (sym8, L=3) із порогом λ=κσₙ√(2lnN), що зберігає форму піків і зменшує артефакти. Плавність сплайн-огинаючої визначається частотно-залежним логарифмічним законом s(f)=a·log₁₀(1+b·f), який підвищує щільність вузлів у ВЧ-зоні і дає змогу точно апроксимувати швидкі зміни без перенавчання на шумі. Комбінована σᵢ×f(μ)-модель коригує локальні ширини з урахуванням глобального енергетичного центру, завдяки чому поліпшується узгодженість високочастотної та низькочастотної частин огинаючої. Запропонована процедура узгоджується з психоакустичними шкалами (Bark/Mel) і сумісна з об’єктивними метриками інтелігибельності (STI), що дає можливість аналітично інтерпретувати внесок кожного параметра в підсумкову оцінку якості. На фонемі /ж/ продемонстровано зменшення RMSE приблизно до 4 % при SNR ≈ −6 дБ у фізичному масштабі амплітуди, а також стабільність μ під час варіації порогів вейвлет-денойзингу. Методологія придатна для експертизи приміщень з активним маскуванням і для завдань безпеки, пов’язаних з оцінюванням інформативності мовних каналів. Алгоритм містить прозорі етапи валідації (порівняння з еталонними формантами, аналіз μ-балансу, порівняння моделей σᵢ, μ та комбінованої), що спрощує перенесення на інші класи фонем без втрати інтерпретованості.

Завантаження

Дані завантаження ще не доступні.

Посилання

IEC. (2020). IEC 60268-16:2020 — Sound system equipment — Part 16: Objective rating of speech intelligibility by STI. https://webstore.iec.ch/publication/50288

ISO. (2022). ISO 3382-3:2022 — Acoustics — Measurement of room acoustic parameters — Part 3: Open plan offices. https://www.iso.org/standard/76544.html

Delle Macchie, S., Secchi, S., & Cellai, G. (2018). Acoustic issues in open plan offices: A typological analysis. Buildings, 8(11), 161. https://doi.org/10.3390/buildings8110161

Mallat, S. (1989). A theory for multiresolution signal decomposition: The wavelet representation. IEEE TPAMI, 11(7), 674–693. https://doi.org/10.1109/34.192463

Donoho, D. L. (1995). Denoising by soft-thresholding. IEEE TIT, 41(3), 613–627. https://doi.org/10.1109/18.376450

Zhou, S., Zhao, Y., Kong, Q., & Wang, H. (2021). Improved wavelet-based speech denoising using adaptive thresholds. Applied Acoustics, 178, 108043. https://doi.org/10.1016/j.apacoust.2021.108043

Kong, Q., Chen, Z., He, J., & Zhao, Y. (2023). Neural spectral envelope estimation. Speech Communication, 151, 45–56. https://doi.org/10.1016/j.specom.2023.02.004

Zezario, R. E., Lee, C., Kim, K., & Kang, H. G. (2020). STOI-Net: A deep learning-based non-intrusive speech intelligibility assessment model. arXiv:2011.04292. https://arxiv.org/abs/2011.04292

Hall, J. W. (1967). Formant frequency analysis of speech sounds. JASA, 42(4), 974–982. https://doi.org/10.1121/1.1910097

Pollack, I., & Pickett, J. M. (1958). Masking of speech by noise at high sound levels. JASA, 30(6), 575–581. https://doi.org/10.1121/1.1909555

Chen, Y., He, X., Xu, S., & Chen, X. (2022). An evaluation framework on ultrasonic microphone jammers. IEEE INFOCOM Workshops. https://doi.org/10.1109/INFOCOMWKSHPS54753.2022.9798304

Kozhamkulova, F., Shaimerdenova, N., Issayeva, A., & Varol, C. (2024). A hybrid approach to enhanced signal denoising using VMD and DFA. Applied Sciences, 14(23), 10866. https://doi.org/10.3390/app142310866

IEC. (2020). IEC 60268-16:2020 — Sound system equipment — Part 16: Objective rating of speech intelligibility by STI. https://webstore.iec.ch/publication/50288

ANSI. (2017). ANSI S3.5-1997 (R2017): Speech intelligibility index. https://webstore.ansi.org/standards/asa/ansis31997r2017

Beranek, L. (1954). Acoustics. McGraw-Hill. https://archive.org/details/acoustics_beranek

Rabiner, L., & Schafer, R. (2010). Theory and applications of digital speech processing. Prentice Hall. https://www.pearson.com/en-us/subject-catalog/p/digital-speech-processing/P200000009873

Chen, B., & Gersho, A. (1979). Adaptive filter models for speech analysis. IEEE Trans. ASSP, 27(4), 351–363. https://ieeexplore.ieee.org/document/1163208

Boll, S. (1979). Suppression of acoustic noise in speech using spectral subtraction. IEEE Trans. ASSP, 27(2), 113–120. https://doi.org/10.1109/TASSP.1979.1163209

Lim, J. S. (1979). Two-step noise reduction algorithms. IEEE Trans. ASSP, 27(2), 130–136. https://ieeexplore.ieee.org/document/1163210

Ephraim, Y., & Malah, D. (1984). Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator. IEEE Trans. ASSP, 32(6), 1109–1121. https://ieeexplore.ieee.org/document/1164453

Loizou, P. (2013). Speech enhancement: Theory and practice. CRC Press. https://www.routledge.com/Speech-Enhancement-Theory-and-Practice/Loizou/p/book/9781138074995

Xu, Y., Du, J., Dai, L., & Lee, C.-H. (2015). A regression approach to speech enhancement based on deep neural networks. IEEE/ACM TASLP, 23(1), 7–19. https://doi.org/10.1109/TASLP.2015.2405471

Fletcher, H., & Steinberg, J. C. (1929). Articulation testing methods. Bell System Technical Journal, 8(4), 806–854. https://ieeexplore.ieee.org/document/6731076

Collard, J. A. (1929). A theoretical study of telephone articulation. Electrical Communication, 7(3), 168–186. https://archive.org/details/electricalcommunication

MathWorks. (2023). Find local maxima — peak prominence and width. MATLAB Signal Processing Toolbox Documentation. URL: https://www.mathworks.com/help/signal/ref/findpeaks.html

Virtanen, P., et al. (2020). SciPy 1.0: Fundamental Algorithms for Scientific Computing in Python. Nature Methods, 17, 261–272.

Chen, S., et al. (2001). Wavelet transform for ECG denoising. IEEE EMBS. doi:10.1109/IEMBS.2001.1017204

Downloads


Переглядів анотації: 1

Опубліковано

2025-06-26

Як цитувати

Нужний, С. (2025). АДАПТИВНИЙ ФОНЕМНО-СПЕКТРАЛЬНИЙ МЕТОД ВІДНОВЛЕННЯ МОВЛЕННЯ В УМОВАХ АКТИВНИХ АКУСТИЧНИХ ЗАВАД. Електронне фахове наукове видання «Кібербезпека: освіта, наука, техніка», 4(28), 794–805. https://doi.org/10.28925/2663-4023.2025.28.794805