ОЦІНЮВАННЯ МАСШТАБОВАНОСТІ ГОЛОСОВИХ ЕМБЕДДІНГ-МОДЕЛЕЙ У БІОМЕТРИЧНИХ СИСТЕМАХ ВЕРИФІКАЦІЇ МОВЦЯ

Автор(и)

DOI:

https://doi.org/10.28925/2663-4023.2025.31.1042

Ключові слова:

голосова біометрія; масштабованість; верифікація мовця; ембеддінги; автентифікація; ECAPA-TDNN; Pyannote; WavLM.

Анотація

Стрімке розгортання цифрових платформ у фінансовому секторі, державному управлінні, електронній комерції та сервісних системах створює потребу у високонадійних та масштабованих засобах автентифікації користувачів. На цьому тлі біометричні технології, зокрема системи голосової автентифікації, демонструють значний потенціал завдяки поєднанню природної зручності взаємодії, мінімальних вимог до обладнання та можливості безперервної інтеграції у голосові інтерфейси. Однак швидке зростання числа користувачів і різноманіття сценаріїв використання формують нові виклики для дослідників і розробників. Сучасні системи мають забезпечувати високу точність у режимі реального часу, підтримувати стабільність роботи при збільшенні обсягів даних і гарантувати стійкість до кібератак, включаючи атаки із застосуванням синтетичної або модифікованої мови. Особливе значення набуває здатність моделей формувати компактні, інваріантні та робастні голосові ембеддінги, які забезпечують ефективне порівняння та класифікацію у великих базах даних. У статті проведено порівняльний аналіз масштабованості сучасних нейронних архітектур для задачі верифікації мовця, з акцентом на їх продуктивності, обчислювальній складності та поведінці при збільшенні кількості зареєстрованих користувачів. Розглянуто підходи до оптимізації моделей, методи індексованого пошуку ембеддінгів, а також роль репрезентативних багатомовних корпусів у підвищенні точності в умовах акустичної та мовної варіативності. Окрему увагу приділено питанням захисту від spoofing-атак та використанню спеціалізованих методів детекції синтетичної мови як невід’ємної складової масштабованих систем голосової біометрії. Отримані результати підкреслюють необхідність комплексного підходу до побудови сучасних систем голосової автентифікації, де інженерні рішення щодо архітектури поєднуються з вимогами інформаційної безпеки, високої продуктивності та здатності до адаптації в умовах динамічного зростання цифрових сервісів.

Завантаження

Дані завантаження ще не доступні.

Посилання

Biostatistics.io. (n.d.). Implementing biometrics for large-scale applications: Overcoming 6 challenges. https://biostatistics.io/qa/implementing-biometrics-for-large-scale-applications-overcoming-6-challenges

Ruda, K. (2025). Study of the scalability of biometric authentication systems based on voice embeddings. Social Development and Security, 15(1), 161–170. https://doi.org/10.33445/sds.2025.15.1.15

Brydinskyi, V., Khoma, Y., Sabodashko, D., Podpora, M., Khoma, V., Konovalov, A., & Kostiak, M. (2024). Comparison of modern deep learning models for speaker verification. Applied Sciences, 14(4), Article 1329. https://doi.org/10.3390/app14041329

Thienpondt, J., & Demuynck, K. (2023). ECAPA2: A hybrid neural network architecture and training strategy for robust speaker embeddings. In 2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU) (pp. 1–8). IEEE. https://doi.org/10.1109/ASRU57964.2023.10389750

Deng, F., Huang, R., Jiang, P., & Deng, L. (2025). Dense-Fusion2Net: A more efficient and lightweight short speech speaker recognition system with time-frequency channel attention. Scientific Reports, 15, 9601. https://doi.org/10.1038/s41598-025-93873-x

Sharma, R., Govind, D., Mishra, J., Dubey, A. K., Deepak, K. T., & Prasanna, S. R. M. (2024). Milestones in speaker recognition. Artificial Intelligence Review, 57, Article 58. https://doi.org/10.1007/s10462-023-10688-w

Chen, G., et al. (2023). Towards understanding and mitigating audio adversarial examples for speaker recognition. IEEE Transactions on Dependable and Secure Computing, 20(5), 3970–3987. https://doi.org/10.1109/TDSC.2022.3220673

Chen, Z., & Xu, S. (2023). Learning domain-heterogeneous speaker recognition systems with personalized continual federated learning. EURASIP Journal on Audio, Speech, and Music Processing, 2023, Article 33. https://doi.org/10.1186/s13636-023-00299-2

RudderAnalytics. (n.d.). Building a robust speaker verification system for secure voice authentication. Medium. https://medium.com/@rudderanalytics/voice-based-security-implementing-a-robust-speaker-verification-system-12c5fd98f1c1

Sharif-Noughabi, M., Razavi, S. M., & Mohamadzadeh, S. (2025). Improving the performance of speaker recognition system using optimized VGG convolutional neural network and data augmentation. International Journal of Engineering, 38(10), 2414–2425. https://doi.org/10.5829/ije.2025.38.10a.17

Amazon Science Blog. (n.d.). On-device speech processing makes Alexa faster, lower bandwidth. https://www.amazon.science/blog/on-device-speech-processing-makes-alexa-faster-lower-bandwidth

Google Research. (n.d.). An overview of speech recognition techniques. https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/42535.pdf

Hugging Face. (2023). ua-polit-tiny [Dataset]. https://huggingface.co/datasets/vbrydik/ua-polit-tiny

Alice Biometrics. (2023). Defining the core accuracy metrics of biometric systems. https://alicebiometrics.com/en/defining-the-core-accuracy-metrics-of-biometric-systems

Downloads


Переглядів анотації: 0

Опубліковано

2025-12-16

Як цитувати

Руда, Х., Кос, І., & Ахмедова, А. (2025). ОЦІНЮВАННЯ МАСШТАБОВАНОСТІ ГОЛОСОВИХ ЕМБЕДДІНГ-МОДЕЛЕЙ У БІОМЕТРИЧНИХ СИСТЕМАХ ВЕРИФІКАЦІЇ МОВЦЯ. Електронне фахове наукове видання «Кібербезпека: освіта, наука, техніка», 3(31), 528–540. https://doi.org/10.28925/2663-4023.2025.31.1042