НЕКЕРОВАНЕ РОЗПІЗНАВАННЯ ЕМОЦІЙНИХ СТАНІВ ОСІБ ЗА ДИНАМІКОЮ ПОЗИ НА ОСНОВІ САМОКОНТРОЛЬОВАНОГО КОНТРАСТНОГО НАВЧАННЯ
DOI:
https://doi.org/10.28925/2663-4023.2026.32.1006Ключові слова:
некероване навчання, розпізнавання емоцій, контрастне навчання, оцінка пози людини, Pose 3D CNN, LSTM, NT-Xent loss, режим реального часуАнотація
У статті представлено результати дослідження, спрямованого на вирішення актуальної проблеми автоматизованого розпізнавання емоцій за умови відсутності великих масивів маркованих даних. Основна ідея роботи полягає у використанні некерованого підходу до навчання нейронних мереж, що дозволяє виявляти емоційні патерни безпосередньо з геометрії та кінетики людського тіла. У вступній частині обґрунтовано необхідність переходу від класичних методів навчання з учителем до самоконтрольованих підходів (Self-Supervised Learning), що зумовлено високою вартістю та суб’єктивністю ручної розмітки емоційних станів. Визначено об’єкт, предмет та мету дослідження, яка полягає у створенні швидкої та точної системи розпізнавання семи базових емоцій у відеопотоці.
Розділ аналізу останніх досліджень демонструє, що існуючі рішення (OpenPose, MoveNet) успішно вирішують задачу оцінки пози, проте їх застосування для аналізу афективних станів зазвичай обмежене потребою у масштабних датасетах. Виявлено проблему, пов’язану з недостатньою увагою до некерованого вивчення саме емоційної складової рухів. У методичному розділі детально описано запропоновану гібридну архітектуру, що поєднує згорткову нейронну мережу (CNN) для просторового кодування поз та рекурентні блоки (LSTM) для аналізу часової динаміки. Ключовим елементом методології є впровадження структури SimCLR, де навчання відбувається через мінімізацію контрастної функції втрат NT-Xent. Математично обґрунтовано вплив температурного параметра на здатність моделі розрізняти візуально схожі пози (Hard Negatives), що забезпечує високу якість формування ознак у латентному просторі.
Експериментальна частина статті містить опис процесу тестування на базі міжнародних наборів даних (RAVDESS, CK+). Описано етапи попередньої обробки відео за допомогою MediaPipe Holistic, нормалізацію координат та створення позитивних пар даних для контрастного навчання. Результати експериментів підтвердили високу ефективність методу: використання лише 10% розмічених даних для фінального дотренування дозволило досягти точності 78,5%. Окрему увагу приділено продуктивності системи, яка становить 42–45 FPS, що підтверджує можливість її використання в реальному часі. У висновках підсумовано наукову новизну роботи, яка полягає у адаптації методів контрастного навчання для задачі емоційної кінетики тіла, та окреслено практичні перспективи впровадження розробки в галузях соціальної робототехніки, безпекових систем та людино-машинних інтерфейсів.
Завантаження
Посилання
Anandan, P., & Karthik, S. (2022). Comparative analysis of lightweight OpenPose and MoveNet AI models for real-time fall detection and alert systems. Sensors and Materials, 34(11), 4057–4072. https://doi.org/10.18494/SAM3994
Bhattacharya, U., Ronchi, C., Machlev, K., Xu, R., Han, S., & Manocha, D. (2021). Pose-SCLR: Self-supervised contrastive learning of skeleton representations for emotion recognition. In Proceedings of the 25th International Conference on Pattern Recognition (ICPR) (pp. 5608–5615). IEEE. https://doi.org/10.1109/ICPR48806.2021.9412128
Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020). A simple framework for contrastive learning of visual representations. In Proceedings of the 37th International Conference on Machine Learning (ICML) (Vol. 119, pp. 1597–1607).
Choutas, V., Pavlakos, G., Ng, M. J., Gulati, A., & Tzionas, D. (2022). ElePose: Unsupervised 3D human pose estimation by predicting camera elevation and learning normalizing flows on 2D poses. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (pp. 1312–1322).
Ding, Z., Han, K., & Zhou, W. (2022). Improving unsupervised label propagation for pose tracking and video object segmentation. In Proceedings of the European Conference on Computer Vision (ECCV) (pp. 214–231).
Jakab, T., Gupta, A., Bilen, H., & Radig, B. (2020). Unsupervised human pose estimation through transforming shape templates. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (pp. 2476–2486).
Khan, M. A., et al. (2021). Unsupervised machine learning to detect abnormal activities using CNN and 3D spatial-temporal autoencoder (3DSTAE). IEEE Access, 9, 87431–87445.
Kundu, A. S., et al. (2022). Self-supervised 3D human pose estimation from a single image. IEEE Transactions on Pattern Analysis and Machine Intelligence, 44(9), 5234–5248.
Lee, J., et al. (2023). Spatio-temporal graph convolutional networks vs CNN-LSTM for emotion recognition: A comparative study. Journal of Artificial Intelligence Research, 76, 441–465.
Livingstone, S. R., & Russo, F. A. (2018). The Ryerson audio-visual database of emotional speech and song (RAVDESS): A dynamic, multimodal set of facial and vocal expressions in North American English. PLOS ONE, 13(5), Article e0196391. https://doi.org/10.1371/journal.pone.0196391
Rao, H., et al. (2021). Contrastive learning for skeleton-based action recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (pp. 1913–1922).
Wang, N., Zhou, W., & Li, H. (2021). Unsupervised deep representation learning for real-time tracking. International Journal of Computer Vision, 129, 547–565.
Yadav, S. K., Singh, K., & Sharma, N. K. (2024). Real-time human pose estimation and tracking on monocular videos: A systematic literature review. Multimedia Tools and Applications, 83, 1245–1289.
Zhao, M., Adib, F., & Katabi, D. (2021). Emotion recognition using wireless signals and CNN-LSTM networks. IEEE Transactions on Affective Computing, 12(1), 75–88. https://doi.org/10.1109/TAFFC.2018.2855212
Zinchenko, O. V., Zvenihorodskyi, O. S., & Kysil, T. M. (2022). Convolutional neural networks for solving computer vision problems. Telecommunication and Information Technologies, (2), 4–12. https://tit.dut.edu.ua/index.php/telecommunication/article/view/2417
Zinchenko, O. V., & Kysil, T. M. (2025). Convolutional neural networks for moving object analysis in video streams. Zviazok, (4), 48–57. https://doi.org/10.31673/2412-9070.2025.042042
Kysil, T. M. (2025, December 11). CNN-LSTM approach to real-time emotion recognition based on pose. In Proceedings of the International Scientific and Practical Conference “Modern Achievements of Hewlett Packard Enterprise in IT and New Opportunities for Their Study and Application” (pp. 110–112).
Kovalchuk, O. V. (Ed.). (2022). Methods and technologies of semi-supervised learning: Lecture course. Naukova Dumka.
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2026 Тетяна Кисіль, Ольга Зінченко

Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.