МЕТОД АДАПТИВНОГО ВІДБОРУ ТА ЗВАЖУВАННЯ ОЗНАК НЕПРАВДИВОЇ ІНФОРМАЦІЇ ДЛЯ ПІДВИЩЕННЯ ЕФЕКТИВНОСТІ ЇЇ ВИЯВЛЕННЯ В УМОВАХ ГІБРИДНОЇ ВІЙНИ

Дмитро Дженджеро; Володимир Наконечний

doi:10.28925/2663-4023.2026.33.1166

Автор(и)

Дмитро Дженджеро Київський національний університет імені Тараса Шевченка https://orcid.org/0009-0007-9999-850X
Володимир Наконечний Київський національний університет імені Тараса Шевченка https://orcid.org/0000-0002-0247-5400

DOI:

https://doi.org/10.28925/2663-4023.2026.33.1166

Ключові слова:

неправдива інформація, виявлення фейків, гібридна війна, відбір ознак, TF-IDF, логістична регресія, тріаж ризику, інформаційна безпека

Анотація

У статті розв’язано актуальне для умов гібридної війни завдання підвищення ефективності виявлення неправдивої інформації в текстових повідомленнях. Актуальність дослідження зумовлена тим, що дезінформаційні впливи в сучасному інформаційному середовищі використовуються як інструмент підриву довіри до державних інституцій, викривлення сприйняття подій, дестабілізації суспільних настроїв і створення додаткового навантаження на системи прийняття рішень. У вступі обґрунтовано потребу в інтерпретованому та ресурсно-ефективному методі, придатному для роботи з великими, динамічними та незбалансованими потоками повідомлень. У постановці проблеми показано, що використання повного ознакового простору підвищує обчислювальну складність, ускладнює пояснення рішень і не враховує потребу в пріоритезації перевірки повідомлень за рівнем ризику. У розділі аналізу останніх досліджень і публікацій узагальнено сучасні підходи до виявлення неправдивої інформації, зокрема контентні, фактологічні, поведінкові та гібридні моделі, а також підходи до оцінювання дезінформаційних ризиків в умовах війни. У теоретичних основах дослідження систематизовано положення щодо відбору ознак, побудови ознакового простору, термового зважування, оцінювання якості класифікації та використання PR/ROC-подань в умовах дисбалансу класів. На цій основі сформовано концептуальну рамку методу адаптивного відбору та зважування ознак неправдивої інформації. У методиці дослідження описано експериментальну перевірку на відкритому українськомовному корпусі новин, тематично пов’язаних із подіями війни Російської Федерації проти України. Після очищення корпусу, вилучення порожніх записів і дублікатів, а також застосування фільтра довжини не менше 200 символів сформовано вибірку обсягом 29372 повідомлення, з яких 353 належать до класу неправдивої інформації, а 29019 — до класу правдивої інформації. Для побудови ознакового опису використано TF-IDF для уніграм і біграм, а як базову модель — логістичну регресію. Відбір ознак реалізовано за схемою
χ² + top‑K з перевіркою кількох значень K на валідаційній вибірці; робочим варіантом обрано K=5000. Для практичного використання скорингу введено трирівневий тріаж ризику на основі 80-го та 95-го процентилів скорингу. У розділі результатів показано, що скорочення ознакового простору з 30000 до 5000 ознак не призводить до суттєвого погіршення якості класифікації: на тестовій вибірці значення F1 зменшується з 0,768 до 0,760, а PR-AUC — з 0,819 до 0,805. Водночас тріаж ризику підтвердив практичну придатність методу: високоризикова група охопила 256 повідомлень із 4406 на тестовій вибірці та містила 50 із 53 фейків, тоді як у низькоризиковій групі зафіксовано лише 1 фейк. У висновках обґрунтовано, що запропонований метод може застосовуватися як інтерпретований та ресурсно-ефективний компонент систем моніторингу інформаційного простору, а подальші дослідження доцільно спрямувати на розширення набору ознак і перевірку методу на інших українськомовних корпусах.

Завантаження

Дані завантаження ще не доступні.

Посилання

Allcott, H., & Gentzkow, M. (2017). Social media and fake news in the 2016 election. Journal of Economic Perspectives, 31(2), 211-236. https://doi.org/10.1257/jep.31.2.211

Lazer, D. M. J., Baum, M. A., Benkler, Y., Berinsky, A. J., Greenhill, K. M., Menczer, F., Metzger, M. J., Nyhan, B., Pennycook, G., Rothschild, D., Schudson, M., Sloman, S. A., Sunstein, C. R., Thorson, E. A., Watts, D. J., & Zittrain, J. L. (2018). The science of fake news. Science, 359(6380), 1094-1096. https://doi.org/10.1126/science.aao2998

Wardle, C., & Derakhshan, H. (2017). Information disorder: Toward an interdisciplinary framework for research and policy making. Council of Europe. https://edoc.coe.int/en/media/7495-information-disorder-toward-an-interdisciplinary-framework-for-research-and-policy-making.html

Vosoughi, S., Roy, D., & Aral, S. (2018). The spread of true and false news online. Science, 359(6380), 1146–1151. https://doi.org/10.1126/science.aap9559

Zhou, X., & Zafarani, R. (2021). A survey of fake news: Fundamental theories, detection methods, and opportunities. ACM Computing Surveys, 53(5), Article 109, 1-40. https://doi.org/10.1145/3395046

Shu, K., Sliva, A., Wang, S., Tang, J., & Liu, H. (2017). Fake news detection on social media: A data mining perspective. ACM SIGKDD Explorations Newsletter, 19(1), 22-36. https://doi.org/10.1145/3137597.3137600

Ruchansky, N., Seo, S., & Liu, Y. (2017). CSI: A hybrid deep model for fake news detection. In Proceedings of the 2017 ACM on Conference on Information and Knowledge Management (pp. 797-806). ACM. https://doi.org/10.1145/3132847.3132877

Maschmeyer, L., Abrahams, A., Pomerantsev, P., & Yermolenko, V. (2025). Donetsk don’t tell – “hybrid war” in Ukraine and the limits of social media influence operations. Journal of Information Technology & Politics, 22(1), 49-64. https://doi.org/10.1080/19331681.2023.2211969

Bachmann, S.-D. D., Putter, D., & Duczynski, G. (2023). Hybrid warfare and disinformation: A Ukraine war perspective. Global Policy, 14(5), 858-869. https://doi.org/10.1111/1758-5899.13257

Tyshchenko, V. S., & Muzhanova, T. M. (2022). Dezinformatsiia i feikovi novyny: Oznaky ta metody vyiavlennia v merezhi Internet [Disinformation and fake news: Features and methods of detection on the Internet]. Kiberbezpeka: osvita, nauka, tekhnika, 2(18), 175-186. https://doi.org/10.28925/2663-4023.2022.18.175186

Kohavi, R., & John, G. H. (1997). Wrappers for feature subset selection. Artificial Intelligence, 97(1-2), 273–324. https://doi.org/10.1016/S0004-3702(97)00043-X

Hall, M. A. (1999). Correlation-based feature selection for machine learning (Doctoral dissertation, University of Waikato). https://www.cs.waikato.ac.nz/ml/publications/1999/99MH-Thesis.pdf

Forman, G. (2003). An extensive empirical study of feature selection metrics for text classification. Journal of Machine Learning Research, 3, 1289-1305. https://www.jmlr.org/papers/v3/forman03a.html

Salton, G., & Buckley, C. (1988). Term-weighting approaches in automatic text retrieval. Information Processing & Management, 24(5), 513-523. https://doi.org/10.1016/0306-4573(88)90021-0

Shannon, C. E. (1951). Prediction and entropy of printed English. Bell System Technical Journal, 30(1), 50-64. https://doi.org/10.1002/j.1538-7305.1951.tb01366.x

Piantadosi, S. T. (2014).Zipf’s word frequency law in natural language:A critical review and future directions.Psychonomic Bulletin & Review, 21(5), 1112-1130. https://doi.org/10.3758/s13423-014-0585-6

Sokolova, M., & Lapalme, G. (2009). A systematic analysis of performance measures for classification tasks. Information Processing & Management, 45(4), 427-437. https://doi.org/10.1016/j.ipm.2009.03.002

Saito, T., & Rehmsmeier, M. (2015). The precision-recall plot is more informative than the ROC plot when evaluating binary classifiers on imbalanced datasets. PLOS ONE, 10(3), e0118432. https://doi.org/10.1371/journal.pone.0118432

Davis, J., & Goadrich, M. (2006). The relationship between precision-recall and ROC curves. In Proceedings of the 23rd International Conference on Machine Learning (pp. 233-240). ACM. https://doi.org/10.1145/1143844.1143874

Zepopo. (n.d.). Ukrainian fake and true news [Data set]. Kaggle. https://www.kaggle.com/datasets/zepopo/ukrainian-fake-and-true-news