ЗАХИСТ ВЕЛИКИХ МОВНИХ МОДЕЛЕЙ: РИЗИКИ, ЗАГРОЗИ ТА ПІДХОДИ ДО БЕЗПЕКИ
DOI:
https://doi.org/10.28925/2663-4023.2025.29.918Ключові слова:
мовні моделі; Generative AI; кібербезпека; AI-фаєрвол; prompt injection; guardrails; watermarking; вразливість LLM.Анотація
У статті здійснено комплексний аналіз сучасних викликів у сфері безпеки великих мовних моделей (Large Language Models, LLM), які стали ключовим елементом цифрової трансформації у багатьох галузях. Розглянуто характерні загрози, що виникають як унаслідок цілеспрямованих атак на моделі, так і через їхнє зловмисне використання в кіберзлочинності. Визначено основні вектори ризику, серед яких найбільш небезпечними є prompt injection - впровадження у запит прихованих інструкцій для зміни логіки роботи моделі, а також джейлбрейкінг - формування запитів, що дозволяють обійти вбудовані обмеження та ініціювати небажану поведінку. Окремо підкреслено ризики витоку конфіденційних даних з навчальних наборів, генерації шкідливого або вразливого коду, здатного потрапити у виробничі середовища, а також поширення дезінформаційного контенту, включно з мультимедійними матеріалами типу deepfake. На основі проведеного аналізу запропоновано концептуальну модель безпеки LLM, яка передбачає поєднання технічних, архітектурних і нормативно-правових елементів захисту. Значна увага приділена оцінці та практичному застосуванню таких механізмів, як AI-фаєрволи - проміжні системи, що перевіряють запити й відповіді моделі; вбудовані захисні модулі, інтегровані в архітектуру LLM; а також guardrails - обмеження вихідних даних без втручання в параметри моделі. Додатково розглянуто методи watermarking для ідентифікації синтетичного контенту та інструменти виявлення згенерованої інформації. Важливою складовою є нормативне регулювання, яке встановлює рамки використання потужних моделей і створює основу для зниження ризиків зловживання. Зроблено висновок, що традиційні засоби кіберзахисту, орієнтовані на статичні або сигнатурні методи виявлення, є недостатніми для генеративних систем, які функціонують у динамічному мовному середовищі. Для підвищення рівня безпеки необхідно впроваджувати багаторівневі стратегії, що охоплюють усі етапи життєвого циклу LLM - від розробки й навчання до практичного застосування та регуляторного контролю.
Завантаження
Посилання
OpenAI. (2025). GPT-5 system card. OpenAI. https://openai.com/index/gpt-5-system-card/
Carlini, N., Tramer, F., Wallace, E., Jagielski, M., Herbert-Voss, A., Lee, K., … & Song, D. (2021). Extracting training data from large language models. In Proceedings of the 30th USENIX Security Symposium (pp. 2633–2650). USENIX Association.
Weidinger, L., Uesato, J., Rauh, M., Griffin, C., Huang, P. S., Mellor, J., … & Gabriel, I. (2021). Ethical and social risks of harm from language models. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (FAccT) (pp. 214–229). ACM.
Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the dangers of stochastic parrots: Can language models be too big? In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (FAccT) (pp. 610–623). ACM.
European Commission. (2024). Proposal for a regulation of the European Parliament and of the Council laying down harmonised rules on artificial intelligence (Artificial Intelligence Act). EUR-Lex. https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX:52021PC0206
Microsoft. (2023). Responsible AI standard v2. Microsoft. https://www.microsoft.com/ai/responsible-ai
Anthropic. (2023). Constitutional AI: Harmlessness from AI feedback. arXiv Preprint. arXiv:2212.08073. https://arxiv.org/abs/2212.08073
National Institute of Standards and Technology. (2023). AI risk management framework (AI RMF 1.0). U.S. Department of Commerce. https://www.nist.gov/itl/ai-risk-management-framework
Anthropic. (2023). Model card and evaluations for Claude models. Anthropic. https://www-cdn.anthropic.com/bd2a28d2535bfb0494cc8e2a3bf135d2e7523226/Model-Card-Claude-2.pdf
Wei, J., Tay, Y., Bommasani, R., Raffel, C., Zoph, B., Borgeaud, S., … & Metzler, D. (2023). Emergent abilities of large language models. arXiv Preprint. arXiv:2307.02483. https://arxiv.org/pdf/2307.02483
Azaria, A., & Mitchell, T. (2023). The internal state of an LLM knows when it’s lying. arXiv Preprint. arXiv:2305.07243. https://arxiv.org/pdf/2305.07243
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. arXiv Preprint. arXiv:1909.08593. https://arxiv.org/pdf/1909.08593
Stiennon, N., Ouyang, L., Wu, J., Ziegler, D. M., Lowe, R., Voss, C., Radford, A., Amodei, D., & Christiano, P. (2020). Learning to summarize with human feedback. arXiv Preprint. arXiv:2104.05218. https://arxiv.org/pdf/2104.05218
Liu, A., Pang, R. Y., Zeng, K., Wang, A., Xie, T., Chen, X., & Zhou, D. (2023). Trustworthy AI: A computational perspective. arXiv Preprint. arXiv:2301.10226. https://arxiv.org/pdf/2301.10226
Glukhov, D., Wiggers, K., & Young, T. (2023). The malicious use of generative AI for cyberattacks: A survey. Journal of Information Security and Applications, 75, 103666. Elsevier. https://doi.org/10.1016/j.jisa.2023.103666
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2025 Галина Гайдур; Вадим Власенко; Олександра Петрова

Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.