АВТОМАТИЗОВАНЕ ВИЯВЛЕННЯ ВРАЗЛИВОСТЕЙ SQL-ІН'ЄКЦІЙ У ЧАТ-БОТАХ ЗА ДОПОМОГОЮ НАВЧАННЯ З ПІДКРІПЛЕННЯМ
DOI:
https://doi.org/10.28925/2663-4023.2025.29.873Ключові слова:
авчання з підкріпленням; SQL-ін'єкції; кібербезпека; penetration testing; PPO; A2C; REINFORCE.Анотація
У даній роботі досліджується застосування алгоритмів навчання з підкріпленням для автоматизованого виявлення вразливостей SQL-ін'єкцій у розмовних AI-агентах, які використовують API та бази даних. З цією метою було розроблено Gymnasium-сумісне середовище з назвою SQLiChatbotEnv та реалізовано систему на основі методів Proximal Policy Optimization (PPO), Advantage Actor-Critic (A2C) та REINFORCE для навчання інтелектуального агента виявляти та експлуатувати різні типи SQL-ін'єкцій в автоматизованому режимі. Створене середовище моделює реалістичні сценарії взаємодії з вразливими чат-ботами, включаючи багатокомпонентний простір дій, систему винагород та механізми відстеження прогресу виявлення вразливостей. Створене спеціалізоване середовище для навчання з підкріпленням SQLiChatbotEnv моделює реальні сценарії взаємодії з вразливими чат-ботами і дозволяє сконфігурувати чат-бот середовище з одним з п’яти основних систем управління базами даних на вибір (MySQL, PostgreSQL, Microsoft SQL Server, Oracle та SQLite). Також SQLiChatbotEnv підтримує декілька ключових типів SQL-ін'єкцій, таких як union-based атаки та error-based експлуатацію, і дозволяє досліджувати схему СУБД – виявляти назви таблиць та колонок. Система дає змогу використовувати обфускацію SQL-запитів у повідомленні до чатбота, що дозволяє обходити базові перевірки безпеки, які можуть бути у реальній системі. Контекстний фреймінг дає змогу використати природну інтеграцію SQL-ін'єкції у розмову, наприклад, маскування через фрази типу "I'm trying to understand...", імітуючи поведінку звичайного користувача. Для стимулювання агента до ефективного пошуку вразливостей система дозволяє конфігурувати винагороди та штрафи за типові дії, як-от виявлення нової інформації, витік даних або використання шаблону SQL-ін'єкції, несумісного з реальним типом БД. Проведено порівняльний аналіз ефективності трьох алгоритмів навчання з підкріпленням протягом 2500 епізодів тренування. Результати експериментів показують, що A2C демонструє найкращу комбінацію швидкості конвергенції та стабільності навчання, досягаючи винагороди 100 балів вже за 30 епізодів та фінальної продуктивності 232.82 ± 16.44 з найнижчим коефіцієнтом варіації 16.5%. PPO характеризується найповільнішою конвергенцією до високих порогів (221 епізод до винагороди 150) та найвищою варіативністю результатів (35.6%), але демонструє найкращу здатність до повного виявлення всіх типів вразливостей (87.4% епізодів). REINFORCE показує збалансовані проміжні результати з помірною швидкістю збіжності (145 епізодів до винагороди 100), стабільністю (коефіцієнт варіації 21.4%) та високою ефективністю дослідження вразливостей (78.0% епізодів з усіма типами атак). Практичне значення роботи полягає у створенні автоматизованого інструменту для тестування безпеки розмовних AI-агентів. Результати дослідження демонструють перспективність застосування навчання з підкріпленням для задач кібербезпеки та автоматизації процесів тестування на проникнення.
Завантаження
Посилання
OWASP Foundation. (2021). OWASP top 10: The ten most critical web application security risks. https://owasp.org/Top10/
MITRE. (2024). CWE top 25 most dangerous software weaknesses. https://cwe.mitre.org/top25/archive/2024/2024_cwe_top25.html
Capuano, N. (2022). A context-aware model for smart learning environments supporting decision making and adaptation. IEEE Access. Advance online publication. https://www.capuano.cloud/papers/IEEE_Access_2022.pdf
Papadopoulos, P., Iliadis, L., Pimenidis, E., & Loukas, G. (2020). Cybersecurity incident response training using a tabletop exercise approach: A case study from maritime logistics. In Proceedings of the 5th IEEE European Symposium on Security and Privacy Workshops (pp. 2–9). IEEE. https://conferences.computer.org/eurosp/pdfs/EuroSPW2020/859700a002.pdf
Del Verme, M., Sommervoll, Å. Å., Erdődi, L., Totaro, S., & Zennaro, F. M. (2021). SQL injections and reinforcement learning: An empirical evaluation of the role of action structure. In K. Bernsmed & B. Moen (Eds.), Secure IT systems: Proceedings of the 26th Nordic Conference, NordSec 2021 (pp. 95–113). Springer. https://doi.org/10.1007/978-3-030-91638-5_6
Becker, N., Reti, D., Ntagiou, E. V., Wallum, M., & Schotten, H. D. (2024). Evaluation of reinforcement learning for autonomous penetration testing using A3C, Q-learning and DQN. arXiv. https://arxiv.org/abs/2407.15656
Pedro, R., Coimbra, M. E., Castro, D., Carreira, P., & Santos, N. (2025). Prompt-to-SQL injections in LLM-integrated web applications: Risks and defenses. In Proceedings of the 47th IEEE/ACM International Conference on Software Engineering (ICSE) (pp. 76–88). IEEE. https://doi.org/10.1109/ICSE55347.2025.00007
Alghawazi, M., Alghazzawi, D., & Alarifi, S. (2022). Detection of SQL injection attack using machine learning techniques: A systematic literature review. Journal of Cybersecurity and Privacy, 2(4), 764–777. https://doi.org/10.3390/jcp2040039
Irungu, J. N., Jebur, H. H., Ibrahim, R. W., & Arpnikanondt, C. (2023). Artificial intelligence techniques for SQL injection attack detection. In Proceedings of the 12th International Conference on Software and Computer Applications (pp. 138–143). ACM. https://doi.org/10.1145/3591569.3591576
Al Wahaibi, S. A., Foley, M., & Maffeis, S. (2023). SQIRL: Grey-box detection of SQL injection vulnerabilities using reinforcement learning. In Proceedings of the 32nd USENIX Security Symposium (pp. 6097–6114). USENIX. https://www.usenix.org/conference/usenixsecurity23
Yang, Y., Chen, L., Liu, S., Wang, L., Fu, H., & Liu, X. (2025). Behaviour-diverse automatic penetration testing: A coverage-based deep reinforcement learning approach. Frontiers of Computer Science, 19, Article 193309. https://doi.org/10.1007/s11704-024-3380-1
Li, M., Zhu, T., Yan, H., Chen, T., & Lv, M. (2025). HER-PT: An intelligent penetration testing framework with hindsight experience replay. Computers & Security, 152, 104357. https://doi.org/10.1016/j.cose.2025.104357
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2025 Владислав Вікулов, Іван Пишнограєв

Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.