RETRIEVAL-AUGMENTED GENERATION FOR FORENSIC LEGAL ANALYSIS: INTEGRATION OF UKRAINIAN CRIMINAL CODE WITH MOBILE DEVICE EVIDENCE

Тарас Фединишин; Ольга Партика

doi:10.28925/2663-4023.2026.32.1196

Автор(и)

Тарас Фединишин Національний університет «Львівська Політехніка» https://orcid.org/0009-0006-8233-8057
Ольга Партика Національний університет «Львівська Політехніка» https://orcid.org/0000-0002-3086-3160

DOI:

https://doi.org/10.28925/2663-4023.2026.32.1196

Ключові слова:

Retrieval-Augmented Generation; Legal NLP; Ukrainian Criminal Code; Digital Forensics; Multilingual Embeddings; SLM; LLM, Mobile Forensics.

Анотація

Цифрові криміналістичні розслідування в Україні вимагають від аналітиків класифікації доказів, отриманих із мобільних пристроїв, відповідно до положень Кримінального кодексу, що є трудомістким процесом і потребує глибокої правової експертизи. У цій статті представлено першу систему генерації з доповненням вибіркою (retrieval-augmented generation, RAG) для аналізу Кримінального кодексу України з акцентом на Розділ I («Злочини проти основ національної безпеки України»). Було сформовано базу даних із 9 статей, що охоплюють державну зраду, шпигунство, колабораційну діяльність і диверсію, та здійснено оцінювання системи на основі 60 синтетичних криміналістичних сценаріїв із детерміновано сформованою еталонною розміткою (ground truth). У межах експериментів порівнювалися чотири стратегії сегментації тексту, три багатомовні моделі ембедингів і чотири великі мовні моделі (як API-орієнтовані, так і розгорнуті локально). Найкраща конфігурація пошуку досягла показника MRR на рівні 0,588 із використанням ембедингів multilingual-e5-large та сегментації на рівні частин статей. Для наскрізної класифікації RAG у поєднанні з GPT-4o-mini забезпечила точність ідентифікації статті на рівні 54,2 %, перевищивши базову модель few-shot prompting (29,2 %, p = 0,03), проте не продемонструвала статистично значущого покращення порівняно з прямим застосуванням LLM (52,1 %, p = 0,89). Обґрунтовується, що основна перевага RAG для криміналістичних застосувань полягає не стільки в підвищенні точності класифікації, скільки у забезпеченні обґрунтованості, прозорості та належного управління: витягнуті правові норми є відстежуваними та верифікованими, база знань може оновлюватися без перенавчання моделі, а система підтримує повністю локальне розгортання у випадках, коли докази не можуть залишати межі організації. Локальні великі мовні моделі досягають 77 % продуктивності API-рішень (41,7 % точності), що підтверджує можливість локального розгортання за умови певного зниження точності.

Завантаження

Дані завантаження ще не доступні.

Посилання

Verkhovna Rada of Ukraine. (2001). Criminal Code of Ukraine. https://zakon.rada.gov.ua/laws/show/2341-14

Mykhaylova, O., Fedynyshyn, T., Sokolov, V., & Kyrychok, R. (2024). Person-of-interest detection on mobile forensics data: AI-driven roadmap. CEUR Workshop Proceedings, 3654, 239–252. https://ceur-ws.org/Vol-3654/paper20.pdf

Brown, T., et. al., (2020). Language models are few-shot learners. Advances in Neural Information Processing Systems, 33, 1877–1901. https://proceedings.neurips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html

Lewis, P., et. al. (2020). Retrieval-augmented generation for knowledge-intensive NLP tasks. Advances in Neural Information Processing Systems, 33, 9459-9474. https://proceedings.neurips.cc/paper/2020/hash/6b493230205f780e1bc26945df7481e5-Abstract.html

Robertson, S., & Zaragoza, H. (2009). The probabilistic relevance framework: BM25 and beyond. Foundations and Trends in Information Retrieval, 3(4), 333–389. https://doi.org/10.1561/1500000019

Karpukhin, V., Oguz, B., Min, S., Lewis, P., Wu, L., Edunov, S., … Yih, W. (2020). Dense passage retrieval for open-domain question answering. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (pp. 6769–6781). https://doi.org/10.18653/v1/2020.emnlp-main.550

Reimers, N., & Gurevych, I. (2019). Sentence-BERT: Sentence embeddings using siamese BERT-networks. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing (pp. 3982–3992). https://doi.org/10.18653/v1/D19-1410

Zhong, H., Xiao, C., Tu, C., Zhang, T., Liu, Z., & Sun, M. (2020). How does NLP benefit legal systems: A summary of legal artificial intelligence. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (pp. 5218–5230). https://doi.org/10.18653/v1/2020.acl-main.466

Chalkidis, I., Fergadiotis, M., Malakasiotis, P., Aletras, N., & Androutsopoulos, I. (2020). LEGAL-BERT: The muppets straight out of law school. In Findings of the Association for Computational Linguistics: EMNLP 2020 (pp. 2898–2904). https://doi.org/10.18653/v1/2020.findings-emnlp.261

Reuter, M., Lingenberg, T., Liepina, R., Lagioia, F., Lippi, M., Sartor, G., Passerini, A., & Sayin, B. (2025). Towards reliable retrieval in RAG systems for large legal datasets. In Proceedings of the Natural Legal Language Processing Workshop 2025. https://doi.org/10.18653/v1/2025.nllp-1.3

Ho, J., Colby, A., & Fisher, W. (2025). Incorporating legal structure in retrieval-augmented generation: A case study on copyright fair use. arXiv. https://doi.org/10.48550/arXiv.2505.02164

Feng, F., Yang, Y., Cer, D., Arivazhagan, N., & Wang, W. (2022). Language-agnostic BERT sentence embedding. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (pp. 878–891). https://doi.org/10.18653/v1/2022.acl-long.62

Wang, L., Yang, N., Huang, X., Yang, L., Majumder, R., & Wei, F. (2024). Multilingual E5 text embeddings: A technical report. arXiv. https://doi.org/10.48550/arXiv.2402.05672

Lillis, D., Becker, B., O’Sullivan, T., & Scanlon, M. (2016). Current challenges and future research areas for digital forensic investigation. In Proceedings of the Annual ADFSL Conference on Digital Forensics, Security and Law (pp. 9–20). https://commons.erau.edu/adfsl/2016/tuesday/5/

Dunsin, D., Ghanem, M. C., Ouazzane, K., & Vassilev, V. (2023). Artificial intelligence and machine learning in digital forensics and incident response. Forensic Science International: Digital Investigation, 48, 301675. https://doi.org/10.1016/j.fsidi.2023.301675

Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., Wang, L., & Chen, W. (2022). LoRA: Low-rank adaptation of large language models. In International Conference on Learning Representations (ICLR 2022). https://openreview.net/forum?id=nZeVKeeFYf9

Johnson, J., Douze, M., & Jégou, H. (2019). Billion-scale similarity search with GPUs. IEEE Transactions on Big Data, 7(3), 535–547. https://doi.org/10.1109/TBDATA.2019.2921572

Voorhees, E. M. (1999). The TREC-8 question answering track report. In Proceedings of the Eighth Text REtrieval Conference (TREC-8) (pp. 77–82). https://trec.nist.gov/pubs/trec8/papers/qa_report.pdf