RECONSTRUCTING ENTITY RELATIONSHIPS IN DATABASE SCHEMAS WITH PLANTUML AND LLMS

Анатолій Куротич; Леся Булатецька; Оксана Онищук

doi:10.28925/2663-4023.2025.29.847

Автор(и)

Анатолій Куротич Волинський національний університет імені Лесі Українки https://orcid.org/0009-0006-8186-4063
Леся Булатецька Волинський національний університет імені Лесі Українки https://orcid.org/0000-0002-7202-826X
Оксана Онищук Волинський національний університет імені Лесі Українки https://orcid.org/0000-0002-8342-3011

DOI:

https://doi.org/10.28925/2663-4023.2025.29.847

Ключові слова:

ERD-діаграма, автоматизація, реляційні бази даних, великі мовні моделі (LLMs), ChatGPT-4o, Claude 3.7

Анотація

У роботі досліджуються перспективи використання великих мовних моделей (LLMs) для автоматичного відновлення зв’язків між таблицями в SQL-базах даних з неповністю визначеними зовнішніми ключами. Для оцінки спроможності LLM-моделі відтворювати зовнішні ключі на основі текстового опису структури таблиць була сформована експериментальна база даних. Cхема бази даних без зв’язків була подана на вхід двом великим мовним моделям ChatGPT-4o та Claude 3.7 Sonnet. Для аналізу LLMs було надано лише базову інформацію: назви таблиць, назви полів і первинні ключі — без жодних прикладів даних. Модель ChatGPT-4o успішно виявила всі зв’язки між таблицями, проте продемонструвала обмеження у визначенні типів цих зв’язків: усі вони були класифіковані як «один до одного», незалежно від їх фактичної природи. Це свідчить про недостатню здатність моделі точно інтерпретувати семантику реляційних зв’язків на основі текстового опису. Натомість модель Claude 3.7 Sonnet не лише коректно ідентифікувала всі наявні зв’язки, а й правильно визначила їх типи (наприклад, «один до багатьох»), що демонструє вищу точність і глибше розуміння структури бази даних у рамках поставленого завдання. Опис структури таблиць подавався мовним моделям у форматі PlantUML, що забезпечило стандартизоване, чітке та однозначне представлення вхідних даних для обробки. На основі результатів моделювання були побудовані ER-діаграми також у форматі PlantUML. Експеримент підтверджує ефективність LLMs у реконструкції відсутніх зовнішніх ключів та демонструє їхній потенціал для автоматизованого аналізу, документації та вдосконалення наявних баз даних. Дотримання послідовних правил іменування під час проєктування схеми суттєво спрощує як роботу розробників, так і автоматизовану обробку структур баз даних інтелектуальними системами, відіграючи ключову роль у цих процесах.

Завантаження

Дані завантаження ще не доступні.

Посилання

OpenAI. GPT-4 Technical Report. OpenAI, arXiv:2303.08774 [cs.CL], 2024. doi: 10.48550/arXiv.2303.08774

Anthropic. Introducing Claude, 2023. URL: https://www.anthropic.com/news/introducing-claude

Touvron, H., Lavril, T., Izacard, G., et al. LLaMA: Open and Efficient Foundation Language Models. Meta AI, arXiv:2302.13971 [cs.CL], 2023. doi: 10.48550/arXiv.2302.13971

PlantUML, 2025. URL: https://plantuml.com/.

Mermaid | Diagramming and charting tool. 2025. URL: https://mermaid.js.org/

J. Romeo, M. Raglianti, C. Nagy and M. Lanza, "UML is Back. Or is it? Investigating the Past, Present, and Future of UML in Open Source Software," in 2025 IEEE/ACM 47th International Conference on Software Engineering (ICSE), Ottawa, ON, Canada, 2025, pp. 692-692, doi: 10.1109/ICSE55347.2025.00155.

Terrastruct, Text to diagram, 2025. URL: https://text-to-diagram.com/.

Feras A. Batarseh, Rasika Mohod, Abhinav Kumar, Justin Bui, 10 - The application of artificial intelligence in software engineering: a review challenging conventional wisdom. Data Democracy (2020) 179-232. doi: 10.1016/B978-0-12-818366-3.00010-1

Javier Cámara, Javier Troya, Lola Burgueño, Antonio Vallecillo, On the assessment of generative AI in modeling tasks: an experience report with ChatGPT and UML. Software and Systems Modeling 22 (2023), 781–793. doi: 10.1007/s10270-023-01105-5

D. Rouabhia, I. Hadjadj, Enhancing Class Diagram Dynamics: A Natural Language Approach with ChatGPT, arXiv:2406.11002v1 [cs.SE], 2024. doi: 10.48550/arXiv.2406.11002.

Härer, Felix, Conceptual model interpreter for large language models. arXiv:2311.07605 [cs.SE], 2023. doi:10.48550/arXiv.2311.07605.

Conrardy, Aaron, and Jordi Cabot, From image to uml: first results of image based uml diagram generation using llms. arXiv:2404.11376 [cs.SE], 2024. doi:10.48550/arXiv.2404.11376

Hideyuki Kanuka, Genta Koreki, Ryo Soga, Kazu Nishikawa, Exploring the chatgpt approach for bidirectional traceability problem between design models and code. arXiv:2309.14992, 2023. doi: 10.48550/arXiv.2309.14992

Malik Abdul Sami, Muhammad Waseem, Zeeshan Rasheed, Mika Saari, Kari Systä, Pekka Abrahamsson. Experimenting with multi-agent software development: Towards a unified platform. arXiv:2406.05381, 2024. doi:10.48550/arXiv.2406.05381

O. Kurotych, L. V. Bulatetska, Optimizing the process of ER diagram creation with PlantUML, CEUR Workshop Proceedings (2025) 47–57. https://cssesw.easyscience.education/cssesw2024/CSSESW2024/paper12.pdf

Kurotych, GitHub - kurotych/sqlant: Generate PlantUML/Mermaid ER diagram textual description from SQL connection string, 2024. URL: https://github.com/kurotych/sqlant.

Kurotych, A. (2024). db_ent.puml – PlantUML library for database entities. GitHub. Retrieved April 23, 2025, from https://github.com/kurotych/sqlant/blob/6c4a5030dfade0731b65e33f1b5f16595d0229c0/puml-lib/db_ent.puml