Использование моделей BERT и GPT как эффективное решение для автоматизации построения онтологий

Александр Михайлович Катышев; Антон Викторович Аникин

doi:10.52575/2687-0932-2026-53-1-144-152

Авторы

Александр Михайлович Катышев Волгоградский государственный технический университет
Антон Викторович Аникин Волгоградский государственный технический университет

DOI:

https://doi.org/10.52575/2687-0932-2026-53-1-144-152

Ключевые слова:

онтологическая база знаний, граф знаний, извлечение онтологий, BERT, GPT

Аннотация

В статье рассматривается проблема автоматизации построения онтологических баз знаний из неструктурированных русскоязычных текстов. Основная цель исследования – разработка и оценка комбинированного подхода, повышающего качество извлечения знаний. Методология основана на синергии двух передовых моделей обработки естественного языка (Natural Language Processing): Bidirectional Encoder Representations from Transformers (BERT) для точной идентификации концептов и базовых отношений, и Generative Pre-trained Transformer (GPT) для генерации неявных связей и обогащения онтологии. Экспериментальная оценка на корпусе текстов по веб-разработке показала, что предложенный метод BERT+GPT достигает F1-меры 0.82, что значительно превосходит существующие решения, такие как Text2Onto (0.52) и FRED (0.62). Наиболее важным результатом является статистически значимое улучшение полноты извлечения и итоговой F1-меры, что доказывает эффективность гибридного подхода. Практическая значимость работы заключается в возможности автоматизировать создание баз знаний для русскоязычных информационных и образовательных систем.

Скачивания

Данные скачивания пока недоступны.

Биографии авторов

Александр Михайлович Катышев, Волгоградский государственный технический университет

Преподаватель кафедры программного обеспечения автоматизированных систем, г. Волгоград, Россия

Антон Викторович Аникин, Волгоградский государственный технический университет

Кандидат технических наук, доцент кафедры программного обеспечения автоматизированных систем, г. Волгоград, Россия
E-mail: anton@anikin.name

Библиографические ссылки

References

Al-Aswadi F.N., Chan H.Y., Gan K.H. 2020. Automatic ontology construction from text: a review from shallow to deep learning trend. Artificial Intelligence Review, 53: 3901–3928. DOI: 10.1007/s10462-019-09782-9.

Anikin A., Kultsova M., Irina Z., Sadovnikova N., Litovkin D. 2014. Knowledge based models and software tools for learning management in open learning network. In: Communications in Computer and Information Science. Vol. 466. Springer, 156-171. DOI: 10.1007/978-3-319-11854-3_15.

Bhatt A., Vaghela N., Dudhia K. 2024. Generating knowledge graphs from large language models: A comparative study of GPT-4, LLAMA 2, and BERT. arXiv preprint arXiv:2401.07412.

Biemann C. 2005. Ontology Learning from Text: A Survey of Methods. In: Proceedings of the LDV-Forum, Band 20(2): 75-93.

Bosselut A., Rashkin H., Sap M., Malaviya C., Celikyilmaz A., Choi Y. 2019. Comet: Commonsense transformers for automatic knowledge graph construction. In: Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, Italy, Association for Computational Linguistics, 1530-1540. DOI: 10.18653/v1/P19-1146.

Brown T., Mann B., Ryder N., et al. 2020. Language models are few-shot learners. In: Advances in Neural Information Processing Systems 33 (NeurIPS 2020), 1877-1901.

Cimiano P., Völker J. 2005. A framework for ontology learning and data-driven change discovery. In: Natural Language Processing and Information Systems. Alicante, Spain, Springer, 227-238. DOI: 10.1007/11428817_22.

Devlin J., Chang M.-W., Lee K., Toutanova K. 2019. BERT: Pre-training of deep bidirectional transformers for language understanding. In: Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics. Minneapolis, Minnesota, Association for Computational Linguistics, 4171-4186. DOI: 10.18653/v1/N19-1423.

Fortuna B., Grobelnik M., Mladenic D. 2007. OntoGen: Semi-automatic Ontology Editor. In: Knowledge Discovery in Databases: PKDD 2007. Warsaw, Poland, Springer, 65-76. DOI: 10.1007/978-3-540-74976-9_9.

Gangemi A., Presutti V., Reforgiato Recupero D., et al. 2017. Semantic web machine reading with FRED. Semantic Web, 8(6): 873-893. DOI: 10.3233/SW-160240.

Haque F., Xu D., Niu X. 2025. A Comprehensive Survey on Bias and Fairness in Large Language Models. In: Trends and Applications in Knowledge Discovery and Data Mining. Springer,

-101. DOI: 10.1007/978-981-96-8197-6_7.

Hogan A., Blomqvist E., Cochez M., et al. 2021. Knowledge graphs. ACM Computing Surveys (CSUR), 54(4): 1-37. DOI: 10.1145/3447790.

Karpukhin V., Baranchukov A., Burtsev M., Tsetlin Y., Gusev G. 2021. RuGPT-3: Large-scale russian language models with few-shot learning capabilities. arXiv preprint arXiv:2109.04351.

Katyshev A., Anikin A., Denisov M., Petrova T. 2021. Intelligent Approaches for the Automated Domain Ontology Extraction. In: Advanced Network Technologies and Intelligent Computing. Springer, 81-91. DOI: 10.1007/978-981-96-8197-6_7.

Kuratov Y., Arkhipov M. 2019. Adaptation of deep bidirectional multilingual transformers for russian language. arXiv preprint arXiv:1905.07213.

Pan S., Luo L., Wang Y., et al. 2023. Unifying Large Language Models and Knowledge Graphs: A Roadmap. arXiv preprint arXiv:2306.08302.

Petroni F., Rocktäschel T., Lewis P., et al. 2019. Language models as knowledge bases? In: Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing (EMNLP-IJCNLP). Hong Kong, China, Association for Computational Linguistics, 2763-2773. DOI: 10.18653/v1/D19-1282.

Ye H., Zhang N., Deng S., et al. 2022. Ontology-enhanced Prompt-tuning for Few-shot Learning. arXiv preprint arXiv:2201.11332.

Zhao B., Ji C., Zhang Y., et al. 2023. Large language models are complex table parsers. arXiv preprint arXiv:2312.11521.

Zheng J., Xiang Z., Stoeckert Jr C.J., He Y. 2014. Ontodog: a web-based ontology community view generation tool. Bioinformatics, 30(9): 1340-1342. DOI: 10.1093/bioinformatics/btt761.

Zheng L., Guha N., Anderson B.R., Henderson P., Ho D.E. 2021. When does pre-training help? assessing self-supervised learning for law and the casehold dataset of 53,000+ legal holdings. In: Proceedings of the 18th International Conference on Artificial Intelligence and Law (ICAIL 2021). São Paulo, Brazil, ACM, 159-168. DOI: 10.1145/3462757.3462772.

Использование моделей BERT и GPT как эффективное решение для автоматизации построения онтологий

Авторы

DOI:

Ключевые слова:

Аннотация

Скачивания

Биографии авторов

Александр Михайлович Катышев, Волгоградский государственный технический университет

Антон Викторович Аникин, Волгоградский государственный технический университет

Библиографические ссылки

Поделиться

Опубликован

Как цитировать

Выпуск

Раздел

Наиболее читаемые статьи этого автора (авторов)