About Detecting Incorrect Use of Terminology in Russian Texts Based on Domain Ontology
DOI:
https://doi.org/10.52575/2687-0932-2024-51-2-466-478Keywords:
semantic analysis of text, domain ontology, automatic text processingAbstract
Semantic analysis of text is actively explored as an important direction in computational linguistics. Advancements in its development can be traced in intelligent systems that process natural language text. One type of such systems is aimed at finding and correcting errors in the text. However, these systems are incapable of working with the specialized lexicon of scientific texts. Therefore, the task of detecting lexico-semantic errors related to the incorrect use of terminology cannot be delegated to an intelligent system, as there is a lack of corresponding theoretical and programmatic solutions. Consequently, the research aims to formalize the task of detecting incorrect usage of terminology in the Russian text within a specific subject area. The problem formulation arises from its practical application and the subject area. The proposed mathematical model of the task is described using the conceptual apparatus of set theory. The transition to the mathematical model of ontology and its logical description is carried out, allowing for the further development of the subject area ontology to detect incorrect terminology usage in text using the OWL 2 ontology language. During the formalization of the task, which also implies the use of the designed ontology, a mechanism for comparing the contexts of the term from the processed text and the ontology is suggested. Errors I and II types were assessed, and an algorithm for making a decision about the presence or absence of a connection between the analyzed term and the ontology subject area was formed. Thus, the result of the research is the formalization of an approach to detecting the incorrect use of terminology in Russian scientific texts based on the ontology of the subject area.
Downloads
References
Мальковский М.Г., Грацианова Т.Ю., Полякова И.Н. 2000. Прикладное программное обеспечение: системы автоматической обработки текстов. Электронная книга. URL: https://royallib.com/read/malkovskiy_mihail/prikladnoe_programmnoe_obespechenie_sistemi_avtomaticheskoy_obrabotki_tekstov.html (дата обращения: 19 декабря 2023).
Баранова О.В., Гоглев Н.Н., Мигалин С.А., Муштак О.И. 2022. Подходы к построению и использованию онтологии предметной области интеллектуальной системы управления рисками. International Journal of Open Information Technologies, 10(9): 41–52.
Болтянский В.Г., Савин А.П. 2002. Беседы о математике. Книга 1. М., ФИМА, МЦНМО, 368 с.
Гаврилова Т.А., Хорошевский В.Ф. 2000. Базы знаний интеллектуальных систем. СПб., Питер, 384 с.
Горячкина C.Ю. 2023. Методика контекстно-семантического анализа: возможности применения на примере исследования термина ЗОЖ. Бюллетень Национального научно-исследовательского института общественного здоровья имени Н. А. Семашко, 2: 69–75.
Грибова В.В., Шалфеева Е.А. 2019. Онтология диагностики процессов. Онтология проектирования, 4(34): 449–461. DOI: 10.18287/2223-9537-2019-9- 4-449-461.
Капустина А.И., Пальчунов Д.Е. 2019. Разработка методов интеграции автоматических средств логического вывода для порождения знаний в онтологической модели. Вестник НГУ. Серия: Информационные технологии, 3: 29–42. DOI: 10.25205/1818-7900-2019-17-3-29-42.
Клышинский Э.С., Бунтякова В.А., Карпик О.В. 2021. Исследование грамматической неоднозначности наиболее частотных слов русского языка. Препринты ИПМ им. М.В.Келдыша, 58: с. 22.
Клышинский Э.С., Логачева В.К., Карпик О.В., Бондаренко А.В. 2020. Количественная оценка грамматической неоднозначности некоторых европейских языков. Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация, 1(18): 5–21. DOI: 10.25205/1818-7935-2020-18-1-5-21
Митрофанова О.Л. 1972. Язык научно-технической литературы. М., МГУ, 147 с.
Михайличенко А.А. 2022. Аналитический обзор методов оценки качества алгоритмов классификации в задачах машинного обучения. Ежеквартальный рецензируемый, реферируемый научный журнал «Вестник АГУ», 4(311): 52–59. DOI: 10.53598/2410-3225-2022-4-311-52-59
Папуша С.И. 2020. Онтология и графовые базы данных. Проблемы экономики и юридической практики, 3: 268–272.
Пикалёв Я.С., Вовнянко А.С., Денищенко И.Я. 2018. Анализ автоматических систем проверки правописания русского языка. Международный рецензируемый научно-теоретический журнал «Проблемы искусственного интеллекта», 2(9): 60–67.
Юргель В.Ю. 2019. Сложности моделирования естественного языка. Вестник науки и образования, 23(77): 12–14.
Baader F. 2007. The Description Logic Handbook: Theory, Implementation, and Applications. Cambridge, UK 564 p.
Changsheng H. 2007. Non-standard Inference for Explaining Subsumption in the Description Logic EL with General Concept Inclusions and Complex Role Inclusions. Dresden, Germany, Technische universitat dresden 57 p.
Chuang J., Gupta S., Manning C., Heer J. 2013. Topic model diagnostics: Assessing domain relevance via topical alignment. Proceedings of the 30th International Conference on Machine Learning (ICML-13), 28: 612–620.
Jacquette D. 2014. Ontology. NY, USA, Routledge 368 p.
Peng X., Tang Z., Kulmanov M., Niu K., Hoehndorf R. 2022. Description Logic EL++Embeddings with Intersectional Closure. https://doi.org/10.48550/arXiv.2202.14018
Salatino A.A., Thanapalasingam T., Mannocci A., Birukou A., Osborne F., E. Motta. 2020. The computer science ontology: A comprehensive automatically-generated taxonomy of research areas. Data Intelligence, 2: 379-416. DOI: 10.1162/ dint_a_00055.
Schneider P., Schopf T., Vladika J., Galkin M., Simperl, Matthes F. 2022. A decade of knowledge graphs in natural language processing: A survey. In He, Y., Ji, H., Li, S., Liu, Y., and Chang, C.-H., editors. Proceedings of the 2nd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 12th International Joint Conference on Natural Language Processing, 1: 601–614.
Sikos L.F. 2017. Description Logics in Multimedia Reasoning. Adelaide, Australia, Springer International Publishing AG 205 p. DOI 10.1007/978-3-319-54066-5.
Thanapalasingam, T., Osborne, F., Birukou, A., Motta, E. 2018. Ontology-Based Recommendation of Editorial Products. The Semantic Web – ISWC, 2: 8–12. DOI:10.1007/978-3-030-00668-6_21.
Wang C., Liu J., Desai N., Danilevsky M., Han J. 2014. Constructing topical hierarchies in heterogeneous information networks. Knowledge and Information Systems, 3: 529–558.
Warner S. 2009. Set Theory for Beginners: A Rigorous Introduction to Sets, Relations, Partitions, Functions, Induction, Ordinals, Cardinals, Martin’s Axiom, and Stationary Sets – Softcover. Columbia, MD, U.S.A., GreatBookPrices 208 p.
Wei X., Wang S., Zhang D., Bhatia P., Arnold A.O. 2021. Knowledge enhanced pretrained language models: A compreshensive survey. ArXiv, abs/2110.08455.
Abstract views: 93
Share
Published
How to Cite
Issue
Section
Copyright (c) 2024 Economics. Information Technologies
This work is licensed under a Creative Commons Attribution 4.0 International License.