Об обнаружении ошибочного употребления термина в русскоязычном тексте на основе онтологии предметной области
DOI:
https://doi.org/10.52575/2687-0932-2024-51-2-466-478Ключевые слова:
семантический анализ текста, онтология предметной области, автоматическая обработка текстаАннотация
Семантический анализ текста активно исследуется в качестве важного направления компьютерной лингвистики. Достижения в его развитии можно проследить в интеллектуальных системах, осуществляющих обработку текста на естественном языке. Один из видов таких систем направлен на поиск и исправление ошибок в тексте. Однако подобные системы неспособны работать со специальной лексикой научных текстов, следовательно, задача поиска лексико-семантических ошибок, связанных с неправильным употреблением термина, не может быть переложена на интеллектуальную систему, так как для этого отсутствует соответствующее теоретическое и программное решение. В связи с чем целью исследования является формализация задачи обнаружения ошибочного использования термина предметной области в русскоязычном тексте. Постановка задачи следует из её практического применения и предметной области. Предложенная математическая модель задачи описана с помощью понятийного аппарата теории множеств. Осуществлен переход к математической модели онтологии и ее логическому описанию, позволяющему в дальнейшем разработать онтологию предметной области для обнаружения ошибочного использования термина в тексте на языке описания онтологий OWL 2. В ходе формализации задачи, также указывающей на использование спроектированной онтологии, предложен механизм сравнения контекстов термина из обрабатываемого текста и онтологии. Произведена оценка ошибок первого и второго рода, сформирован алгоритм принятия решения о наличии или отсутствия связи анализируемого термина и предметной области онтологии. Таким образом, результатом исследования является формализация подхода к обнаружению ошибочного использования термина в русскоязычном научном тексте на основе онтологии предметной области.
Скачивания
Библиографические ссылки
Мальковский М.Г., Грацианова Т.Ю., Полякова И.Н. 2000. Прикладное программное обеспечение: системы автоматической обработки текстов. Электронная книга. URL: https://royallib.com/read/malkovskiy_mihail/prikladnoe_programmnoe_obespechenie_sistemi_avtomaticheskoy_obrabotki_tekstov.html (дата обращения: 19 декабря 2023).
Баранова О.В., Гоглев Н.Н., Мигалин С.А., Муштак О.И. 2022. Подходы к построению и использованию онтологии предметной области интеллектуальной системы управления рисками. International Journal of Open Information Technologies, 10(9): 41–52.
Болтянский В.Г., Савин А.П. 2002. Беседы о математике. Книга 1. М., ФИМА, МЦНМО, 368 с.
Гаврилова Т.А., Хорошевский В.Ф. 2000. Базы знаний интеллектуальных систем. СПб., Питер, 384 с.
Горячкина C.Ю. 2023. Методика контекстно-семантического анализа: возможности применения на примере исследования термина ЗОЖ. Бюллетень Национального научно-исследовательского института общественного здоровья имени Н. А. Семашко, 2: 69–75.
Грибова В.В., Шалфеева Е.А. 2019. Онтология диагностики процессов. Онтология проектирования, 4(34): 449–461. DOI: 10.18287/2223-9537-2019-9- 4-449-461.
Капустина А.И., Пальчунов Д.Е. 2019. Разработка методов интеграции автоматических средств логического вывода для порождения знаний в онтологической модели. Вестник НГУ. Серия: Информационные технологии, 3: 29–42. DOI: 10.25205/1818-7900-2019-17-3-29-42.
Клышинский Э.С., Бунтякова В.А., Карпик О.В. 2021. Исследование грамматической неоднозначности наиболее частотных слов русского языка. Препринты ИПМ им. М.В.Келдыша, 58: с. 22.
Клышинский Э.С., Логачева В.К., Карпик О.В., Бондаренко А.В. 2020. Количественная оценка грамматической неоднозначности некоторых европейских языков. Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация, 1(18): 5–21. DOI: 10.25205/1818-7935-2020-18-1-5-21
Митрофанова О.Л. 1972. Язык научно-технической литературы. М., МГУ, 147 с.
Михайличенко А.А. 2022. Аналитический обзор методов оценки качества алгоритмов классификации в задачах машинного обучения. Ежеквартальный рецензируемый, реферируемый научный журнал «Вестник АГУ», 4(311): 52–59. DOI: 10.53598/2410-3225-2022-4-311-52-59
Папуша С.И. 2020. Онтология и графовые базы данных. Проблемы экономики и юридической практики, 3: 268–272.
Пикалёв Я.С., Вовнянко А.С., Денищенко И.Я. 2018. Анализ автоматических систем проверки правописания русского языка. Международный рецензируемый научно-теоретический журнал «Проблемы искусственного интеллекта», 2(9): 60–67.
Юргель В.Ю. 2019. Сложности моделирования естественного языка. Вестник науки и образования, 23(77): 12–14.
Baader F. 2007. The Description Logic Handbook: Theory, Implementation, and Applications. Cambridge, UK 564 p.
Changsheng H. 2007. Non-standard Inference for Explaining Subsumption in the Description Logic EL with General Concept Inclusions and Complex Role Inclusions. Dresden, Germany, Technische universitat dresden 57 p.
Chuang J., Gupta S., Manning C., Heer J. 2013. Topic model diagnostics: Assessing domain relevance via topical alignment. Proceedings of the 30th International Conference on Machine Learning (ICML-13), 28: 612–620.
Jacquette D. 2014. Ontology. NY, USA, Routledge 368 p.
Peng X., Tang Z., Kulmanov M., Niu K., Hoehndorf R. 2022. Description Logic EL++Embeddings with Intersectional Closure. https://doi.org/10.48550/arXiv.2202.14018
Salatino A.A., Thanapalasingam T., Mannocci A., Birukou A., Osborne F., E. Motta. 2020. The computer science ontology: A comprehensive automatically-generated taxonomy of research areas. Data Intelligence, 2: 379-416. DOI: 10.1162/ dint_a_00055.
Schneider P., Schopf T., Vladika J., Galkin M., Simperl, Matthes F. 2022. A decade of knowledge graphs in natural language processing: A survey. In He, Y., Ji, H., Li, S., Liu, Y., and Chang, C.-H., editors. Proceedings of the 2nd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 12th International Joint Conference on Natural Language Processing, 1: 601–614.
Sikos L.F. 2017. Description Logics in Multimedia Reasoning. Adelaide, Australia, Springer International Publishing AG 205 p. DOI 10.1007/978-3-319-54066-5.
Thanapalasingam, T., Osborne, F., Birukou, A., Motta, E. 2018. Ontology-Based Recommendation of Editorial Products. The Semantic Web – ISWC, 2: 8–12. DOI:10.1007/978-3-030-00668-6_21.
Wang C., Liu J., Desai N., Danilevsky M., Han J. 2014. Constructing topical hierarchies in heterogeneous information networks. Knowledge and Information Systems, 3: 529–558.
Warner S. 2009. Set Theory for Beginners: A Rigorous Introduction to Sets, Relations, Partitions, Functions, Induction, Ordinals, Cardinals, Martin’s Axiom, and Stationary Sets – Softcover. Columbia, MD, U.S.A., GreatBookPrices 208 p.
Wei X., Wang S., Zhang D., Bhatia P., Arnold A.O. 2021. Knowledge enhanced pretrained language models: A compreshensive survey. ArXiv, abs/2110.08455.
Просмотров аннотации: 93
Поделиться
Опубликован
Как цитировать
Выпуск
Раздел
Copyright (c) 2024 Экономика. Информатика
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.