«СИСТЕМЫ И ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ ОБРАБОТКИ ЕСТЕСТВЕННОЯЗЫКОВЫХ ТЕКСТОВ НА ОСНОВЕ ПРАГМАТИЧЕСКИ-ОРИЕНТИРОВАННЫХ ЛИНГВИСТИЧЕСКИХ МОДЕЛЕЙ ...»
- вместе с основой словоформы из словаря извлекаются также и дополнительные характеристики, существенно упрощающие процесс коррекции, т.е. позволяющие существенно сократить пространство возможных комбинаций аффиксов;
- обеспечивается эффективное развитие корректора как программы синтаксической проверки, при котором является очевидным избыточность полного перебора всех возможных сочетаний аффиксов. Формы синтагм во многом будут определяться сочетаемостью соответствующих лексем.
ЗАКЛЮЧЕНИЕ
Диссертационная работа посвящена проблеме разработки лингвистических моделей и созданию на их основе систем и информационных технологий автоматизированной обработки ЕЯ-текстов.Главными научными результатами диссертации являются: 1) разработка технологии построения прагматически-ориентированных лингвистических моделей и 2) построение компьютерной модели морфологии татарского языка.
Первый результат позволяет утверждать, что получено новое решение актуальной проблемы повышения эффективности систем и технологий обработки ЕЯ-текстов за счет разработки лингвистических моделей, включающих изначально минимальный набор языковых средств и определяющих.детальность их описания исходя из методологических принципов "детерминированности контекста" и "ожидаемое™ ответа".
Технология построения прагматически-ориентированных лингвистических моделей определяет объект приложения, необходимый инструментарий, последовательность и содержание этапов создания лингвопроцессоров на основе соответствующих моделей.
Второй результат позволяет утверждать, что впервые получено решение важной и актуальной задачи создания компьютерной модели морфологии татарского языка как формальной базы лингвопроцессоров различного назначения.
Основным практическим результатом диссертации является разработка прагматически-ориентированных лингвистических моделей, их программная реализация в виде систем обработки информации и широкое их внедрение для решения задач автоматизированной обработки ЕЯ-текстов.
Кроме того, в диссертации описаны следующие основные результаты работы:
1. Сформулирована проблема, разработана методология и предложены методы и базовые принципы и технология построения систем обработки текстовой информации, основанных на прагматически-ориентированных моделях, или моделях "от цели".
2. Разработана и 'реализована структурно-функциональная модель морфем татарского языка, относящаяся к классу концептуальнофункциональных моделей, и представляющая собой программноинформационный инструментарий, используемый как для построения прагматически-ориентированных лингвопроцессоров, так и в качестве информационно-справочной и учебно-консультационной базы.
3. На основе анализа и обобщения средств формального представления семантики контекста, необходимого для изучения и описания значений аффиксальных морфем, проведена классификация и описаны в виде семантических сценариев базовые типы соответствующих контекстов. Также разработана объектно-предикатная система, включающая базовые отношения, используемые для описания значений аффиксальных морфем в структурнофункциональной модели.
4. Разработана открытая прагматически-ориентированная модель анализа ЕЯ-текстов вопросно-ответном контексте, относящаяся к диалоговым моделям, и реализован двухуровневый семантический интерпретатор.
Эффективная реализация модели достигнута за счет следующих результатов: выделена система смыслообразующих единиц (концептул), отражающих типовые понятия, базовые отношения, некоторые грамматические признаки и специальные лексемы, с целью трансформации проблемы семантического анализа вопросно-ответного текста в проблему синтаксического анализа в условиях детерминирующей роли контекста; - описаны методология семантической классификации вопросно-ответных текстов на основе типовых отношений, а также базовые типы вопросов и классы ответов; - разработана методология и приведено описание индивидуальных концептуальных грамматик, представляющих собой логически правильные смысловые конструкции ответов соответствующих классов для татарского и русского языков.
5. Разработана двухуровневая модель морфологии татарскои языка, относящаяся к классу прагматически-ориентированных концептуальноформальных моделей, включающая. фонологические и морфотактические правила, и представляющая собой полную компьютерную модель татарской морфологии. На -ее основе построен двухуровневый морфологический анализатор, который осуществляет генерацию и разложение произвольных словоформ на морфемы.
6. Разработана и реализована генеративная модель морфологии татарского языка как основа морфологического корректора, позволяющая учитывать такие особенности татарского языка, как агглютинативность, наличие рекурсии.
В десяти приложениях приведены описания конкретных примеров реализации по каждой разработанной прагматически-ориентированной модели, справки и акты о внедрении и применении результатов диссертационной работы.
Основные публикации по теме диссертационной работы:
1. Сулейманов Д.Ш. О семантическом анализе текстов в АОС // Современные ЭВМ. Разработка, производство и технологические процессы изготовления ЭВМ. Использование ЭВМ. Мат.обеспечение ЭВМ и АСУ: Тез. докл. научно-техн. конференции молодых ученых и специалистов.
- Казань: Татполиграф. комб. им. КЛкуба, 1980. - С.46-47.
2. Сулейманов Д.Ш. Об одном подходе к семантическому анализу текстов в АОС // Тез. докл. конф. молодых ученых по вопросам радиоспектроскопии,квантовой акустики, механики и прикладной математики. -Казань: Изд-во Казан, физ.-тех. ин-та КФАН СССР, 1980. -С.113-114.
3. Бухараев Р.Г., Сулейманов Д.Ш. К разработке АОС с развитыми возможностями семантического анализа ответов обучаемого //АОС и их применение: Тез. докл. межвуз. совещания-семинара "Проблемы автоматизации обучения персонала систем организационного управления". Казань: Изд-во Казан, ун-та, 1983. - С.7-9.
4. Сулейманов Д.Ш. О семантическом анализе текстов в АОС //Вероятностные методы и кибернетика. -Вып. 20. - Казань: Изд-во Казан, ун-та, 1984. - С. 106Сулейманов Д.Ш. Принципы семантической классификации текстов и их анализ по классам // Математические основы и программное обеспечение автоматизации интеллектуальной деятельности. Матер, третьей научн. конф.
молодых ученых и специалистов фак. выч. мат. и киберн. /Казанский ун-т.
- Казань:
-1984. - С.53-56 [Сб. деп. в ВИНИТИ N 331-84].
6. Сулейманов Д.Ш. Об одной реализации программы анализа ответов обучаемого по ключевым параметрам // Математические основы и программное обеспечение автоматизации интеллектуальной деятельности. Казань, 1984. - С. 29-32 [Сб. деп. в ВИНИТИ N 693-85].
7. Сулейманов Д.Ш. ЛГ - лингвистический процессор ответов обучаемого в АОС // Математические модели и вычислительная техника в управлении учебным процессом высшей школы (Рига, 19-23 мая 1986г.): Тез. докл. и сообщений межвуз. науч.-метод. семинара. - Рига: Изд-во Риж.ПИ, 1986. -С.37.
8. Бухараев Р.Г., Сулейманов, Д.Ш. Подсистема обеспечения интеллектуального взаимодействия в диалоговой системе // Тез. докл. IY Всесоюзной конференции "Диалог Человек-ЭВМ". 4.2. ИК им. В.М.Глушкова АН УССР (Киев, 8-12 октября 1985г.). - Киев, 1985. - С.11-13.
9. Бухараев Р.Г., Сулейманов Д.Ш. Об одном подходе к разработке интеллектуальных АОС // Кибернетика, 1986, N 3. - С.42-49.
10. Ситницкий Э.А., Трояновский СВ., Исмагилов Н.А., Бухараев P.F., Сулейманов Д.Ш. Автоматизированная обучающая система ВУЗ-ОСКАР.
Описание языка // Пакет прикладных программ ДПЦ 00002-013501-2.Таллинн.- 1987.-81 с.
11. Бухараев Р.Г., Моисеев B.C., Сулейманов Д.Ш. АОС как обслуживающая подсистема развивающейся САПР // Казань, 1987.-12с. [Деп. в ВИНИТИ N 3453].
12. Абросимов А., Гатауллин Г.С., Исмагилов Н.А., Сулейманов Д.Ш. и др.
Технологический комплекс обучения КГУ: программно-методическое обеспечение учебного процесса // Казань, 1987. - 37 с. [Деп.в НИИ Проблем ВШЫ 1324-87].
13. Абросимов А., Гатауллин Г.С., Сулейманов Д.Ш. и др. Технологический комплекс обучения КГУ: методология обучения с использованием ЭВМ // Казань, 1987. - 43 стр. [Деп. в ВИНИТИ N 916-87].
14.Сулейманов Д.Ш. Индивидуальные. концептуальные грамматики //Вероятностные методы и кибернетика. -Вып. 22. -Казань: Изд-во Казан, унта.-1987.-С. 105-111.
15. Бухараев Р.Г., Сулейманов Д.Ш. К разработке семантического анализатора вопросно-ответных текстов // Тез. докл. Всесоюзной школы-семинара.
(Москва, 1-2 мая 1990г.). -М., 1990.-С. 19-20.
16. Бухараев Р.Г., Сулейманов Д.Ш. Семантический анализ в вопросноответных системах. - Казань: Изд-во Казан, ун-та. - 1990. -124 с.
17. Сулейманов Д.Ш., Шафигуллин Р., Урусов И. Об одном эффективном приложении морфологического корректора татарских текстов // Международный семинар CALL Компьютеризация обучения языкам: Тез.
докл. (Казань, 20-24 сент., 1993г.). - Казань, 1993. -С.43-44.
18. Сулейманов Д.Ш. Регулярность морфологии татарского языка и типы нарушений в языке // Серия: Интеллект. Язык. Компьютер. -Вып.1. -Казань:
Изд-во Казан, ун-та, 1994. -С.77-106.
19. Сулейманов Д.Ш., Шафигуллин Р.Н. Морфологический корректор татарских текстов ТАТКОР // Серия: Интеллект. Язык. Компьютер.-Вып.2. Казань: Изд-во Казан, ун-та, 1995. -С.86-89.
20. Сулейманов Д.Ш., Курбский Д.Н. Интегрированная среда ЛИНГВИСТ // Татарский язык и новые информационные технологии. Серия: Интеллект.
Язык. Компьютер. -Вып.2. -Казань: Изд-во Казан, ун-та. - 1995. -С.94-96.
21. Бухараев Р.Г., Сулейманов Д.Ш. Механизмы ЕЯ-интерфейса в управляемом контексте // Труды Межд. семинара ДИАЛОГ-95: компьютерная лингвистика и ее приложения (Казань, 31 мая - 4 июня, 1995г.). -Казань, 1995.
- С.74-87.
22. Бухараев Р.Г., Сафиуллина Ф.С., Галиуллин К.Р., Еникеев А.И., Сулейманов Д.Ш. К концепции Машинного Фонда Республики Татартсан // Татарский язык и новые информационные технологии. Серия: Интеллект.
Язык. Компьютер. -Вып.2. -Казань: Изд-во Казан, ун-та, 1995. -С.20-35.
23. Сулейманов Д.Ш., Шафигуллин Р.Н. Морфологический корректор татарских текстов - ТАТКОР // Труды межд. семинара ДИАЛОГ-96:
компьютерная лингвистика и ее приложения (Пущино, 4-9 мая, 1996г.). -М., 1996. -С.253-255.
24. Сулейманов Д.Ш. К вопросу о числе татарских падежей // Исследования в компьютерной лингвистике. Серия: Интеллект. Язык. Компьютер. -Вып.З. Казань: Изд-во "Фэн". -1996. -С.70-84.
25. Сулейманов Д.Ш., Гатиатуллин А.Р. Модель татарской аффиксальной морфемы и ее реализация // Серий: Интеллект. Язык. Компьютер. -Ёып.4. Казань: Изд-во "Фен". -1996. -113-127.
26. Сулейманов Д.Ш., Галиев И.Х., Хабибуллин А.Р. Алгоритмический подход к обучению правилам словоизменения татарских существительных // Труды Межд.семинара "Искусственный интеллект в образовании", ч.2 (Казань, 1- октября 1996г.). -Казань, 1996. -С. 173-17$.
лингвопроцессоров в вопросно-ответном контексте // Научн.труды нац.конференции с межд.уча'стием "Искусственный интеллект-i^S", т. (Казань, 5-11 октября 1996г.). -Казань, 1996. -С.149-155.
28. Suleymanov D.Sh. Towards a difinition of Tatar cases via the striictUralfunctional morphemic model // Proceedings of the LP'96 Conference on Languages Typology (Prague, 22-24 August, 1996). Prague, 1996. -P. 388-395.
29. Сулейманов Д.Ш., Гатиатуллин А.Р. Функционально-структурная модель татарских морфем как база для лингвопроцессоров // Труды Межд. семинара Диалог-97: компьютерная лингвистика и ее приложения. (Ясная Поляна, Тула, 10-15 июня 1997г.). - М, 1997. -С.266-271.
30. Suleymanov D.Sh. The semantic analyzer as a part of the embedding Teacher's model in Intelligent Tutoring Systems //Proceedins of the Workshop: Embedding User Models in Intelligent Applications. Sixth International Conference on User Modeling (UM97) (Chia Laguna, Sardinia, Italy, 1-5 June, 1997). Chia Laguna, 1997. - P. 48-53.
31. Suleymanov D.Sh., Guilmullin R.A., Guilmy A.A. Two-level phonological rules of Tatar morphology //KDS-97: Шестая международная конференция "ЗнанияДиалог-Решение": Сб. Научн. трудов в двух томах. Т1. (Ялта, 15-20 сентября 1997г.). -Ялта, 1997. -С.299-305.
32. Сулейманов Д.Ш., Гильмуллин А.А., Гильмуллин Р.А. Двухуровневое описание морфологии татарского языка // Тез. Межд. научн. конф., посвященной 200-летию университета: "Языковая семантика и образ мира" (Казань, 7-10 октября 1997г.).
-Книга 2. -Казань: Изд-во Казан, ун-та, 1997. -С.65-67.
33. Сулейманов Д.Ш. Формальная элегантность и естественная сложность морфологии татарского языка // Электронная конф.: Информационные технологии в гуманитарных науках (Казань, 25-31 мая 1998г.). -Казань, 1998. HTTP: //www.kcn.ru/_tat_ru/ universitet/gum_konf/ot7.htm.
34. Сулейманов Д.Ш., Гильмуллин А.А., Гильмуллин Р.А. Файл фонологических правил татарского языка //Электрон, конф.: Информационные технологии в гуманитарных науках (Казань, 25-31 мая 1998г.).-Казань,1998. HTTP: //www.kcn.ru/ _tat_ru/ universitet/gum_konf/ ot7.htm.
35. Сулейманов Д.Ш., Гильмуллин А.А., Гильмуллин Р.А. База морфотактических правил для татарского глагола как основа двухуровневого морфологического анализатора // Сб. трудов Международного семинара ДИАЛОГ-98 (Казань, 1-2 июня 1998г.). -Казань, 1998. -С.597-609.
36. Сулейманов Д.Ш., Гатиатуллин А.Р. Интегрированный программноинформациончый комплекс "Морфема" // РАИИ. Научный совет по проблеме "Искусственный Интеллект" РАН: В сб. Трудов шестой национальной конференции ;.. международным участием КИИ-98 в трех томах. Т.1.-Пущино, 1998. -С.208-214.
37. Сулейман.и Д.Ш., Гатиатуллин А.Р. Формальное описание значений аффиксальных морфем // В Сб. трудов Международного семинара ДИАЛОГКазань, 1-2 ионя 1998г.). -Казань, 1998. -С.713-725.
38. Сулейманоь Д.Ш., Хадиев P.M., Якушев Р.С. Основы информатики и издательское дело. -Казань: Изд-во Казан, ун-та. -1998. -78 с.
39. Сулеймансв Д.Ш. Обработка ЕЯ-текстов на основе прагматическиориентированных лингвистических моделей // Сб.под ред. Соловьева В.Д.:
Обработка текста и когнитивные технологии. -Вып.З. Труды научного семинара "Когнитивное моделирование" (Пущино, октябрь 1998 г.). -С.205Сулейманов Д.Ш., Гатиатуллин А.Р. К разработке Лемматора татарских словоформ // В сб. Трудов Международного семинара Диалог-99 по компьютерной лингвистике и ее приложениям в двух томах (Таруса, 31 мая - июня 1999г.). Т.2. -Таруса, 1999. -С.306-314.
41. Сулейманов Д.Ш. Аналитический обзор отечественных и зарубежных работ в области обработки естественного языка в аспекте прагматическиориентированного подхода // В электрон, журнале Казанского госуниверситета //www.kcn.ru/tat_en/science/fttc/ volOOO/st.doc (оглавление: contents.htm).
42. Suleymanov D.S. Natural possibilities of the Tatar morphology as a formal base of the NLP. // In Proceedings of the First International Workshop "Computerisation of Natural Languages" (Varna, Sept. 3-7, 1999). -Sofia (Bulgaria): Information Services Pic, 1999.-P. 113-117.
Сдано в набор 1.02.00 г. Подписано в печать 1.02.00 i Форм.бум. 60 х 84 1/16. Печ.л. 2,75. Тираж 100. Закал. Лаборатория оперативной полиграфии К.ГУ