«Логико-лингвистические методы и модели в системе оперативного управления органами внутренних дел ...»
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ КАЗЕННОЕ ОБРАЗОВАТЕЛЬНОЕ
УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
«АКАДЕМИЯ УПРАВЛЕНИЯ МВД РОССИИ»
На правах рукописи
РОГОВА Наталья Алексеевна
Логико-лингвистические методы и модели
в системе оперативного управления органами внутренних дел Специальность: 05.13.10 – управление в социальных и экономических системах (технические наук
и) Диссертация на соискание ученой степени кандидата технических наук
Научный руководитель Лукашов Николай Васильевич, кандидат физико-математических наук, доцент Москва – Оглавление ВВЕДЕНИЕ
Раздел 1. Анализ системы оперативного управления органами внутренних дел как объекта логико-лингвистического моделирования
1.1. Роль и место оперативного управления в системе управления органами внутренних дел
1.2. Методы и средства обеспечения эффективности функционирования системы оперативного управления органами внутренних дел
1.3. Анализ методов и моделей отбора релевантной информации в системах информационного обеспечения управления
1.4. Методы формирования словаря предметной области (тезауруса) на основе логико-лингвистического моделирования
Выводы по разделу 1:
Раздел 2. Теоретико-прикладные основы построения логико-лингвистической модели в системе оперативного управления органами внутренних дел и метода идентификации/аутентификации процессов, пользователей и устройств в метрике ортогональных преобразований
2.1. Разработка методики формирования словаря предметной области.............. 2.2. Разработка методики формирования поискового образа документа на основе дескрипторного индексирования ключевых слов
2.3. Разработка методики формирования поискового образа запроса................ 2.4. Разработка методики поиска релевантных источников информации.......... 2.5. Методика идентификации и аутентификации документов и их поисковых образов в ортогональном базисе
2.5.1.Структурная схема процесса вычисления функции свертки в ортогональном базисе с использованием модифицированного множества кусочно-постоянных ортогональных функций Уолша
2.6. Распознавание санкционированных пользователей в корпоративных сетевых структурах на основе ортогонального кодирования
Выводы по разделу 2:
Раздел 3. Экспериментальная оценка качественных показателей отбора релевантных источников в информационной системе оперативного управления
3.1. Индексирование терминов словаря-тезауруса оперативного управления... 3.2.Индексирование документов
3.3.Индексирование запросов
3.4. Оценка результатов поиска
3.5.Экспериментальное моделирование процессов аутентификации исходных документов и их поисковых образов в ортогональном базисе
Выводы по разделу 3:
ЗАКЛЮЧЕНИЕ
СПИСОК СОКРАЩЕНИЙ
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ
Приложение А
Словарь поисковых терминов: фасета «Дежурная часть ОВД»
Приложение Б
Словарь поисковых терминов: фасета «Информационная безопасность»... Приложение В
Ключевой словарь «Дежурная часть ОВД»
Приложение Г
Ключевой словарь «Информационная безопасность ОВД»
Приложение Д
Дескрипторный словарь «Информационная безопасность ОВД»..................
ВВЕДЕНИЕ
Актуальность исследования Система органов внутренних дел (ОВД) Российской Федерации является одной из социальных систем, реализующей функции укрепления правопорядка в обществе, обеспечения безопасности граждан от преступных посягательств. По объему решаемых задач и выполняемых функций характеризуется большим количеством составляющих элементов, высокой степенью их связности, многообразием алгоритмов управляющих воздействий и большими объемами перерабатываемой информации.Относясь к искусственным социальным системам-организациям, созданным для решения определенных задач или выполнения социального заказа, являясь одновременно и частью общества, интересы которого призвана обеспечивать, система органов внутренних дел в полной мере отражает все изменения в общественной жизни. С ростом масштабов и динамики процессов, определяющих функционирование органов внутренних дел в условиях продолжающихся социально-экономических преобразований в стране, актуализируется задача поиска эффективных путей достижения главной цели, стоящей перед ними, – обеспечение защиты прав и свобод граждан, охрану правопорядка и общественной безопасности.
Важная роль в реализации этого направления деятельности органов внутренних дел отведена системе оперативного управления, представленной в настоящее время в первую очередь дежурными частями и оперативными штабами всех уровней. Она обеспечивает повседневную деятельность подразделений, управление силами и средствами, сбор и обработку необходимой информации, осуществляет слежение и контроль оперативной обстановки в своей зоне ответственности.
Однако при существенном осложнении оперативной обстановки, возникновении особых условий деятельности органов внутренних дел объем поступающей информации и количество привлекаемых сил и средств становятся настолько значительными, что для эффективного управления штатных и технических возможностей становится недостаточно.
Типовая штатная структура органа внутренних дел на территориальном уровне предусматривает порядка сорока взаимодействующих друг с другом и шестидесяти, а на федеральном – более ста. Система управления при этом замыкается на руководителей – физических лиц, принимающих решения, возможности которых по восприятию и обработке соответствующей информации существенно ограничены естественными физиологическими параметрами человеческой психики. С каждым годом все острее встает вопрос ограничения компетентности первых лиц в отношении многочисленных специфических подразделений, входящих в состав вверенного ОВД. Эти факторы приводят к снижению эффективности управления, в особенности оперативного.
Оперативное управление подразделениями и службами органов внутренних дел является сложным, многоаспектным и многоплановым процессом, поэтому, наряду со сложившимися направлениями исследований в теории управления социальными и экономическими процессами, перспективным направлением является разработка систем оперативного реагирования, ориентированных на формирование автоматизированных комплексов поддержки принятия решений.
Разработка подобных комплексов направлена на принятие решений в системах тематической распределенностью, что требует значительных физических, интеллектуальных и временных затрат по оценке сложившейся оперативной обстановки и выработке соответствующих управленческих решений.
внутренних дел на основе современных информационных технологий непосредственно связано с созданием интеллектуальных систем управления, формированием баз знаний об оперативной обстановке.
Практическая реализация интеллектуальных систем управления направлена на разработку и внедрение экспертных систем – систем поддержки принятия решений (далее – СППР). В свою очередь, разработка и эксплуатация СППР невозможна без надежной и многофункциональной системы информационного обеспечения с инструментарием отбора релевантных источников информации, обеспечивающей высокую степень полноты и точности поиска и малый информационный шум в базах знаний.
Высокая степень насыщенности нормативно-руководящими, нормативноправовыми и оперативными документами информационной базы поддержки принятия управленческих решений ставит перед лицом, принимающим решение (ЛПР), достаточно сложные задачи по отбору релевантных источников информации, отражающих состояние оперативной обстановки и возможных альтернативных вариантов принятия решений.
Качественно новым подходом к решению данной задачи является логиколингвистическое моделирование детерминированной предметной области на основе семантического анализа текстовой информации, поступающей в автоматизированную информационную систему при помощи гибкой системы тезаурусов.
Анализ предметной области данного исследования, а именно понятийнотерминологического аппарата контура оперативного управления органами внутренних дел, показал, что на сегодняшний день актуальной задачей является его единообразное определение, выявление логико-семантических связей между неоднозначности смысловых понятий.
Эта задача может быть решена при помощи разработки словаря-тезауруса, особым образом описывающего языковые единицы, составляющие понятия предметной области. Создание такого тезауруса и использование его в лингвистическом обеспечении автоматизированной информационной системы позволит повысить ее эффективность, обеспечить полноту и точность информационного поиска, даст возможность общаться участникам системы на едином языке, адекватно отражающим объекты предметной области и отношения между ними.
Кроме того, важной структурной составляющей информационной системы является реализация процесса аутентификации информационных и поисковых массивов, исключающего возможности преднамеренной или случайной модификации как самих информационных документов и сообщений, так и их поисковых предписаний.
Степень разработанности темы Следует отметить, что методы формирования словарей-тезаурусов до настоящего времени решались преимущественно в рамках отраслевых научных школ. Основное направление получило создание различного рода тематических использования методов теории логико-лингвистического моделирования, разработанной Д.А. Поспеловым еще в 1970–1990 гг. и позволяющей создавать и логически связывать лингвистические модели недетерминированных предметных областей для применения в информационно-поисковых системах, ведомственной наукой до настоящего времени не разрабатывались. Применение методов конструирования, используемый в теории лингвистики (Д.Г. Лахути, Н.В. Лукашевич, В.А. Архангельская и др.), а также модельного инструментария теории информационного поиска (Г.Г. Белоногов, А.И. Черный, Г. Сэлтон, Р. Хойл, Р.Д. Аветисян и др.) наряду с естественнонаучными методами теории множеств (Б.З. Вулих), теории распознавания образов (А. Фор, К. Фу), теории ортогональных рядов и полиномов (С. Качмаж, Г. Штейнгауз, В.Ф. Макаров), теории графов (К. Берж), следуя фундаментальным концепциям теории управления организационными системами (Д.А. Новиков, А.Д. Цвиркун), в том числе оперативного (ситуационного) (А.М. Крылов, В.З. Веселый, А.Ф. Майдыков и др.), позволило создать модель предметной области системы оперативного управления органами внутренних дел, описать существующие связи естественнонаучного подходов составило теоретическую основу диссертационной работы.
Информационной базой исследования являются: законодательство Российской Федерации (в части, касающейся оперативного управления);
нормативно-правовые документы Российской Федерации по информационной безопасности; система стандартов Российской Федерации по информатизации, библиотечному и издательскому делу (СИБИД), межгосударственные стандарты Российской Федерации по подготовке тезаурусов; нормативные документы МВД России; тезаурус основных терминов и определений, используемых органами внутренних дел при возникновении чрезвычайных обстоятельств, разработанный ВНИИ МВД России; тезаурус научно-технических терминов под общей редакцией доктора технических наук Ю.И. Шемакина; различные издания по информатизации; словари и текстовые материалы, полученные из сети Интернет;
термины и определения в области информационной безопасности; документы ЕИТКС ОВД в части оперативного управления органами внутренних дел.
Объектом исследования является система оперативного управления органами внутренних дел.
Предметом исследования являются методы логико-лингвистической обработки информации и идентификации пользователей, процессов и устройств в информационных инфраструктурах системы оперативного управления органами внутренних дел.
Целью диссертационного исследования является совершенствование системы оперативного управления органами внутренних дел на основе логиколингвистического моделирования.
Для достижения указанной цели необходимо решить следующие задачи:
– провести анализ системы оперативного управления органами внутренних дел в структуре логико-лингвистического базиса с целью выявления методов повышения эффективности управления;
– провести логико-семантический анализ понятийно-терминологического аппарата предметной области для формирования логико-лингвистической модели в системе оперативного управления ОВД с целью выявления устойчивых семантических связей;
– разработать фасетную классификацию лексических единиц предметной области с целью формирования словаря системы оперативного управления, выявить группы условной эквивалентности терминов, определить дескрипторы и логико-семантические связи между ними;
– разработать методику формирования информационно-лингвистического обеспечения (тезауруса) системы оперативного управления органами внутренних дел;
– разработать математическую модель отбора релевантных источников в автоматизированной информационной системе оперативного управления с использованием базисного опорного словаря (тезауруса);
– выработать количественные критерии оценки эффективности отбора релевантных источников и обосновать необходимость совершенствования информационного обеспечения системы оперативного управления на основе логико-лингвистического моделирования;
– разработать методику аутентификации электронных документов с использованием модифицированного множества кусочно-постоянных ортогональных функций Уолша и выработать предложения по идентификации санкционированных пользователей, процессов и устройств в электронном документообороте системы оперативного управления органами внутренних дел.
Методология и методы исследования В диссертационной работе применяются следующие методы: качественного и количественного анализа систем, математической статистики, логиколингвистического моделирования, лингвистического конструирования, инструментального проектирования лингвистического обеспечения автоматизированных информационных систем.
Научная новизна работы состоит в том, что автором впервые предложена методика совершенствования системы поддержки принятия решений в контуре оперативного управления органами внутренних дел средствами информационнолингвистического обеспечения с расширенной структурой базисных отношений (прикладного тезауруса) и идентификация/аутентификация процессов, пользователей и устройств на основе ортогонального кодирования и вычисления функции свертки в ортогональном базисе.
Достижение основной цели исследования и связанных с ней задач нашло свое отражение в результатах, имеющих характер научной новизны:
Впервые определены состав, структура и основные математические и статистические параметры тезауруса оперативного управления органами внутренних дел с использованием математических логико-семантических методов, необходимых для формирования тезауруса предметной области.
Предложена методика организации системы информационнолингвистического обеспечения как системы с развитой структурой базисных отношений в виде прикладного тезауруса, являющегося формализованным представлением предметной области оперативного управления органами внутренних дел, позволяющая формировать и поддерживать тезаурус в актуальном состоянии.
моделирования разработан тезаурус информационной системы оперативного управления, позволяющий закрепить имплицитно существующие базисные отношения в предметной области деятельности органов внутренних дел.
Разработана методика формирования поисковых образов документа и свободно конструируемого запроса на основе методов дескрипторного индексирования ключевых слов.
Разработана модель информационного поиска в автоматизированных системах оперативного управления органов внутренних дел на основе методов инверсной реализации и логико-лингвистического моделирования.
Разработана методика идентификации процессов, пользователей и устройств на основе вычисления функции свертки и кодирования исходных сообщений с использованием кусочно-постоянных ортогональных функций пространства.
Новизна сформулированных автором выводов нашла свое отражение в положениях, выносимых на защиту, а именно:
• методика формирования тезауруса предметной области как системы внутренних дел;
• словарь поисковых терминов (тезаурус) системы информационного «фасетной» классификации с развитой структурой базисных отношений;
• методика формирования поискового образа документа и поискового индексирования ключевых терминов;
• методика критериальной оценки качественных показателей поиска и отбора релевантных источников информации системы оперативного управления органами внутренних дел;
ортогонального преобразования при вычислении функции свертки и информационных системах.
Теоретическая и практическая значимость Теоретическая значимость диссертационного исследования определяется тем, что автором впервые с целью совершенствования системы оперативного управления органами внутренних дел разработана методика формирования системы информационно-лингвистического обеспечения как системы с развитой структурой базисных отношений в виде прикладного тезауруса с возможностью включения отдельных тематических фасет.
Практическая значимость работы заключается в том, что положения, содержащие научную новизну, могут быть применены участниками системы оперативного управления органами внутренних дел в информационных системах с целью повышения эффективности использования этих систем для обеспечения полноты и точности отбора релевантных источников в информационных массивах. Существенно повышается достоверность управленческой информации за счет снижения ее субъективности, обусловленной влиянием человеческого фактора. Обеспечена возможность установления подлинности процессов, пользователей и устройств в корпоративных информационных системах в режиме удаленного доступа к вычислительным ресурсам.
Обоснованность и достоверность результатов исследования Обоснованность диссертационного исследования достигнута корректным применением методологического аппарата следующих теорий: активных и организационных систем, множеств, восприятия и распознавания образов, ортогональных рядов и полиномов.
Достоверность результатов исследования подтверждает внедрение методических рекомендаций по разработке тезауруса предметной области оперативного управления органами внутренних дел и словаря-тезауруса в деятельность оперативных подразделений ОПБ МВД России, дежурной части УМВД России по Калининградской области, а также тот факт, что формирование лексического множества словаря проводилось на основе действующего законодательства и нормативно-правовой базы органов внутренних дел Российской Федерации.
Апробация и внедрение результатов диссертационного исследования Разработанные автором теоретические положения были доложены на следующих научно-практических конференциях: XVIII международной научной конференции «Информатизация и информационная безопасность правоохранительных органов» (Москва, АУ МВД РФ, 2009); XIX международной научной конференции «Информатизация и информационная безопасность правоохранительных органов» (Москва, АУ МВД РФ, 2010); международном симпозиуме «Специальная связь и безопасность информации (ССБИ-2012)»
(Краснодар – Терскол, 2012); XXI всероссийской конференции «Информатизация и информационная безопасность правоохранительных органов» (Москва, Академия управления МВД России, 2012); межвузовской научно-практической конференции «Силовое принуждение и проблемы обеспечения национальной безопасности России» (Москва, Пограничная Академия ФСБ России. 2010).
По результатам диссертационного исследования автором получены пять актов о внедрении следующих методик: формирования словаря-тезауруса предметной области, формирования поисковых образов документов и запросов, отбора релевантных источников информации, идентификации пользователей, процессов и устройств на основе ортогональных преобразований при вычислении хэш-функции и кодировании идентифицирующих сообщений в практическую деятельность подразделений МВД России и учебный процесс высших учебных заведений.
Диссертационная работа по своему содержанию соответствует паспорту специальности 05.13.10 – Управление в социальных и экономических системах (технические науки), пунктам 6, 7 раздела «Области исследований»:
«6. Разработка и совершенствование методов получения и обработки информации для задач управления социальными и экономическими системами.
7. Разработка методов идентификации в организационных системах на основе ретроспективной, текущей и экспертной информации».
Публикации По теме исследования опубликовано 13 работ. Общий объем научнометодических работ автора составляет 3,9 печатных листа.
Структура и объем диссертации Диссертационное исследование состоит из введения, трех разделов с выводами по каждому из них, заключения, списка приводимых в тексте сокращений, списка использованной литературы и пяти приложений.
Раздел 1. Анализ системы оперативного управления органами внутренних дел как объекта логико-лингвистического моделирования 1.1. Роль и место оперативного управления в системе управления органами внутренних дел Общая структура системы управления Министерства внутренних дел (МВД) Российской Федерации состоит из трех уровней – федерального, регионального и территориального (муниципального). Введение главных управлений МВД России по федеральным округам формально позволяет обосновать наличие четырех уровней управления, приведенных в таблице 1.1, однако на практике роль окружных управлений не существенна.
Таблица 1.1. Современная структура системы управления органами внутренних дел.
управления 1-й уровень Министерство внутренних дел Российской Федерации, его Главные (стратегический) управления и Департаменты 2-й уровень Главные управления МВД России по федеральным округам 3-й уровень МВД республик; ГУМВД (УМВД) краев, областей, городов (оперативный) федерального значения (Москва и Санкт-Петербург), автономной области, автономных округов; управления министерства внутренних дел на железнодорожном, воздушном и водном транспорте; управления на особо важных и режимных объектах;
территориальные органы управления учреждениями с особыми условиями хозяйственной деятельности; окружные управления материально-технического и военного снабжения: образовательные, научно-исследовательские учреждения и иные подразделения 4-й уровень Управления и отделы внутренних дел районов в областях, городов, (тактический) районов в городах, закрытых административно-территориальных образований: линейные отделы, отделения на железнодорожном, режимных объектах: предприятия, учреждения и организации, созданные для осуществления задач, возложенных на органы Для определения понятия и задач оперативного управления необходимо проанализировать его с позиций системного подхода. Помимо оперативного управления выделяют еще два вида управления: стратегическое и тактическое.
Под стратегическим управлением понимается деятельность по определению и достижению крупномасштабных целей в соответствии с правоохранительной политикой государства.
Процесс тактического управления направлен на обеспечение стабилизации, организационной устойчивости служб и подразделений органов внутренних дел.
Стратегическое, тактическое и оперативное управление находятся в диалектическом единстве и дополняют друг друга. При этом имеется ряд признаков, их отличающих.
Во-первых, это временной интервал. Для оперативного управления необходим более короткий промежуток времени, чем тактического и стратегического. Условно можно выделить следующие характерные временные диапазоны:
оперативное – дни;
тактическое – месяцы;
стратегическое – годы.
Во-вторых, это масштабность целей. Стратегическое управление характеризуется крупномасштабными целями, которые позволяют обеспечивать существенные преобразования в деятельности органов внутренних дел; цели оперативного управления локальны и определяются отклонениями в оперативной обстановке.
Условно для различных уровней управления ОВД можно выделить следующие характерные цели:
стратегическое – реагирование в соответствии с правоохранительной политикой государства и долгосрочными прогнозами;
тактическое – организационно-правовая работа, направленная на создание условий для обеспечения повседневной деятельности ОВД;
оперативное – непосредственное реагирование на изменения оперативной обстановки, а также обеспечение повседневной деятельности ОВД.
В-третьих, это используемые силы и средства.
На стратегическом уровне, как правило, задействуются силы и средства федерального подчинения, на тактическом – регионального, на оперативном – территориального.
Кроме того, выделяют такие признаки, как плановость, характер осуществляемых мероприятий и другие.
Исходя из анализа сложившейся в ведомственной науке терминологии, будем использовать следующее определение: оперативное управление – управление текущими событиями, включающее оперативное планирование, оперативный учет, оперативный контроль, координацию.
Компонентами организационной структуры системы управления органами внутренних дел, отражающими ее строение и внутреннюю форму, являются подсистемы различных уровней управления и входящие в их состав службы и подразделения.
Информационные связи между подсистемами различных уровней являются вертикальными, а между подсистемами одного уровня – горизонтальными1, что является отображением базиса функциональной взаимосвязи в виде иерархической структуры родовидовых отношений. Для каждой подсистемы связи со своими подчиненными подсистемами считаются внутренними (род – вид), а остальные – внешними (ассоциативные и сочетативные связи).
В структуре этих отношений можно выделить различные элементы, например, в горрайоргане внутренних дел: начальник – заместители по линиям работы – начальники служб и подразделений – руководители функциональных групп (дежурных смен, оперативных групп и т.д.). Одновременно данный орган внутренних дел входит в состав структуры (системы) более высокого уровня, в которой он является низовым звеном от муниципального до регионального, межрегионального и федерального. Ведомственным высшим уровнем управления является Министерство внутренних дел, которое, в свою очередь, входит в состав системы органов исполнительной власти России.
Цвиркун А.Д. Основы синтеза структуры сложных систем. М., 1982. С.27.
Оперативное управление принято рассматривать в двух традиционных аспектах:
как непрерывное управление текущими событиями;
как ситуационное управление, или управление по ситуации, т.е.
управление, заключающееся в принятии управленческих решений по мере включающее в себя совокупность мер, позволяющих воздействовать на конкретные отклонения от нормального режима функционирования1.
Оперативное управление органами внутренних дел включает в себя управление текущими событиями и управление при возникновении чрезвычайных ситуаций и осложнении оперативной обстановки. Управление текущими событиями подразумевает организацию повседневной деятельности органа внутренних дел любого уровня: слежение за оперативной обстановкой;
реагирование на поступление сообщений о совершаемых преступлениях и общественного порядка на вверенной территории и раскрытия преступлений по «горячим следам»; организацию работы следственно-оперативной группы;
доставление в ОВД лиц, подозреваемых в совершении преступлений и правонарушений, и надлежащее разбирательство с ними; взаимодействие с органами исполнительной власти и органами местного самоуправления; с медучреждениями и другими учреждениями и т.д.
При возникновении чрезвычайных ситуаций и осложнении оперативной обстановки деятельность субъектов оперативного управления органами внутренних дел приобретает несколько иной характер. Появляется необходимость принятия адекватных ситуации управленческих решений, немедленного реагирования на любые изменения оперативной обстановки, действий по сбору оперативного штаба, мобилизации и расстановки сил и средств в соответствии со Д.А. Поспелов Ситуационное управление: теория и практика. М., 1986. С.26-31.
взаимодействия с членами оперативного штаба, отдача приказов и распоряжений в соответствии с имеющимися планами действий при ЧС и решениями оперативного штаба.
Высокая степень насыщенности нормативно-руководящими, нормативноправовыми и оперативными документами информационной базы поддержки принятия управленческих решений ставит перед лицом, принимающим решение (ЛПР), достаточно сложные задачи по отбору релевантных источников информации, отражающих состояние оперативной обстановки и возможных альтернативных вариантов принятия решений. Многоаспектность и разнородность решаемых задач оперативного управления приводит к необходимости координации многих функциональных звеньев органов внутренних дел, что должно в обязательном порядке привести к построению сложной структуры управления, определяемой в контуре решаемых задач как структуры фасетной классификации с устойчивыми, гибкими и чувствительными связями, например:
1. Фасета принятия решений по службе штабов - ;
3. Фасета принятия решения по линии оперативного реагирования в случае возникновения чрезвычайных обстоятельств Установление межфасетного взаимодействия приводит к организации эффективного управления приданными силами и средствами по реагированию на оперативную обстановку. Временной дефицит приводит, в свою очередь, к необходимости такой организации системы оперативного информационного обеспечения, при которой за минимальный временной интервал необходимо получить данные с достаточной степенью полноты и точности и малым информационным шумом для ввода в систему поддержки принятия решений и выработки ЛПР альтернативных вариантов поведения для управляемых подразделений и служб. Следовательно, на выработку рациональных вариантов управления необходимо обеспечить структуру ЛПР своевременной, полной и достоверной информацией. Эту задачу надо решать, учитывая как современные особенности управления, так и особенности его информационного обеспечения управляющую систему – систему, реализующую функцию управления (в системе управленческий аппарат, штаб, дежурная часть, методы принятия управленческих решений) и управляемую систему – (функциональные подразделения, ресурсы, в том числе и кадровые, методы обработки информации).
социальных структурах, к которым относятся органы внутренних дел, протекает циклически, с соответствующими фазами и стадиями. В основе выделения управленческого цикла лежит отображение процесса управления в виде последовательности действий, совершаемых субъектом управления для решения управленческой задачи, которое включает в себя как поиск и выбор адекватных решений, так и их непосредственную реализацию.
Классический подход цикла системы управления позволяет сформировать взаимосвязанных элементов, объединенных единством цели. Такие этапы в отображении к системе оперативного управления ОВД могут быть агрегированы по следующим направлениям:
1. Процедура сбора и обработки информации с целью оценки оперативной 2. Процедура оценки релевантных источников информации и на ее основе Винер Н. Кибернетика, или Управление и связь в животном и машине. 2-е изд.
М.,1968. С.160.
3. Отдача распоряжений, формирование и реализация управляющих команд коррегирование управляющих воздействий в процессе управления силами и средствами ОВД по решению поставленных задач.
Эффективность решения задач оперативного управления подразделениями и службами ОВД во многом определяется эффективностью функционирования механизма сбора и обработки информации. Этот этап является определяющим для формирования и реализации последующих трех этапов единого управленческого цикла. Разделение задач оперативного управления можно дифференцировать на одноэтапные или одношаговые задачи и задачи многошаговых процессов управления ( ). Формирование независимых одношаговых задач оперативного управления ОВД практически невозможно из-за распределенности функциональной нагрузки и появления логически связей межфасетного и внутрифасетного взаимодействия. Поэтому целесообразно рассматривать процесс оперативного управления ОВД как многошаговый процесс, т.е. оценка оперативной ситуации и формирование управляющих воздействий должны проводиться, сообразуясь с изменениями оперативной обстановки и ситуации, ориентировать систему оперативного управления ОВД на структуру с непрерывными динамическими процессами управления. Эффективность системы управления во многом зависит от надежного функционирования системы информационного обеспечения. Недостаточная полнота и достоверность поступающей информации не устраняет ЛПР от необходимости выработки управляющих воздействий, в связи с чем возникает целый комплекс задач управления по принятию решений в условиях неопределенности. Следовательно, весьма важным фактором в контуре оперативного управления является уменьшение или устранение такой неопределенности за счет обеспечения соответствующей полноты и точности информации об объектах оперативного интереса, т.е. от эффективности информационного обеспечения процесса управления.
Таким образом, система оперативного управления органами внутренних дел может быть представлена в виде следующего функционала:
где – постоянные управляющие воздействия;
- переменные воздействия (по обстановке);
– основные методы (способы) воздействия;
– дополнительные (вспомогательные) методы;
– административные методы управления.
С позиций выбранной нами для исследования методологии системного анализа информацию, используемую при управлении органами внутренних дел, будем рассматривать в единстве кибернетического и социального аспектов.
В теории управления существует множество моделей управленческого цикла, их трактовка теоретиками не всегда однозначна. Одни авторы рассматривают управленческий цикл, подробно детализируя его этапы, другие предлагают рассматривать этапы управления интегрировано, объединяя несколько функций управления на одном этапе. Большинство авторов при построении модели управленческого цикла выделяют цикл руководителя (непосредственно управленческий цикл) и цикл исполнителей (исполнительский цикл).
Цикл руководителя включает в себя такие функции, как выработка цели, планирование, принятие решения, доведение до исполнителей, контроль исполнения, сбор информации, анализ, управляющее воздействие.
Соответственно цикл исполнителя состоит из следующих этапов: получение задания (указания, распоряжения), подготовка к исполнению (анализ, сбор данных), исполнение, получение дополнительных указаний и распоряжений, отчет об исполнении (окончательный или промежуточный).
Взаимодействие субъекта и объекта управления осуществляется посредством движения потоков информации, которая выступает связующим звеном между ними, характеризуя состояние объекта управления в статике и динамике, и обеспечивая подготовку управляющего воздействия в виде управленческого решения и характеристику результата его реализации. Чем управленческие решения и, следовательно, результаты их реализации. В результате такого взаимодействия управляемая система изменяет свое состояние, что фиксируется управляющей системой и используется для генерации нового управляющего воздействия и т.д.
С кибернетической точки зрения под информацией принято понимать совокупность сведений (данных) о состоянии системы и внешней среды, которые помогают решить ту или иную задачу 1. Как правило, различают два основных вида информации: элементарную (первичную) и обработанную.
характеризуют определенное событие, ситуацию, некоторый факт за достаточно короткий интервал времени. В исследуемой предметной области к такой информации относятся данные о моментном состоянии оперативной обстановки, расстановке сил и средств в определенный момент времени и т.д.
Основной характеристикой элементарной информации является то, что она живет очень непродолжительное время, постоянно обновляясь новыми значениями, и, следовательно, не может быть непосредственно использована в качестве управляющего воздействия. Для этого ее необходимо собрать и определенным образом обработать. Под «обработанной» информацией будем рассматривать всю элементарную информацию, воспринятую человеком, преломленную в его сознании и реализуемую в конкретных действиях.
Таким образом, в процессе управления ОВД, субъект управления выступает в роли обязательного и завершающего звена на пути преобразования информации в управляющее воздействие, тем самым подчеркивая присутствие в понятии «информация» социального аспекта.
Винер Н. Кибернетика, или Управление и связь в животном и машине. 2-е изд.
М.,1968. С.96.
Обладание информацией необходимо субъекту управления для успешного осуществления своих управленческих функций, следовательно, информационное обеспечение процесса управления органами внутренних дел должно охватывать все этапы управленческого цикла: от подготовки и принятия решения до анализа и контроля исполнения.
На рисунке 1.1 отображена схема прохождения информации в структуре управления. Источниками возникновения (и одновременно приемниками) информации являются структурные подразделения органа внутренних дел или органа управления (различные службы, отделы, отделения и т.д.) и различные внешние связанные с ним организации.
Рис.1.1. Информационная основа управленческого цикла.
Информационное обеспечение является базой, на которой строится управленческая деятельность организационной системы и включает в себя следующие компоненты:
состав информации, т.е. перечень информационных единиц или информационных совокупностей (показателей, различных сообщений, документов и т.д.), необходимых для решения комплекса задач системы управления;
количественные оценки потоков информации (объем, интенсивность), маршруты движения документов, различные временные характеристики функционирования источников информации, получения первичных данных, старения и обновления данных;
характеристики качества информации, такие как оценки полезности, значимости, полноты, своевременности, достоверности и других качеств информации;
способы преобразования информации, т.е. методы сбора, распределения информации, методики расчета показателей, схемы обеспечения информацией подразделений системы управления, подготовки информационных массивов для решения задач.
Следуя мнению авторов,1 рассмотрим подробнее некоторые характеристики информационных потоков, Информация подразделяется на исходную и управляющую. Исходная информация всегда направлена от объекта управления к управляющей системе, от низшего к более высокому уровню системы управления, управляющая информация имеет противоположное направление.
По степени постоянства, определяемой как время, в течение которого информация сохраняет свое значение и актуальность, в свою очередь, информация подразделяется на постоянную, условно-постоянную и переменную.
Постоянная информация не изменяет своего значения в течение длительного периода (наименование органа внутренних дел, названия структурных подразделений, название документов, квалификация преступлений и т.д.).
Условно-постоянная информация сохраняет свое значение на определенный период времени (название специальных операций, вводимых на определенный срок и т.п.).
Переменная информация характеризуется случайностью своего возникновения по времени.
Модин А.А., Яковенко Е.Г., Погребной Е.П. Справочник разработчика АСУ. М., 1978.С.344.
По структуре информация подразделяется на призначную (основную и вспомогательную) и количественную.
Основная призначная информация указывает время и место события, источник и направление информации, отличительные особенности объекта управления, например, сообщение в оперативной сводке о совершении преступления.
Вспомогательная призначная информация служит для структуризации использования и обработки информации (номер документа, его реквизиты и т.д.).
Количественными характеристиками информации являются объем, плотность информационного потока, информационная емкость.
Периодичность возникновения и передачи информации характерна для систематизированных видов информации, при этом должна быть обеспечена возможность оперативного вмешательства субъекта управления для устранения отклонений от запланированного хода развития действий. Сокращение периодичности информации резко увеличивает объемы информационных потоков и работ по их аналитико-семантической переработке, передаче и приему.
Степень взаимосвязи характеризуется количеством видов информации, взаимосвязанных с данным видом информации. Взаимосвязанными видами являются, например, исходная и производная информации.
Многие виды информации имеют вероятностный характер возникновения и передачи.
характеризуется рядом свойств, к числу которых относится самостоятельность данных; возможность их многократного использования, сохранения у передающего или получающего субъекта; пригодность к обработке, интеграции и «сжатию» объема за счет изживания дублирующей, повторной и параллельной информации; допустимость математического анализа; системность;
коммуникативность.
Управляемый объект и управляющий орган связаны между собой прямым и обратным каналами передачи информации. По прямому каналу передаются команды, приказы, планы действий и задачи исполнителям (субъекту), входящему в объект управления и подчиненному управляющему органу. По каналу обратной связи в управляющий орган поступает информация о состоянии объекта управления и о выполнении задач, поставленных им при оперативном управлении. Управляющий орган, наблюдая за ходом операции по информации, поступающей по каналу обратной связи, противопоставляет возмущениям и внешним противодействиям своими решениями такое перераспределение ресурсов, при котором обеспечивается достижение цели. Обычно в процессе управления кроме информации, поступающей по каналу обратной связи, имеется возможность получать некоторую информацию о внешней среде. Также необходимо учитывать, что на оба канала передачи информации (об объекте и среде) всегда будут оказывать воздействие различного рода пассивные и активные помехи, поэтому информация у управляющего органа никогда не может быть полной. Из-за случаев больших перерывов в поступлении информации, дезинформации или предоставления недостоверной в силу различных причин информации, у лица, принимающего решение, может сложиться ложное представление о происходящем. Источником дезинформации могут, например, являться органы управления низших рангов, входящие в объект управления, которые иногда стремятся скрыть от управляющего органа (старшей инстанции) истинное положение дел или преувеличить влияние некоторых факторов.
В результате, решения принимаются не на основе истинного знания об объекте управления и среде, а на основе некоторого представления о них, иногда далекого от действительности.
В процессе исполнения решения органа управления для достижения цели в результате внешних возмущений (воздействий) и неточного, а иногда и неверного поведения исполнителей (внутренних возмущений) неизбежно происходят отклонения от запланированной деятельности, которые приводят к необходимости контролировать текущее состояние системы и осуществлять такое управление, при котором запланированная деятельность была бы реализована. А это означает, что в процессе осуществления управляющей деятельности органу управления (руководству) приходится при появлении отклонений ставить частные задачи по ликвидации отклонений, принимать решения, добиваться их исполнения, оценивать результаты решения частных задач и делать выводы на будущее. Таким образом, в процессе деятельности системы из-за внешних (внутренних) возмущений постоянно возникают циклы: задача – решение – исполнение – оценка – рекомендации на будущее. Совокупность таких циклов, неизбежных при функционировании системы, образует процесс оперативного управления.
Система оперативного управления органами внутренних дел может быть отображена двумя структурными составляющими:
функциональная часть;
обеспечивающая часть.
Функциональная часть представляет собой совокупность сил и средств управления для решения поставленных задач и достижения определенных целей.
Обеспечивающая часть предназначена для информационного обеспечения управления и может включать в себя инструментальный набор логикоматематических средств и методов прогнозирования развития оперативных ситуаций, принятия решений и планирования операций, контроля исполнения принятых решений и их коррегирования на всех этапах единого управленческого цикла.
Другими словами, для обеспечения процесса управления требуется определенная организация информационных потоков.
В этих целях создаются информационные системы – системы сбора, хранения, обработки и передачи информации, необходимой для удовлетворения потребностей управления для того, чтобы субъект управления мог в нужный момент получить из определенных источников систематизированную и должным образом обработанную информацию.
На основе анализа функциональных воздействий всех структурных подразделений системы оперативного управления, обобщенную структуру единого управленческого цикла можно представить рисунком 1.2., из которого следует, что система информационного обеспечения процесса управления является важным составляющим элементом для принятия управленческого решения.
семантическая обработка информации и построение источников для принятия информации об объектах единого тезауруса системы управленческого Рис.1.2. Система информационного обеспечения в управленческом цикле.
Таким образом, с точки зрения информационного обеспечения, для осуществления управленческого процесса необходимо:
• собирать информацию о состоянии системы органов внутренних дел, преступности и внешней среды;
• осуществлять переработку информации с целью формулирования управляющего воздействия;
• сформировать управляющее воздействие на объект управления;
• обеспечить контроль реализации этого воздействия.
Рассматривая процесс оперативного управления объектами как процесс достижения поставленной цели наилучшим образом, необходимо производить оценку выбираемых воздействий на объект управления и принимаемых решений на основе детерминированного критерия качества, который в полной мере характеризует степень различных затрат (технических, экономических, материальных, технологических, физических, интеллектуальных и др.) на достижение поставленной цели. В этом случае, формальное отображение объекта управления можно представить в виде n-мерного вектора:
Координаты задаваемого вектора определяют траекторию объекта управления, которая представляет собой фазовую траекторию, однозначно определяющую состояние объекта управления в заданный момент времени.
Например, если объектом оперативного управления является наряд патрульно-постовой службы, его состояние может быть описано следующими переменными:
текущее состояние (текущий режим функционирования);
экипировка (наличие вооружения, специальных средств и т.д.);
В этом случае на траекторию системы накладывается ряд ограничений, из которых следует, что выбранная траектория должна относиться к множеству допустимых траекторий. В этом случае под такими ограничениями в системе оперативного управления органами внутренних дел понимают:
время оперативного реагирования;
ресурсное обеспечение (силы и средства);
территориальные ограничения;
нормативно-правовое обеспечение;
своевременность и полнота поступления информации о состоянии объекта оперативного управления.
функционирует, охватывая большую область правоохранительной деятельности.
Но, помимо знаний в области юриспруденции, управления, социологии и других общественных наук, сотрудникам дежурных частей необходимо обладать знаниями ведомственных нормативных актов, инструкций, иметь определенную компетенцию в области технических наук, уметь обращаться с оружием, спецсредствами и боевой техникой, обладать основами компьютерных знаний.
Все эти особенности деятельности определяют широкую предметную область исследования, с разнообразной терминологией из разных областей знания.
Сложность и многоплановость процессов переходного периода в нашем обществе, приводят к тому, что на вход системы органов внутренних дел поступает многочисленная и, зачастую, противоречивая информация.
Информацию, циркулирующую в самой системе управления можно также охарактеризовать как неполную, недостаточную и неоднозначную вследствие многочисленных структурных реорганизаций, кадровых перестановок, нечеткости приоритетов политики в борьбе с преступностью и т.п.
Говоря о качестве информационного обеспечения процесса управления следует подчеркнуть, что оно, во многом зависит от информированности субъекта управления о влиянии того или иного фактора на преступность и деятельность ОВД.
Важно отметить, что процесс управления ОВД содержит формальную и неформальную информационную компоненту. Формальный элемент заключается в использовании при управлении четко сформулированных приказов, инструкций, правил, регламентирующих деятельность сотрудников ОВД. Неформальные компоненты проявляются, например, в толковании формальных инструкций, во взаимоотношения между людьми. Интересы человека, предрассудки, предубеждения ведут к нарушению информационных потоков. Даже в условиях стабильно развивающихся процессов, они привносят в процесс информационного обеспечения достаточный элемент субъективизма. Следовательно, увеличение неформальной компоненты ухудшает качество информационного обеспечения.
Привлечение экспертов для решения конкретных задач увеличивает неформальную часть используемой информации. Очевидно, что работа с такой информацией значительно усложняет процессы управления, поскольку требует применения специальных методов формализации существующей неопределенности.
Необходимо отметить постоянное увеличение объемов обрабатываемой информации как фактор, влияющий на деятельность субъекта управления. В последние годы эти потоки усиливались в связи со значительным осложнением социально-политической и экономической обстановки.
Таким образом, с точки зрения информационной обеспеченности, управление органами внутренних дел в современных условиях охарактеризуем как управление при неполных, неточных исходных данных, недостаток которых восполняется знаниями экспертов, носящих, как правило, качественный характер.
Важным фактором эффективности процедуры выработки обоснованных управленческих решений является применение современных методов обработки качественной информации, которая, наряду с количественной, используется при формировании управленческого воздействия.
Одним из элементов инструментального обеспечения является построение надежной и достоверной системы обработки информации, которая определяет полноту, точность и своевременность формирования поля информативных признаков логико-семантического преобразования необходимых данных для принятия управленческих решений.
Для обеспечения надежного функционирования системы оперативного управления необходимо и достаточно обеспечить каждую структурную составляющую информацией, представленного функционала своевременной и полной информацией, которая может быть получена построением системы информационного обеспечения на основе логико-лингвистических моделей с развитой структурой базисных отношений предметной области. Такими структурными составляющими логико-семантической модели являются оперативного управления органами внутренних дел. Каждая фасета включает в себя следующие множества:
2. Множество групп условной эквивалентности терминов предметной 3. Множество типичных представителей групп условной эквивалентности, 4. Множество родовидовых отношений дескрипторов предметной области 5. Множество ассоциативных отношений на множестве дескрипторов 6. Множество сочетативных отношений на множестве дескрипторов обеспечения может быть определена как:
Таким логико-семантическим инструментарием является построение единого тезауруса предметной области оперативного управления на основе фасетной классификации, формирование логики отбора релевантных источников информации, их структуризация и на их основе составление прогноза развития оперативных ситуаций для адекватного построения информационного комплекса поддержки принятия решений.
1.2. Методы и средства обеспечения эффективности функционирования системы оперативного управления органами внутренних дел Федеральный закон Российской Федерации от 27 июля 2006г. № 149-ФЗ «Об информации, информационных технологиях и о защите информации» дат содержащейся в базах данных информации и обеспечивающих ее обработку информационных технологий и технических средств».
Автоматизация и создание информационных систем служат основой коренного изменения процессов управления. На базе современных средств коммуникации возникают системы управления, действие которых направлено на поддержание или улучшение работы объекта с помощью устройств управления (средства сбора, обработки, передачи информации и формирования управляющих сигналов или команд).
Автоматизированной информационной системой (АИС) является комплекс, включающий вычислительное и коммуникационное оборудование, программное обеспечение, лингвистические средства, информационные ресурсы, а также персонал, обеспечивающий поддержку динамической информационной модели предметной области для удовлетворения информационных потребностей пользователей.
автоматизированная система, целью которой является помощь лицу, принимающему решение, в решении задач повседневной управленческой деятельности. 1 СППР возникли в результате слияния управленческих информационных систем и систем управления базами данных. С помощью СППР может производиться выбор решений неструктурированных и слабоструктурированных задач, в том числе и многокритериальных.
Близкие к СППР классы систем – это экспертные системы, которые используют знания одного или нескольких экспертов, представленные в некотором формальном виде, а также логику принятия решения человекомэкспертом в трудно- или неформализуемых задачах. Такие системы способны в сложной ситуации (при недостатке времени, информации или опыта) дать квалифицированную консультацию, помогающую ЛПР принять обоснованное решение.
Андрейчиков А.В., Андрейчикова О.Н. Анализ, синтез, планирование решений в экономике. М., 2002. С.9.
Основная идея этих систем состоит в использовании знаний и опыта специалистов высокой квалификации в данной предметной области специалистами менее высокой квалификации той же предметной области при решении возникающих перед ними проблем.
В системе органов внутренних дел, представляющей собой совокупность подразделений, обменивающихся между собой информацией и выполняющих отдельные части общей служебно-боевой деятельности, существует множество способов ее реализации, ни один из которых, как правило, не обходится без оформления документов. Именно документы обеспечивают реализацию управленческих функций, в них определяются планы, фиксируются учетные и отчетные показатели и другая информация, поэтому справедливо утверждение, что от того как налажена работа с документами, во многом зависят оперативность и качество принимаемых решений, эффективность их выполнения и деятельность системы в целом.
Национальным стандартом ГОСТ Р ИСО 15489-1-2007 «Управление документами. Общие требования» документ определяется как «зафиксированная на материальном носителе идентифицируемая информация, созданная, полученная, сохраняемая предприятием или частным лицом в качестве доказательства при подтверждении правовых обязательств или деловой деятельности»1.
Система делопроизводства или система документооборота позволяет создать ресурс информации о деятельности органа внутренних дел, который может поддерживать последующую деятельность, а также обеспечивать подотчетность всем заинтересованным сторонам.
Классический бумажный документооборот, существующий ныне в системе органов внутренних дел, всегда предполагает наличие трудностей при осуществлении таких процедур, как поиск нужного документа; контроль исполнения документа; контроль движения документа на всех этапах его ГОСТ Р ИСО 15489-1-2007 «Управление документами. Общие требования».
М.,2007.
жизненного цикла; получение отчета о работе с документами; согласование документов, и множество других.
Электронные документы участвуют в документообороте органов внутренних дел наравне с бумажными документами. Определение понятия «электронный документ дается в Федеральном законе РФ «Об электронной подписи»: «электронный документ – документ, в котором информация представлена в электронно-цифровой форме»2.
В стандарте РФ «Делопроизводство и архивное дело. Термины и определения» имеется следующее определение: «документ на машинном носителе – документ, созданный с использованием носителей и способов записи, обеспечивающих обработку его информации электронно-вычислительной машиной».
Внедрение системы электронного документооборота позволяет избавиться от недостатков бумажного документооборота и оптимизирует управленческий цикл организации – сокращает сроки принятия решений руководителем, время на согласование документов, в целом повышает оперативность работы.
В системе электронного документооборота образующиеся в ходе служебной деятельности документы классифицируются путем задания атрибутов и ключевых слов, описывающих их содержание. Для ускорения последующего поиска производится полнотекстовое автоматическое, либо ручное индексирование документов.
Документы могут храниться просто в файловой системе, и при этом система каталогов, при имеющейся возможности задавать длинные имена каталогов, папок и документов, служит средством группирования и навигации в хранилище документационном обеспечении управления в системе органов внутренних дел Российской Федерации»: Приказ МВД России от 04 декабря 2006г. №987(в ред. приказов МВД России от 02.04.2007г. №318, от 21.11.2008г. №1006, от 09.12.2008г. №1075, от 26.08.2009г. №655).
Федеральный закон Российской Федерации №63 от 06.04.2011г. «Об электронной подписи»// Российская газета.2011.08 апр.№5451.
ГОСТ Р 51141-98. Делопроизводство и архивное дело. Термины и определения. – М., 1998.
документов. Для логической группировки документов применяются папки. Также имеются соответствующие средства поиска файлов по их параметрам. Многие современные системы электронных документов используют библиотеки документов, содержащие карточки с атрибутами и ключевыми словами документов.
Ряд систем, основанных на электронной почте, хранят документы в почтовых ящиках в виде почтовых сообщений с присоединенными файлами.
Возможность вложения папок личного и коллективного пользования существенно упрощает навигацию в хранилище.
Существуют методы хранения в виде базы документов, допускающие хранение разнотипной информации в виде одного файла. Документы допускают внутреннюю структуризацию на основе создания формуляров, путем выделения и добавления полей в документе. Навигация в базе документов осуществляется постранично и упрощается наличием категорий документов. Почтовые сообщения также хранятся в виде базы документов, имеется возможность присоединения файлов произвольного вида к текстовым документам.
информации представляет собой совокупность гипертекстовых страниц, распределенных по узлам корпоративной сети. Каждая страница представляет собой текст, размеченный с помощью языка HTML, и размещается в отдельном файле. Документ структурируется путем форматирования, выделения полей, гипертекстовых ссылок. Навигация по хранилищу документов осуществляется с контекстный поиск.
Повышение эффективности управления может быть достигнуто путем автоматизации процессов переработки информации и внедрения информационнопоисковых систем (ИПС), которые используются в различных автоматизированных системах организационного управления в качестве основного звена информационно-справочной системы, в качестве хранилищ информации и т.д.
Углубление специализации в деятельности органов внутренних дел, возрастание количества взаимодействующих подразделений предопределяют переход на новые технологии управления, основой которых является единое информационное пространство, формируемое посредством компьютерных и телекоммуникационных технологий.
Комплексные автоматизированные информационные системы, созданные, в первую очередь, для повышения качества и эффективности управления силами и средствами органов внутренних дел, в настоящее время представляют собой набор подсистем, объединенных, как правило, в одном помещении и одной компьютерной сетью, слабо связанных функционально. Данные обстоятельства не дают возможности реализовать все преимущества единого информационного пространства и построить полноценную систему автоматизированного боевого управления, поскольку функционирование таких систем невозможно без разработки лингвистического обеспечения, упорядочения логико-семантических связей лексических понятий предметной области управления, формирования единого тезауруса команд управления.
1.3. Анализ методов и моделей отбора релевантной информации в системах информационного обеспечения управления Трудность ориентации в большом объеме недостаточно упорядоченных информационных материалов, их дублирование, неоднозначность понимания, сопровождающиеся необратимыми потерями времени, материальных и интеллектуальных ресурсов привело к выделению поиска информации в самостоятельный вид деятельности.
Под ИПС в ее абстрактном виде понимается совокупность информационнопоискового языка (ИПЯ) с правилами перевода с естественного языка на искусственный язык и наоборот, и критерия смыслового соответствия между поисковым образом документа (ПОД) и поисковым образом запроса (ПОЗ).
С появлением информационно-поисковых систем возникла проблема эффективного поиска и извлечения информации. Существующие инструменты либо возвращают слишком много документов, из которых лишь малая часть действительно соответствует запросу пользователя (релевантны ему), либо наиболее релевантные из них не обязательно оказываются в начале списка результатов поиска.
Документальный поиск информации в общем виде можно представить в виде выполнения четырех последовательных этапов:
1) Формализация представления документов и запросов;
3) Ранжирование результатов выдачи;
4) Выдача результатов поиска и оценка релевантности пользователем1.
Работу современной поисковой системы с инверсным принципом реализации можно проиллюстрировать схемой, приведенной на рисунке 1.3.
Черный А.И. Введение в теорию информационного поиска. М.,1975. С.11.
Рис.1.3. Схема информационно-поисковой системы с инверсным принципом реализации.
Документу, поступающему на вход информационно-поисковой системы, присваивается уникальный порядковый номер в информационном массиве системы. Средствами информационно-поискового языка ИПС документ индексируется, образуя свой поисковый образ (ПОД). Поисковый образ каждого документа является частью массива ПОД, или индекса ИПС.
Процедура поиска релевантных документов начинается с выражения информационной потребности пользователя в виде запроса. При поступлении запроса в ИПС средствами ИПЯ происходит его индексирование, образуется поисковый образ запроса – ПОЗ. Результатом проведения операции сравнении ПОЗ и массива ПОД является определение номеров релевантных документов, находящихся в информационном массиве ИПС, а затем – их последующая выдача.
Для оценки информационного поиска чаще всего используются два показателя: точность и полнота, или коэффициент точности и коэффициент полноты соответственно. Они определяются для случая, когда информационнопоисковая система возвращает набор документов, соответствующий запросу.
Точность – это доля релевантных документов среди найденных, полнота – доля найденных релевантных документов среди всех релевантных.
Эти понятия можно проиллюстрировать дополнительной таблицей 1.3.1: Таблица 1.3.1. Сопряженность признаков.
Найденные Ненайденные Из приведенной таблицы видно, что Также удобно оценивать правильность поиска S:
В государственном стандарте2 определены критерии эффективности поиска, такие как коэффициент точности – P, коэффициент полноты – R, коэффициент информационного шума – N, коэффициент ложной выдачи – F и коэффициент молчания – S. Существует дополнительная табличная форма представления Маннинг К.Д., Рагхаван П., Шютце Х.М. Введение в информационный поиск.
СПб, Киев, 2011. С.169.
ГОСТ 7.73-96. Система стандартов по информации, библиотечному и издательскому делу. Поиск и распространение информации. Термины и определения. М., 1996.
соответствия пользовательских запросов и выданных документов, которая может быть охарактеризована как матрица сопряженности «релевантность – выдача».
Таблица 1.3.2. Матрица сопряженности «релевантность – выдача».
Тогда коэффициент точности определяется как доля истинно релевантных документов в общем числе всех найденных по запросу документов:
Коэффициент полноты определяется как доля найденных истинно релевантных документов от общего числа всех истинно релевантных документов:
Коэффициент шума – это доля нерелевантных документов в общем числе всех найденных по запросу документов:
Коэффициент ложной выдачи – это доля найденных нерелевантных документов в общем числе всех нерелевантных документов:
Коэффициент молчания – доля ненайденных нерелевантных документов в общем числе всех релевантных документов:
Для оценки эффективности с помощью этих критериев экспертами определенной предметной области создаются специальные наборы документов, для которых определяются запросы и отбираются истинно релевантные этим запросам документы. Для повышения объективности оценки также создаются стандартные текстовые наборы, например для ежегодной конференции TREC (Text Retrieval Conference). Обычно набор TREC содержит несколько сотен тысяч различных документов, среднего размера примерно 350 слов, а также таблицы соответствия запросов и истинно релевантных им документов1.
Информационные потребности могут изменяться от потребителя к потребителю; некоторые потребители требуют высокую полноту, т.е. выдачу почти всех документов, которые представляют интерес, тогда как другие предпочитают высокую точность, т.е. исключение из выдачи всех бесполезных документов. В случае, если важны и полнота и точность, идеальной считается система, обеспечивающая одновременно оба этих требования2.
Традиционно существует два направления совершенствования поисковых систем: разработка новых систем и разработка дополнительных компонентов к имеющимся. Использование поисковых систем в различных предметноориентированных областях позволяет повысить эффективность поиска в целом, но разработка новой системы намного дороже, чем разработка дополнительного компонента. На сегодняшний день в Интернете существует большое количество глобальных поисковых систем, поддерживающих огромные индексы и не ориентированных на какую-либо определенную тематику. Доказано, что существует зависимость между релевантностью результатов поиска и классом терминов, используемых в запросе: чем более общеупотребительные термины используются в запросе, тем релевантность результатов ниже, и наоборот, использование в запросе специальных терминов приводит к более высокой релевантности выдачи. Однако пользователь не всегда может сформулировать запрос в специальных терминах из малознакомой ему области, что негативно сказывается на результате поиска.
Принципиальным отличием поисковых систем дескрипторного типа от классических документальных информационно-поисковых систем является то, что при обработке запроса пользователя не происходит реального доступа к Маннинг К.Д., Рагхаван П., Шютце Х.М. Введение в информационный поиск.
СПб, Киев, 2011. С.168.
Там же, с.165.
данным, связанного с большими временными затратами и невозможностью хранения постоянно обновляемой копии всех ресурсов. Таким примером поисковых систем является Интернет, который содержит свои индексы, достигающие в настоящее время огромных размеров, обновляемые и пополняемые с помощью мощных поисковых роботов. При этом невысокая релевантность результатов автоматизированного поиска является следствием сложностей формализации смыслового содержания документа и запроса и установления соответствия между ними.
Современные средства математического моделирования позволяют различным образом описать процесс документального поиска и оценить его эффективность. Условно модели документального поиска можно разбить на три группы:
1. теоретико-множественные модели, математический аппарат которых основан на использовании теории множеств. К этой группе относятся булевы модели и модели нечетких множеств;
2. вероятностные модели, базирующиеся на теории вероятности;
алгебраических методов. К этой группе относятся векторные, латентносемантические и нейросетевые модели.
Рассмотрим обзорно данные модели.
1.3.1. Булева модель.
Документы представляются набором терминов, которые интерпретируются как булевы переменные. В зависимости от присутствия (отсутствия) термина в документе или запросе соответствующая ему переменная принимает значение Истина (Ложь). Запросы представляются в виде логических выражений, состоящих из булевых переменных, соответствующих терминам и связанных стандартными логическими операциями И, ИЛИ, НЕ.
Соответствие документа запросу определяется вычислением логического выражения запроса для данного документа. Если результатом вычисления является логическая единица (Истина) – документ признается релевантным, если логический ноль (Ложь) – нерелевантным.
возможностью задания сложных выражений, но отсутствием возможности ранжировать результаты.
1.3.2. Модель нечетких множеств.
Документы и запросы представляются аналогично булевой модели, за исключением того, что логические операции переопределены согласно теории нечетких множеств с учетом условия неполной принадлежности элемента множеству. Соответствие документа запросу также определяется вычислением выражения запроса, аналогично булевой модели.
1.3.3. Векторная модель.
В векторной модели документы и запросы представляются в виде векторов терминов. Векторы, составляющие основу векторного пространства ортогональны, термины независимы между собой:
где Nt – общее количество различных терминов во всех документах, dk, k = 1,…,Nt – значение k-го термина в документе d, qk, k = 1,…,Nt – значение k-го термина в запросе q.
присутствует в документе (коэффициент присутствия = 1), нулю – в случае отсутствия. Значения коэффициентов возможно задавать также пропорционально важности данного термина в терминологическом множестве.
пространстве, которое определяется Nt различными терминами, представляемыми как линейно-независимые векторы, исходя из предположения независимости всех терминов.
Соответствие между векторами документа и запроса может быть представлено как скалярное произведение. Также используется рассмотрение косинусной меры сходства (cosine similarity) или коэффициента косинуса, равного отношению скалярного произведения этих векторов к произведению их длин:
Достоинствами данной модели являются простота и возможность динамической корректировки векторов документов и запросов.
1.3.4. Вероятностная модель.
Данная модель позволяет учитывать как зависимости и связи между различными терминами, так и некоторые параметры, например веса терминов.
документы и запросы представляются в виде векторов терминов.
Для установления соответствия документа и запроса вводятся следующие параметры: вероятность релевантности P(rel d) и вероятность нерелевантности P(norel d) документа d и некоторые параметры и, характеризующие потери, связанные с получением нерелевантных документов и неполучением релевантных документов. Для определения релевантности вводится понятие поисковой функции следующего вида:
Значение функции для документа d определяет его релевантность или нерелевантность.
Релевантность документа зависит от свойств релевантности множества терминов, содержащихся в этом документе. Существующие способы выражения вероятности релевантности документа в целом через вероятности релевантности отдельных терминов, например, через нормальное, биномиальное, пуассоновское или экспоненциальное распределения, предполагают наличие информации о вероятности вхождения либо всех отдельных терминов, либо всех пар терминов, либо любых подмножеств терминов. Так как практически получить такую информацию довольно сложно, для вычислений оставляют наиболее важные зависимости терминов, например, предполагают, что каждый термин зависит только от какого-либо одного другого термина, или, наоборот, пренебрегают всеми зависимостями терминов.
Недостатками данной модели являются сложность получения достоверных значений необходимых параметров. Вероятности вхождения терминов в релевантные и нерелевантные документы оцениваются с помощью документов, полученных в результате предыдущих операций поиска, и не всегда имеется возможность оценки необходимых параметров с достаточной точностью.
1.3.5. Латентно-семантическая модель.
Аналогично векторной модели, документы и запросы рассматриваются как векторы терминов. Однако, пространство, где рассматриваются документы, формируется в соответствии с теорией латентно-семантического анализа, с помощью методов которой имеется возможность определять контекстнозависимые значения слов по результатам статистической обработки больших наборов текстовых данных и выявлять схожесть отдельных терминов и групп терминов. Исходными данными при латентно-семантическом анализе служит матрица сопряженности «термины – документы», элементами которой являются величины частот терминов в документах. Данная матрица разлагается на некоторое количество ортогональных матриц, от нескольких десятков до нескольких сотен с использованием методов разложения матрицы по сингулярным значениям. Использование такого разложения позволяет сократить размерность матрицы, сохраняя при этом основную структуру ассоциативных зависимостей терминов в документах и избавиться от шума.
Степень соответствия между документами и запросами также определяется с помощью скалярного произведения соответствующих векторов.
К недостаткам этой модели можно отнести сложность определения оптимальной размерности конечной матрицы. При слишком большой размерности в матрицу могут попасть некоторые случайные и незначимые зависимости, при слишком маленькой – наоборот, реально существующая структура данных может быть отражена неправильно, и конечная матрица не будет содержать важных зависимостей.
1.3.6. Энтропийная модель.
Для описания данной модели используется статистический математический аппарат, разработанный К. Шенноном, позволяющий рассматривать работу поисковой системы по аналогии «черного ящика», где входной документ аналогичен поступающему входному символу, а выходной документ – выходному символу. Таким образом, применив метод аналогии к матрицам сопряженности «релевантность–выдача» и «вход–выход» можно определить, что:
1) входной единичный символ – поданный на вход системы релевантный 2) входной нулевой символ – поданный на вход системы нерелевантный 3) выходной единичный символ – документ, признанный системой Матрица сопряженности может быть представлена таблицей 1.3.3.
Таблица 1.3.3. Матрица сопряженности «вход-выход» канала связи.
a – поданные на вход единичные символы, воспринятые как единичные символы на выходе;
b – поданные на вход нулевые символы, воспринятые на выходе как единичные символы;
c – поданные на вход единичные символы, воспринятые на выходе как нулевые;
d – поданные на вход нулевые символы, воспринятые на выходе как нулевые символы.
сопряженности «релевантность – выдача», при этом существуют следующие вероятности:
1) вероятность релевантности случайно поданного на вход документа;
2) вероятность признания поисковой системой релевантным документа, случайно поданного на вход;
3) вероятность признания поисковой системой релевантным поданного на вход релевантного документа;
4) вероятность признания поисковой системой нерелевантным поданного на вход нерелевантного документа;
5) вероятность релевантности документа, признанного поисковой системой 6) вероятность нерелевантности документа, признанного поисковой системой нерелевантным.
На основе полученных вероятностей определяют различные энтропии, которые могут быть использованы для оценки качества работы поисковой системы.
1.3.7. Корреляционная модель.
Данная модель рассматривает систему информационного поиска как «черный ящик», который на каждый поданный на вход вектор отвечает соответствующим выходным вектором той же размерности, соответствующей количеству документов в наборе. Каждый элемент входного вектора соответствует мере истинной релевантности одного документа набора, а соответствующий элемент выходного вектора соответствует мере релевантности, определенной поисковой системой (т.н. автоматной релевантности). При этом проводится аналогия между мерами истинной и автоматной релевантности, значениями случайных величин релевантности и выдачи.
Данная модель использует допущение, что выражения для вычисления коэффициента линейной корреляции двух случайных величин и вычисления скалярного произведения нормированных и центрированных векторов совпадают, и в качестве степени связности истинной и автоматной реле вантности используется коэффициент линейной корреляции, который может быть вычислен по формуле скалярного произведения соответствующих векторов в выбранной метрике семантического преобразования.
Теоретико-множественные модели получили распространение из-за простоты реализации, в отличие от вероятностных моделей, которые описывают процедуру документального поиска наиболее естественным способом. Но наибольшее распространение получили алгебраические модели, потому что эффективность их работы оказывается на практике намного выше остальных.
В данном исследовании рассмотрена модель документального поиска, основанная на применении теории множеств. Основным обстоятельством, обусловливающим представление информационно-поисковых систем в форме теоретико-множественных моделей, является тот факт, что в процессе документального поиска операции осуществляются над множествами элементов:
множествами ключевых слов или дескрипторов с одной стороны, и множествами документов с другой. Существующие отношения между множествами документов и их поисковыми описаниями служат основой построения теории информационного поиска.
1.4. Методы формирования словаря предметной области (тезауруса) на основе логико-лингвистического моделирования Процесс перевода текста документа с естественного на искусственный язык, предназначенный для формализации представления смыслового содержания текста документа с целью последующего хранения и поиска, является процессом индексирования.
Существует множество различных методов индексирования. В основу многочисленных классификаций положены алгоритмы индексирования;
статистические параметры текстов; разнообразные синтаксические, семантические критерии и ряд других факторов. Процесс индексирования может быть ручным (индексированием занимаются специалисты-индексаторы) и автоматическим (ИПС сама формирует индекс). Алгоритмы индексирования подробно описаны во многих работах1.
В процессе индексирования в тексте документа выделяют термины, которые обычно выражены словами или словосочетаниями, приведенными к канонической форме, при этом все термины принято делить на функциональные (союзы, предлоги и т.п.) и нефункциональные, имеющие отношение к смыслу документа.
Функциональные термины не представляют интереса для индексирования, они заносятся в списки исключений и удаляются. Оставшиеся нефункциональные термины также обладают недостатками. Существуют термины, значение которых или слишком обще, или слишком специфично. Между словами могут существовать отношения, которые не явно содержатся в тексте, но могут быть выведены из контекста или из других, ранее проанализированных текстов.
Значения многих слов могут изменяться со временем или могут быть созданы новые слова, обозначающие сущность, ранее обозначавшуюся другими терминами. Для выражения одного или нескольких близких значений могут Белоногов Г.Г., Кузнецов Б.А. Языковые средства автоматизированных информационных систем. М., 1983. С.12.
Карасев С.А. Методы автоматического индексирования и их классификация Научно-техническая информация, сер.2, 1970, №4. С.29.
Методика индексирования документов в АИСОН (Дескриптор, поисковый образ документа): сборник статей – М., 1989.
Совер Н.Б. Анализ автоматизированных информационно-поисковых систем:
автоматизация аналитико-синтаксической обработки текстов, стратегия поиска:
обзор. Рига, 1975. С.24.
Рыбаков Ф.И., Руднев Е.А., Петухов В.А. Автоматическое индексирование на естественном языке. М., 1980. С.16-17.
использоваться многие слова (синонимия). Также существует проблема омонимии и полисемии. Такие термины на следующем этапе индексирования заменяются на более подходящие, что увеличивает однозначность смысловых понятий и полноту индексирования.
Для определения классов терминов существуют различные методы, среди которых статистические, вероятностные и лингвистические.
Статистические методы для выделения классов терминов используют статистическую информацию о вхождении терминов в документ. Например, если использовать двумерный массив, каждая строка которого соответствует документу, а столбец – термину, то каждая ячейка данной матрицы будет соответствовать величине, характеризующей ценность этого термина в данном документе, например единица, если термин присутствует в документе, и ноль – если отсутствует. При анализе столбцов матрицы определяются термины со схожими распределениями в документах и объединяются в классы вероятности вхождения комбинаций терминов в подмножества релевантных и нерелевантных документов и выделения зависимостей терминов. Модель зависимости терминов обычно представляет собой граф, в вершинах которого находятся термины, а ребра графа характеризуют зависимость между терминами.
принадлежности к тому или иному синтаксическому классу, чтобы выделить словосочетания, которые могут быть полезны для индексирования.
Для замены специфических терминов практикуется использование тезаурусов. Тезаурус объединяет группы связанных специфических терминов в классы, после чего такие термины могут быть заменены специальным идентификатором этого класса. Общие термины можно заменить сочетаниями терминов или группами связанных терминов, так называемыми «группами условной эквивалентности», типичными представителями которых будут являться множество дескрипторов. Такие множества строго детерминированы и лишены признаков синонимии и полисемии, так как имеют более определенные значения для установления однозначности смысловых понятий. При формировании словарей поисковых терминов предметных областей дополнительно могут вводиться базисные отношения в виде родовидовых отношений, отношений ассоциации и сочетания.
Завершением индексирования является присвоение простым терминам, сочетаниям терминов и тезаурусным классам весов, определяющих их важность в документе и используемых в дальнейшем при ранжировании документов выдачи.
Важную роль играют посещаемость, авторитетность источника, частота обновления, цитируемость страницы и др. Большое значение в функционировании ИПС имеет лингвистическое обеспечение. Именно лингвистическое обеспечение отвечает за такие процессы, как индексирование документов и запросов, эффективный поиск в базах данных по тематическим запросам и межсистемное информационное взаимодействие.
Лингвистическое обеспечение в автоматизированных информационных системах позволяет наиболее эффективным образом реализовывать функции поиска и отбора релевантных источников информации.
В классической лингвистике язык понимается как основное средство отображения и передачи информации об окружающем мире.
Существуют следующие подходы к исследованию языка:
1. Традиционные, ограничивающиеся изучением обыденного языка;
2.Семиотические, рассматривающие язык как знаковую (семиотическую) систему;
3.Экстралингвистические, которые анализируют нестандартные естественные и искусственные языки.
Естественный язык (ЕЯ), формируемый путем постоянного обогащения в процессе жизнедеятельности его носителей, характеризуется таким явлением, как полисемия (многозначность). Как правило, существует объективная трудность или невозможность его полной формализации.
Маннинг К.Д., Рагхаван П., Шютце Х.М. Введение в информационный поиск.
СПб, Киев, 2011. С.166.
В противоположность ЕЯ, искусственный язык (ИЯ) создается путем формализации с использованием определяемых аксиом и правил построения.
Символы ИЯ могут не иметь первоначального смысла, а определяться посредством методов интерпретации формальных систем, из чего следует, что каждому предложению естественного языка могут быть определены одна или несколько интерпретаций в языке искусственном.
Таким образом, при создании ИЯ особое внимание уделяется вопросам семантики, т.е. значению и смыслу языковых выражений и прагматики, отвечающей за однозначность использования и толкования знаковых конструкций языка. Изучение смысла подразумевает, прежде всего, перевод предложений ЕЯ в соответствующие формальные структуры и, далее, рассмотрение логических правил, по которым они выстроены, так как язык можно интерпретировать как множество правил и схем конструирования лингвистических единиц, включая способы осмысливания и толкования языковых конструкций.
Согласно, существуют три основные, так называемые, «языковые»
функции логики:
а) логика как язык представления знаний и формализации рассуждений;
б) логика как язык программирования;
в) логика как инструмент исследования языка.
Последняя функция включает синтаксический и семантический анализ лингвистических моделей, определение правил преобразования зафиксированной в них информации.
Использование логических средств в процессе формализации языка позволяет приводить языковые конструкции к понятиям логического суждения и рассуждения, которые считаются адекватными естественным. Формальные рассуждения строятся с помощью правил, не зависимых от предметной области, что делает процесс рассуждений понятным и проверяемым. Кроме того, результаты формальных рассуждений могут быть переведены в определенное Поспелов Д.А. Логико-лингвистическое моделирование в системах управления:
М., 1981. С.30-31.
математическое исчисление. В свою очередь, логические суждения представляют собой такие конструкции языка, о которых можно судить: истинны они или нет.
Применение логико-лингвистических моделей и экстралингвистического метода в представленном диссертационном исследовании обоснованы тем, что поведение объекта - системы оперативного управления органами внутренних дел, выражается в терминах ограниченного естественного языка и может быть представлено с помощью лингвистических переменных (ЛП).
Лингвистические средства являются интерфейсом между естественным языком и формальными поисковыми механизмами ИПС. Лингвистическое обеспечение включает в себя:
языки представления данных в ИПС, которые определяют архитектуру, синтаксис и семантику представлении информации в базах данных ИПС;
информационно-поисковый язык (ИПЯ), то есть язык, на котором обращается пользователь к системе, чтобы получить интересующий его отклик.
Информационно-поисковый язык – это формализованная семантическая система, предназначенная для выражения смыслового содержания документов и информационных запросов с целью отыскания в массиве таких документов, которые отвечают на поставленный информационный запрос. Он является абстрактным языком и состоит из «списка элементарных символов (знаков), правил образования (устанавливающих, какие комбинации знаков допускаются), правил преобразования (устанавливающих, какие допускаются преобразования выражений с целью получения логического вывода) и правил интерпретации (устанавливающих, какой смысл надлежит приписывать выражениям, составленным по правилам образования)»1.
Для целей информационного поиска используются три типа ИПЯ:
классификационный, словарного типа, дескрипторного типа. В настоящее время дескрипторные языки получили наибольшее распространение.
Романова Е.В. Разработка системы информационно-лингвистического обеспечения электронной коммерции: Дис. …канд.экон.наук. М: 2006. С.25.
Дескрипторные ИПЯ реализуют идею координатного или ассоциативного индексирования. Смысловое содержание документа можно достаточно полно выразить некоторым списком так называемых ключевых слов, в качестве которых выступают слова, явно или в скрытом виде содержащиеся в индексируемом тексте. Существенной проблемой при этом является однозначность понимания ключевых слов. ИПС считается эффективной в том случае, если обеспечено единообразное индексирование одинаковых по содержанию информационных запросов и документов. Особенно это касается координатного индексирования с Единообразным координатное индексирование будет лишь в том случае, если установлен определенный контроль употребления слов и словосочетаний естественного языка, выступающих в качестве ключевых для устранения явлений синонимии, омонимии и полисемии1.
называемое «глубокое индексирование», при котором проводится анализ индексируемого документа специалистом данной конкретной предметной области, способным выделить наиболее важные, редко встречающиеся ключевые слова. Таким образом, глубина координатного индексирования определяется не количеством ключевых слов, включенных в поисковый образ документа (ПОД), а зависит от наличия в нем специфических ключевых слов. Основными проблемами координатного индексирования являются: ложная координация, неполная координация, синонимия, полисемия, омонимия, неоднозначность родовидовых связей между ключевыми словами, ложные информационному запросу.
Там же, с.12.
Там же, с.13.
На рисунке 1.4 представлены отношения синонимов, омонимов и полисемантических слов обозначаемым ими предметам или выражаемым ими понятиям.
Рис.1.4. Семантические отношения синонимии, омонимии, полисемии.
Большое внимание в современных полнотекстовых ИПС уделяется морфологическому анализу, т.е. автоматическим средствам обработки отдельных слов, как в текстах исходных документов, так и в запросах пользователей. При построении базы данных из массива документов формируется индекс из всех слов, входящих в эти документы, иногда за исключением так называемой «незначащей лексики» - предлогов, артиклей, частиц и т.д., представляющий собой стоп-словарь системы. Построенный словарный индекс системы во многих ИПС лемматизируется, т.е. все слова приводятся к каноническим формам, например, существительные – к именительному падежу, глаголы – к инфинитивной форме и т.д. Запросы пользователей также проходят лемматизацию.
информационную систему, должна включать методы последовательной нормализации естественного языка, связанных с построением словарей определенного типа, к которым относятся:
словарь отрицаний, содержащий термины, использование которых запрещено для целей анализа содержания;
тезаурус или словарь синонимов, который для каждого входа (статьи) словаря определяет одну или больше синонимичных категорий или классов понятий;
словарь словосочетаний, используемых для определения наиболее часто встречающихся комбинаций слов;
иерархическая (древоподобная) организация терминов или понятий, подобная стандартной схеме библиотечной классификации, позволяющая найти для определенного термина как более широкие, так и более узкие понятия, двигаясь вверх или вниз по данной структуре.
Иной способ индексирования документов в информационно-поисковых системах обеспечивается при использовании специальных словарейсправочников, называемых тезаурусами или информационно-поисковыми тезаурусами (ИПТ). Термин «тезаурус» (от греческого «thesaurus» – сокровищница, запас, клад) в широком смысле используется для обозначения книги, содержащей собрание наименований понятий из определенных областей знаний.
Тезаурус используется как при вводе документов в информационнопоисковую систему, так и при формировании предписаний на поиск документов.
Но прежде всего, тезаурус используется как средство контроля единообразного употребления слов и словосочетаний естественного языка, используемых для координатного индексирования документов и информационных запросов, поскольку является нормативным словарем ключевых слов по определенной тематике.