Труды ИСА РАН 2005. Т. 12
Формализация экспертных знаний
по токсикологии
1
С. В. Полуднев
Рассматриваются вопросы, связанные с выявлением и формализацией экспертных знаний, при построении экспертной системы для диагностики острых отравлений химическими веществами.
Введение
Предметная область оказывает влияние на выбор подходов и методов, с помощью которых планируется извлечение экспертных знаний.
Например тем, насколько предметная область уже структурирована и какие базы знаний и предметные онтологии в ней существуют. В настоящий момент в токсикологии нет экспертных систем, имеющих достаточно широкую область применения. Разработанная экспертная система «ЭСТЕР» работает только с лекарственными отравлениями у детей.
[Ларичев и др., 2002].
Для осуществления информационно-консультативной помощи врачам токсикологам специалистами Научно-практического токсикологического центра (НПТЦ) Росздрава создается первый отечественный программный комплекс «Автоматизированное рабочее место врача токсиколога». [Остапенко и др., 2003] В рамках этого комплекса совместно с Институтом системного анализа РАН разрабатывается экспертная система для диагностики острых отравлений химическими веществами. Экспертная система должна охватить значительную предметную область, и потому структуризация этой предметной области уже на начальном этапе работы является особенно важной для сокращения времени построения системы.
Работа выполнена при поддержке программ фундаментальных исследований РАН «Математическое моделирование и интеллектуальные системы» и ОИТВС РАН «Фундаментальные основы информационных технологий и систем», РФФИ (проекты 04-01-00290, 05-01-00666), гранта Президента Российской Федерации НШ 1964.2003.1 для поддержки ведущих научных школ.
117312, Москва, проспект 60-летия Октября, 9, ИСА РАН, [email protected].
Формализация экспертных знаний по токсикологии 1. Выявление экспертных знаний Задача построения экспертной системы разбивается на два этапа: первый — выявление и формализация знаний врача, второй — создание экспертного модуля для работы с конечным пользователем. Задача выявления знаний врача ставится как задача классификации [Ларичев и др., 1989].
Предметная область задается перечнем диагнозов (групп отравляющих веществ), которым ставятся в соответствие возможные объекты (пациенты).
Таким образом, объекты могут быть разделены классы в соответствии с их диагнозами. Эксперт ставит диагноз тому или иному объекту, исходя из его характеристик (значений симптомов). А значит, используя соответствующий подход к выявлению знаний, можно классифицировать все гипотетически возможные объекты данной проблемной области.
Для решения подобной задачи медицинской диагностики за основу было взят метод StepClass [Фуремс, Гнеденко, 1996]. Метод позволяет работать с качественными признаками, на которые не накладываются никакие дополнительные требования (независимость, характерность и т. п.).
Существенно, что StepClass позволяет менять базовую структуру задачи в процессе работы. Если при анализе какого-то объекта эксперту потребуется значение признака, признак или класс который не был назван им на этапе предварительной структуризации задачи, то он может быть добавлен, а ранее выявленные знания будут включены в новую структуру.
Дадим формальную постановку задачи классификации. Базовая структура задачи имеет вид S = {P,Q,V}, где P = {P1, P2,... PL} — список названий классов;
Q = {Q1, Q2,... QM} — список названий признаков;
Qm = {qm1,qm2,...qmnm} — качественная шкала значений m-го признака;
V = {vlmj} — матрица допустимости значений признаков для классов из P, где vlmj = 1, если значение qmj признака Qm допустимо для класса Pl, и 0 — в противном случае; l = 1,.., L; j = 1,..., nm; m = 1,..., M.
На основе этой информации моделируются описания пациентов.
Множество таких описаний — это декартово произведение шкал признаков A = Q1 Q2... QM, а конкретный объект ai задается вектором (q1j1, q2j2,…, qMjM), где qmjm — jm-е значение признака Qm, m = 1,..., M.
На этапе классификации, ставится задача выявления полной и непротиворечивой совокупности решающих правил. Под полнотой понимается следующее: для каждого объекта ai из текущего множества A (соответствующего выявленной на данный момент структуре S) должно быть опреС. В. Полуднев делено хотя бы одно классифицирующее его правило. Полнота определяется с точностью до знаний эксперта. Для каждого объекта на этапе классификации может существовать любое число правил, однако все эти правила должны относить его к одному и тому же классу. Последнее условие и означает непротиворечивость совокупности решающих правил.
2. Формализация предметной области Чтобы начать этап классификации, необходимо явно (хотя бы предварительно) задать предметную область. Однако задача формализации предметной области не относится к числу задач, которые врач решает в своей повседневной практике. Ставя диагноз, врач знает, на какие симптомы следует обратить внимание в первую очередь. И в зависимости от конкретных значений этих «первичных» симптомов анализ может пойти по разным направлениям с выяснением разных симптомов. Для того, чтобы вспомнить такие «вторичные» симптомы, эксперт должен представить себе всевозможные комбинации значений «первичных» симптомов. Это сложно, практически невозможно, и значит, в таком случае, врач-эксперт не сможет обеспечить полноту структуры проблемной области.
Поэтому, обычно, при решении подобных задач методом StepClass формализация предметной области проводилась итерационным способом. Эксперт формировал предварительную структуру (называл существенные, по его мнению, симптомы, значения симптомов и классы), начинал решать задачу классификации и, при необходимости, последовательно расширял базовую структуру задачи, до тех пор, пока не охватывалась вся предметная область.
В данном случае (диагностика отравлений острой химической этиологии) сложилась достаточно уникальная ситуация. Уже изначально имелась определенная структуризация предметной области, принятая в консультативной информационно-поисковой токсикологической системе (КИПТС) «Poison 3.0», разработанной в НПТЦ. Это позволило, опираясь на данную систему, максимально полно задать базовую структуру задачи уже на этапе предварительной структуризации.
3. Структуризация симптомов Справочная система «Poison 3.0» построена на основе монографий и фактически охватывает все, даже нетипичные проявления отравления тем или иным отравляющим веществом. Для каждого отравляющего вещества в системе приведен список ключевых слов — унифицированных наименований симптомов, встречающихся при отравлении данным веществом.
Всего таких слов оказалось более 550.
Формализация экспертных знаний по токсикологии Ключевые слова, по сути, можно считать бинарными симптомами, которые при описании пациента принимают одно из двух значений: «симптом наблюдается» или «симптом не наблюдается». Но при прямом переносе терминологии получилась бы задача очень большой размерности, содержащая значительное количество малоинформативных и редко встречающихся признаков.
Было необходимо модифицировать набор симптомов и их значений, исключив лишнее. Модификация шла по нескольким направлениям.
1. Независимость симптомов Как уже упоминалось выше, Stepclass не требует обязательной независимости симптомов. Однако их независимость желательна, поскольку позволяет существенно уменьшить время работы с экспертом.
2. Унификация Построение КИПТС «Poison 3.0» велось несколькими коллективами разработчиков в течение многих лет. Поэтому в системе среди ключевых слов встречаются «явные» и «неявные» синонимы. «Явные синонимы» — это последствия отсутствия единой общепринятой терминологии среди врачей-токсикологов. В результате в разных источниках (монографиях, историях болезней и т. п.) использовались разные слова для обозначения одних и тех же значений симптомов. По возможности разработчики информационно-поисковой системы старались унифицировать ключевые слова, но некоторое количество синонимов все же осталось. При построении базы знаний «явные синонимы» увеличивают размерность задачи, а значит, они должны быть исключены. Тем более, что подобная работа оказывается достаточно простой.
С «неявными синонимами» ситуация оказывается сложнее: фактически они описывают разные значения симптомов, и квалифицированный врач никогда не спутает их между собой. Но для диагностики отравлений и даже для дифференциальной диагностики отравления, по словам эксперта, оказывается не важно, что именно из «неявных синонимов» наблюдается у пациента. Поэтому на этапе структуризации задачи и на этапе работы с экспертом оказывается разумным выбрать какой-то один из «неявных синонимов» или заменить набор «неявных синонимов» новым словом, обозначающим данное отклонение. После построения базы знаний, на этапе создания экспертного модуля для работы с конечным пользователем, при необходимости возможна обратное преобразование: замена одного значения симптома всеми возможными «неявными синонимами».
Структуризация симптомов проходила в несколько этапов. На первом этапе эксперт разбил все ключевые слова на 15 групп — в основном, по системам организма (дыхательная система, желудочно-кишечный тракт, сердечно-сосуС. В. Полуднев дистая система и т. д.). В каждую группу попали не более сотни бинарных симптомов. На втором этапе структуризации эксперт работал отдельно с каждой группой и выделял подгруппы, состоящие в среднем из 10 ключевых слов.
Фактически, это было разделение на «жалобы», «данные внешнего осмотра»
(несколько подгрупп), «анализы». Третьим этапом был переход от бинарных ключевых слов к симптомам, которые могли принимать произвольное количество значений. На нем в каждой подгруппе выделись ключевые слова обозначающие разные проявления одного и того же симптома. Сгруппированные ключевые слова становились значениями симптомов, а вся группа получала новое название симптома. Именно на этом этапе, экспертом выделялись, ранее незаметные синонимы, а также малозначимые ключевые слова. На этом же этапе утверждалась терминология — наименования симптомов и наименование нормальных показателей функционирования организма. Основная сложность возникла в терминах для нормы. Дело в том, что в повседневной практике врачи в основном обращают внимание, а значит, и фиксируют в истории болезни именно отклонения.
Приведем пример построения симптома. Из ключевых слов, содержащихся в системе «Poison 3.0» и относящихся к частоте дыхания (апноэ, брадипноэ, гиперпноэ, диспноэ, дыхание Чейн-Стокса, остановка дыхания, угнетение дыхания) были исключены «явные» (апноэ и остановка дыхания) и «неявные» синонимы (остановка дыхания, угнетение дыхания, диспноэ). В итоге для экспертной системы из этих ключевых слов были выделены два симптома, принимающие следующие значения:
Частота дыхания:
1. Апноэ.
2. Брадипноэ.
3. Гиперпноэ.
4. Частота дыхания в пределах нормы.
Дыхание Чейн-Стокса:
1. Дыхание Чейн-Стокса.
2. Дыхание Чейн-Стокса не наблюдается.
Всего было отобрано около сотни симптомов, каждый из которых может принимать одно из нескольких (от 2 до 14) значений. Обычно три.
Стоит отметить, что решения о выборе того или иного симптома или значения симптома на этапе структуризации не принимались экспертом единолично, а верифицировались консилиумом авторитетных врачей-токсикологов.
Подобная верификация была бы затруднена, если бы модификация базовой структуры постоянно происходила в процессе классификации.
Формализация экспертных знаний по токсикологии Наличие информации о симптомах в КИПТС «Poison 3.0» позволяет также автоматизировать работу по заполнению матрицы допустимости значений признаков для классов. При этом для симптомов, отсутствующих в системе «Poison 3.0», изначально считается, что они допустимы для всех классов решений.
4. Структуризация диагнозов В качестве диагнозов в КИПТС «Poison 3.0» выступают более 3 тыс.
отравляющих веществ, сгруппированных в соответствии с Международной классификацией ВОЗ болезней и проблем, связанных со здоровьем, 10-го пересмотра (МКБ-10). При этом в одну группу попадают отравляющие вещества, обладающие сходным воздействием на организм. Более того без знания анамнеза или специальных анализов, зачастую невозможно точно определить отравляющее вещество. Но это часто и не нужно, поскольку методики лечения оказываются одинаковыми.
Поэтому на этапе формализации предметной области было отобрано 128 групп отравляющих веществ (покрывающих всю область) с характерными представителями. Кроме того, были добавлены варианты «это не отравление» и «такого набора симптомов быть не может». Именно эти групп и будут являться классами при решении задачи классификации.
5. Работа программы по выявлению экспертных Процесс построения базы знания и выявления правил для классификации объекта идет стандартным для методов StepClass образом — посредством имитации процесса принятия решения экспертом. Работа с программой имитирует консультации по телефону, которые эксперт обычно оказывает в своей профессиональной деятельности.
Компьютерная программа «знает» всю информацию о некотором виртуальном пациенте (его описание в виде совокупности значений симптомов), но сообщает ее эксперту только по его запросу. Сначала эксперту предъявляется значение одного из симптомов, выбираемого случайным образом. Скорее всего, этой информации эксперту будет недостаточно для принятия решения, и он назовет системе симптом, значение которого он хочет узнать, и так до тех пор, пока он не сможет отнести объект к классу из множества P (поставить диагноз). В случае если эксперт обнаружит, что в предъявленной ему информации имеются взаимоисключающие значения признаков, его попросят уточнить какие именно. Классифицировав объект, эксперт тем самым сформирует правило, левая часть которого будет включать конкретные значения некоторых (или всех) симптомов, входящих в описание предъявленного ему объекта, а левая часть — соответствующий класс.
Когда в базе знаний будет существовать хотя бы одно правило, то при поиске очередного неклассифицированного объекта компьютерная программа сначала проверит выполнимость для него одного из правил (для этого в описании объекта все признаки, включенные в левую часть правила, должны иметь те же самые значения, что и в левой части правила). И только, если для данного объекта не существует ни одного классифицирующего его правила, компьютерная программа будет выявлять для него правила описанным выше образом. При этом, в процессе выявления знаний полученная информация проверяется на непротиворечивость. Если обнаруживается, что данное правило противоречит какому-то из ранее полученных, то оба эти правила предъявляются эксперту для анализа и исправления [Фуремс, Гнеденко, 1996].
Однако, кроме проверки на непротиворечивость и согласованность знаний эксперта, имеется возможность провести непосредственную верификацию с помощью КИПТС «Poison 3.0». Справочная система «знает»
заведомо больше человека, и в случае возникновения противоречия между информацией, полученной от эксперта, и информации, содержащейся в системе «Poison 3.0», скорее всего, потребуется привлечение консилиума врачей для постановки итогового диагноза.
Процесс выявления экспертных знаний завершается, когда система обнаруживает, что совокупность решающих правил полна и непротиворечива. Полученная база знаний по токсикологии будет использована при создании экспертного модуля для диагностики отравлений.
Для решения задачи формализации предметной области без ее предварительной декомпозиции классическая реализация метода StepClass под DOS была технически переработана под Windows XP.
Литература 1. Ларичев О. И., Асанов А. А., Нарыжный Е. В., Страхов С. И. Экспертная лечебно-диагностическая система при острых лекарственных отравлениях у детей // Проблемы окружающей среды и природных ресурсов. 2002. № 12.
2. Ларичев О. И., Мечитов А. И., Мошкович Е. М., Фуремс Е. М. Выявление экспертных знаний. М.: Наука, 1989.
3. Остапенко Ю. Н., Литвинов Н. Н., Гасимова З. М., Какорина Е. П., Михайлова Л. А. Информатизация клинической токсикологии: 10 лет спустя // Токсикологический вестник. 2003. № 1.
4. Фуремс Е. М., Гнеденко Л. С. STEPCLASS — система извлечения экспертных знаний и проведение экспертизы для решения диагностических задач // Информационные процессы и системы. Сер. 2. 1996. № 9.