На правах рукописи
Бабков Александр Сергеевич
ИНТЕЛЛЕКТУАЛЬНАЯ СИСТЕМА ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ
СКРИНИНГ-ДИАГНОСТИКИ РАКА ЖЕЛУДКА НА ОСНОВЕ
КОМБИНИРОВАННЫХ КЛАССИФИКАЦИОННЫХ ПРАВИЛ
Специальность 05.11.17 - Приборы, системы и изделия медицинского назначения
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
Курск 2014
Работа выполнена в ФГБОУ ВПО «Юго-Западный государственный университет» на кафедре биомедицинской инженерии
Научный руководитель: доктор технических наук, профессор, Серебровский Вадим Владимирович
Официальные оппоненты: Егошина Ирина Лазаревна доктор технических наук, доцент, Поволжский государственный технологический университет, профессор кафедры радиотехнических и медико-биологических систем Руденко Вероника Викторовна кандидат технических наук, доцент, «Курская государственная сельскохозяйственная академия имени И.И. Иванова», доцент кафедры информатики и электроэнергетики
Ведущая организация: ФГБОУ ВПО «Воронежский государственный технический университет» (г. Воронеж)
Защита диссертации состоится «30» сентября 2014 года в 16.00 часов на заседании диссертационного совета Д 212.105.08 при ФГБОУ ВПО «Юго-Западный государственный университет» по адресу: 305040, г. Курск, ул. 50 лет Октября, (конференц-зал).
С диссертацией можно ознакомиться в библиотеке Юго-Западного государственного университета и на сайте www.swsu.ru.
Автореферат разослан « » 2014 г.
Ученый секретарь диссертационного совета Д 212.105.08 Снопков В.Н.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность работы. Актуальность диссертационного исследования обусловлена тем, что своевременная диагностика онкологических заболеваний позволяет существенным образом снизить смертность, улучшить качество терапевтических и хирургических последствий, снизить экономические затраты на лечение и последующую реабилитацию больных. В процессе скрининга рака желудка обязательным является осуществление анализа крови и расчета значений соответствующих онкомаркеров. Так как состав крови отражает происходящие в организме изменения при развитии патологических процессов, то анализ происходящих изменений состава крови позволяет повысить качество скрининг- диагностики. Достаточно оперативное осуществление системного анализа происходящих структурных изменений врачом затруднительно в силу необходимости обработки большого количества информации в условиях ее нечеткой определенности. В соответствии с этим возникает потребность в разработке интеллектуальной системы поддержки принятия решений (СППР) для скрининг-диагностики на основе современных компьютерных технологий, позволяющей осуществлять раннее выявление рака желудка и/или формировать в процессе скрининга рекомендации о необходимости продолжения обследования пациента в специализированных центрах или клиниках.
Степень разработанности темы исследования. В силу различных объективных и субъективных причин, ухудшения экологической обстановки и роста психологического напряжения людей наблюдается тенденция к ухудшению популяционных свойств здоровья населения. Возникает необходимость в массовом качественном медицинском обследовании людей с применением скрининговых систем, стандартизации методов и автоматизированных технологий, которые позволяют проектировать качественные интеллектуальные системы поддержки принятия решений для выявления определенных классов заболеваний. В Российской Федерации, начиная с 1990 года, ведутся разработки в области скрининг, а здоровья детей и подростков (системы ВИТА-90, АКДО, АСПОН, КМАДО, АСДОК, САНУС, КАСМОН и др.). Аналогичные системы существуют в США (фирмы «ControlDateCorp», «GETZCORP») и других странах. Базовая автоматизированная система скрининг-диагностики включает в себя подсистемы регистрации пациента автоинтервьюирования, проверки работы различных физиологических и сенсорных систем организма, анализа ЭКГ и артериального давления, результаты лабораторных анализов различных биологических проб. К настоящему времени разработаны и эксплуатируются системы скрининга различных групп заболеваний. Скрининг заболеваний осуществляется по: раку яичников, шейки матки, молочной железы, предстательной железы, легких, прямой кишки, мочевого пузыря, полости рта, кожи, поджелудочной железы. В настоящее время скрининг рака желудка осуществляется в основном методами фото-флюорографии с двойным контрастированием и гастроскопией в специализированных центрах или клиниках. С этой целью применяются онкомаркеры типа РЭА, СА242, СА72.4, СА19.9 с диагностической эффективностью порядка 60-65%. Автоматизированных скрининговых диагностических систем рака желудка в условиях массовой диспансеризации населения не разработано, что снижает диагностическую эффективность на ранней стадии развития заболевания и приводит к росту летальности.
Таким образом, научно-технической задачей исследования является повышение диагностической эффективности скрининговых систем рака желудка на основе результатов общего анализа крови и информации об образе жизни, жалобах и состоянии здоровья обследуемого путем применения современных информационных и компьютерных интеллектуальных технологий.
Работа выполнена в соответствии с федеральной целевой программой «Предупреждение и борьба с социально значимыми заболеваниями» и с научными направлением ФГБОУ ВПО «Юго-Западный государственный университет» «Медико-экологические информационные технологии».
Объект исследования. Пациенты, у которых предполагается наличие онкологических заболеваний желудка.
Предмет исследования. Методы, математические модели и интеллектуальная система поддержки принятия решений о необходимости клинического обследования пациента в процессе скрининг-диагностики рака желудка.
Цель работы: Разработка интеллектуальной системы поддержки принятия решений скрининг-диагностики рака желудка, позволяющей по результатам общего анализа крови и анамнеза определять людей с риском наличия исследуемого заболевания с использованием комбинированных классификационных правил принятия решений.
Для достижения поставленной цели необходимо решить следующие задачи:
- разработать информационно-аналитическую модель скрининг-диагностики рака желудка;
- разработать метод оценки классификационных возможностей структур медицинских данных для синтеза решающих диагностических правил;
- разработать метод синтеза нечетких математических моделей скринингдиагностики рака желудка на основе информации о структуре связей между показателями крови и анамнеза пациента;
- сформировать пространство информативных признаков для построения автоматизированной системы интеллектуальной системы поддержки принятия решений скрининг-диагностики рака желудка;
- на репрезентативной обучающей выборке синтезировать диагностические решающие правила для интеллектуальной системы поддержки принятия решений скрининг-диагностики рака желудка;
- разработать алгоритм и программное обеспечение интеллектуальной системы скрининг-диагностики рака желудка на основе анализа изменений в структуре связей между регистрируемыми показателями крови пациента;
- провести верификацию полученных диагностических правил соотнесения обследуемого к группе риска болеющих раком желудка на репрезентативной контрольной выборке.
Научная новизна исследований. В диссертации получены следующие результаты, характеризующиеся научной новизной:
- информационно-аналитическая модель для интеллектуальной системы поддержки принятия решений скрининг-диагностики рака желудка, позволяющая с приемлемым для медицинской практики качеством по результатам анализа крови и общей информации о состоянии пациента, содержащейся в анамнезе, принимать решения о необходимости дальнейшего клинического обследования;
- метод оценки классификационных возможностей структур медицинских данных, основанный на вычислении мер доверия к выборкам и признаковому пространству, позволяющий повысить качество работы решающих правил в условиях скрининга;
- метод синтеза нечетких математических моделей скрининг-диагностики рака желудка, отличающийся применением в качестве классификаторов решающих правил, основанных на использовании мер близости между регистрируемыми и расчетными значениями показателей крови, что позволяет с системной точки зрения анализировать происходящие в процессе развития заболевания структурные изменения в организме на ранней стадии;
- диагностические решающие правила для интеллектуальной системы скрининг-диагностики рака желудка, отличающиеся применением оценок риска наличия заболевания по показателям, характеризующим образ жизни, текущее состояние пациента, перенесенные заболевания и результаты общего анализа крови как совместно, так и по отдельности;
- алгоритм, структура и программное обеспечение интеллектуальной системы скрининг-диагностики рака желудка на основе анализа изменений в структуре связей между регистрируемыми показателями крови пациента, отличающиеся использованием синтезированных методом группового учета аргументов математических моделей, отражающих различные взаимосвязи между регистрируемыми показателями у больных и не больных раком желудка людей и позволяющие формировать рекомендации по ведению пациентов с начальными стадиями исследуемого заболевания.
Теоретическая и практическая значимость работы состоит в том, что для повышения качества медицинского обслуживания в области профилактики рака желудка разработаны:
- информационно-аналитическая модель для интеллектуальной системы поддержки принятия решений скрининг-диагностики рака желудка; метод оценки классификационных возможностей структур медицинских данных;
- метод синтеза математических моделей и комплекс классификационных решающих правил скрининг-диагностики рака желудка;
- алгоритмическое и программное обеспечение, составляющие основу интеллектуальной системы поддержки принятия решений скрининг-диагностики рака желудка, позволяющей формировать рекомендации о необходимости обследования пациента в специализированных центрах. Применение предложенных в диссертации методов и средств позволяет улучшить качество медицинского обслуживания людей, имеющих высокий риск и страдающих таким заболеванием как рак желудка.
Методология и методы исследования. Для решения поставленных задач использовались методы теории синтеза биотехнических систем системного анализа, статистической обработки экспериментальных данных, теории нечетких множеств, экспертного оценивания, группового учета аргументов, математического моделирования.
Положения, выносимые на защиту: 1. Метод оценки классификационных возможностей структур медицинских данных для синтеза диагностических правил, основанный на применении мер доверия, позволяет корректировать правила принятия решений с целью улучшения качества классификации. 2. Информационноаналитическая модель и структура интеллектуальной системы поддержки принятия решений скрининг-диагностики рака желудка позволяют на основе результатов общего анализа крови и анамнеза оценивать риск наличия заболевания и формировать качественные рекомендации о необходимости обследования в специализированных центрах. 3. Математические модели, отражающие связи между показателями крови, позволяют проанализировать системные изменения в структуре крови при возникновении рака желудка. 4. Решающие правила, основанные на анализе образа жизни, анамнеза пациента и вычислении мер близости между значениями регистрируемых показателей крови и их расчетными по идентифицированными математическими моделями величинами, позволяют осуществлять диагностику заболевания с приемлемым для практической медицины качеством.
Степень достоверности и апробация результатов. Результаты исследования показали их воспроизводимость в различных условиях, непротиворечивость концепциям системного анализа и теории синтеза биотехнических систем, а так же аналогичным результатам, полученным другими исследователями. Методы. модели и алгоритмы скрининг-диагностики рака желудка построены на теории распознавания образов, группового учета аргументов и нечеткой логики принятия решений и согласуются с ранее опубликованными экспериментальными данными по теме диссертации. Предложенные в работе методы, модели и алгоритмы переданы в опытную эксплуатацию на кафедре факультетской хирургии медицинского института НИУ «БелГУ» и используются в учебном процессе кафедры биомедицинской инженерии Юго-Западного государственного университета при обучении студентов специальности 200401. Основные теоретические положения и научные результаты диссертационной работы докладывались, обсуждались и получили положительную оценку на следующих конференциях и семинарах: VI Международной студенческой электронной научной конференции «СТУДЕНЧЕСКИЙ НАУЧНЫЙ ФОРУМ 2014»(Москва, 2014); Международная заочная научно-практическая конференция «Актуальные вопросы в научной работе и образовательной деятельности» (Тамбов, 2014); Международная научно-практическая конференция «Научный прогресс на рубеже тысячелетий - 2014»; «Математические методы в прикладных задачах» (Курск, 2013); «Алгоритмы и программы математических и физических задач» (Курск, 2013); «X MEZINRODN VDECKO – PRAKTICK» (Прага 2014), на научно-технических семинарах кафедр биомедицинской инженерии и информатики и прикладной математики ЮЗГУ (Курск – 2012, 2013, 2014).
Структура и объем работы. Диссертация работы состоит из введения, глав, заключения, приложения и библиографического списка, включающего отечественных, 46 зарубежных источников, 2 ссылки на электронные ресурсы. Работа изложена на 148 листах машинописного текста, содержит 16 рисунков и таблиц.
Публикации. По материалам диссертации опубликовано 10 печатных работ, из них 3 статьи в рецензируемых научных журналах.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы исследования, определены цели и задачи работы, ее научная новизна и теоретическая и практическая значимости;
определены методы решения сформулированных задач; приведены сведения об апробации результатов работы.
В первой главе проведен анализ состояния проблем и показано, что наиболее адекватным математическим аппаратом исследования для решения задач скрининг - диагностики рака желудка являются гибридные модели, строящиеся на основе методологии мягких вычислений и методов группового учета аргументов (МГУА). В заключении раздела сформулированы цели и задачи исследования.
Во второй главе разрабатываются модель и методы оценки классификационных возможностей структур данных и синтеза нечетких математических моделей скрининг-диагностики рака желудка для интеллектуальной системы поддержки принятий решений. В силу технологической сложности прямого решения задач ранней диагностики рака желудка в режиме проведения профилактических мероприятий, основной задачей, решаемой в данном диссертационном исследовании, является скрининг-диагностика, с принятием решения о необходимости клинического обследования пациентов с достаточно высоким риском появления и развития рака желудка.
Для решения этой задачи в работе предлагается информационноаналитическая модель скрининг-диагностики рака желудка, приведенная на рис. 1.
крови Блок расчета инте- крови гральных показатеРешение о Рис. 1. Информационно-аналитическая модель скрининг-диагностики рака желудка В соответствии с этой моделью на первом этапе исследований формируется база показателей крови на основе историй болезней с клинически подтвержденным диагнозом рак желудка (класс 1 ) и людей, нестрадающими рассматриваемым заболеванием людей (класс 0 ). В качестве исходных данных в базе показателей крови используются традиционно получаемые при лабораторном анализе признаки xi (концентрация эритроцитов, лейкоцитов, лимфоцитов, гемоглобина цветовой показатель, СОЭ, содержание глюкозы, натрия, билирубина и т.д.) и интегральные показатели, рассчитываемые на их основе по формуле:
где: Yk, j.- j-ое – значение k-го интегрального показателя, xi, j - j-ое значение i-го частного показателя крови у пациента j, X 0,i - среднее значение i-го частного показателя в классе 0, D 0,i - дисперсия i-го частного показателя крови, i,k 0, - весовые коэффициенты, определяющие информационный вклад показателя xi в формирование интегрального показателя Yk.
Множество интегральных показателей Y определяется в блоке расчета интегральных показателей 1.
Для повышения качества принятия решений кроме лабораторных показателей крови в качестве информативных признаков используется ряд дополнительных легко получаемых показателей (блок «Жалобы больного, образ жизни, наследственность»).
На втором этапе синтеза информационно-аналитической модели на объектах обучающей выборки множеств Х и Y с использованием структурнопараметрической идентификации МГУА формируются модели взаимосвязей информативных показателей, которые в общем виде представляются полиномами Колмогорова-Габора:
где: zi1 - переменная (из множеств Х или Y); Ai1,0,l – свободный член для модели отклика zi1 в классе l, (l 0,1) на множестве Х или Y; Ai1,i,l - весовой коэффициент слагаемого i для отклика функции zi1 в классе l, (l 0,1) на множестве Х или Y; p i1,i, j.l - степень аргумента j в терме с номером i для модели отклика функции отклика zi1 в классе l, (l 0,1) на множествах Х или Y; nr – количество рядов селекции (термов полинома); mr – количество переменных z.
Для удобства использования указанных моделей формируется «База моделей системных взаимосвязей», в которой множество идентифицированных моделей располагается по критерию информативности, позволяя сократить время их выборки из базы.
Процесс синтеза моделей осуществляется с использованием известных алгоритмов МГУА.
Полученные модели типа (2) размещаются в базе моделей системных взаимосвязей в виде систем уравнений:
где n1, n2 – количество показателей во множествах X и Y, соотвественно; x,i, y,k - соответственно, i-й показатель из множества X и k-й из множества Y по классам ; A, B, C - вектора настраиваемых параметров по классам, полученные в ходе синтеза моделей типа (2); FX, FY, FXY - функционалы структурных моделей в классе l (2).
По данным, формируемым блоком «Жалобы больного, образ жизни и наследственность», используя рекомендации по синтезу гибридных нечетких решающих правил, разработанных на кафедре биомедицинской инженерии ЮгоЗападного государственного университета (БМИ ЮЗГУ) для блока определения риска заболевания синтезируется функция уверенности вида:
- уверенность в классе 1 ; qi – значение i-ого показателя множества Q, где U i=1,…,49; pRt1,i (q i ) - значение функции риска, вычисляемое для показателя qi согласно справочным общепризнанным; Fag - функция агрегации.
Решение о необходимости дальнейшего клинического обследования принимается, если численное значение уверенности превышает определенный экспертами пороговый уровень.
На третьем этапе синтеза информационно-аналитической модели определяются функции соответствия реальных измеренных значений показателей крови (блок регистрации текущих показателей крови) и интегральных показателей (формула (1), блок расчета интегральных показателей 2) значениям тех же показателей, полученных с помощью моделей, размещенных в базе моделей системных взаимосвязей. Используя функции соответствия как элементы нечетких решающих правил по рекомендациям кафедры БМИ ЮЗГУ синтезируются частные нечеткие решающие правила определения уверенности в классах 1 и 0. Эти частные правила принятия решений располагаются в блоке расчета риска заболевания по нечетким самоорганизационным моделям. Финальные решающие правила, агрегирующие правила типов (3) и (4), реализуются блоком принятия решения о клиническом обследовании.
Одним из важных этапов процесса синтеза решающих правил, особенно в условиях неполноты данных и плохой формализации, является процесс формирования и оценки обучающих и контрольных выборок.
Из множества способов формирования обучающих и контрольных выборок в работе выбран способ распределения всего их объема на обучающую и контрольную в соответствии с правилом «золотого сечения».
На основании анализа различных подходов к процессам обучения классификации (распознавания образов) можно сделать вывод, что на будущее качество принятия решений влияют, с одной стороны, качественный и количественный состав обучающей выборки и, с другой стороны, качественный и количественный состав пространства информативных признаков. В свою очередь, обучающие выборки характеризуются такими показателями, как репрезентативность (принадлежность генеральной совокупности), объем и экспертное доверие. Признаковое пространство можно охарактеризовать статистическими показателями информативности, экспертным доверием к составу признаков и размерностью.
Указанные качественные и количественные показатели, характеризующие обучающие выборки и пространство признаков носят в основном эмпирический характер с явно выраженной нечеткостью определений. Исходя из этого, для описания вводимых показателей с учетом сложившейся терминологии в области нечеткой логики принятия решений и теории уверенностей для обозначения целостной характеристики обучающей выборки введем понятие меры доверия к обучающим способностям выборки (МДВ), а для обозначения классификационной возможности пространства признаков – меру доверия к признаковому пространству (МДП).
Для расчета этих показателей в работе предлагается метод оценки классификационных возможностей обучающих данных.
В ходе реализации этого метода искомые показатели (меры доверия) определяются по формулам:
где МДР - мера доверия к репрезентативности выборки; МДО - мера доверия к объему выборки; МДЭВ - мера доверия экспертов к выборке; МДИ - мера доверия к информационной ценности признакового пространства; МДЭП - мера доверия экспертов к составу признаков; МДК - мера доверия к размерности (количеству) информативных признаков; i, i - весовые коэффициенты, определяющие вклад указанных мер доверия в расчет МДВ и МДП, соответственно В диссертационной работе приводятся рекомендации по расчету каждой из составляющих выражений (5) и (6).
Учитывая, что составляющие МДВ и МДП дополняют друг друга в оценке классификационных возможностей используемых медицинских данных, общая мера классификационного доверия к данным МДД определяется выражением:
Полученные значения мер МДД позволяют уточнять степень доверия к синтезируемым решающим правилам, поскольку учитывают не только работу самих классификационных правил, но и особенности тех данных, которые привлекаются для процессов обучения и контроля работы автоматизированной системы классификации.
Наполнение блоков информационно-аналитической модели, приведенной на рис. 1, и базы знаний интеллектуальной системы поддержки принятия решений (ИСППР) осуществляется в соответствии с предлагаемым методом синтеза нечетких решающих правил скрининг-диагностики рака желудка реализуемым следующей последовательностью действий.
1. Выбирается пространство информативных признаков: X x1, x2,..., xn1 частные показатели общего анализа крови; Y = y1,.y2,..., yn 2 - интегральные показатели; Q q1, q2,..., qn 3 характеристики образа жизни, предыдущих и существующих заболеваний, жалоб больного, наследственности и т.п. Для выбранного признакового пространства формируются обучающие и контрольные выборки, для которых по формуле (7) рассчитывается показатель МДД.
2. Для классов 0 и 1 в ходе реализации алгоритмов МГУА формируется пакет математических моделей типа (3) по которым рассчитываются коэффициенты детерминации моделей апроксимантов Rt2 и Rs2 (где t 1,..., T - номера моделей (3) в общем их списке (класс 1 ), s 1,...,S - номера моделей (3) в общем их списке моделей класса 0 ). Величины Rt и Rs определяют частные меры доверия к адекватности математических моделей МДМ0 и МДМ1 по отношению к их возможностям описывать структуры связей между исследуемыми признаками для классов 0 и 1 ( МДМ 0,t Rt2 и МДМ1,s Rs2 ).
3. Мера доверия к адекватности моделей взаимосвязи МДМ для двух альтернативных классов определяется выражением:
где: 0, 1 - весовые коэффициенты, определяющие предпочтение риска соотнесения пациента к классу здоровых или возможно болеющих людей.
В выражении (8) составляющие МДМ0 и МДМ1 определяются выражениями:
4. По аналогии с классическим понятием функций принадлежности, принятой в теории нечеткой логики принятия решений, введем понятие функции соответствия результатов модельных вычислений по формулам (3) и результатов реальных измерений X и вычислений Y - f ( d i, ), f ( d k, ).
В качестве базовых переменных для этих функций выбраны меры близости di, и d k, между измеренными xi и yk и вычисленными по формулам (3) xi * и yk * значениями i-ого частного и k-ого интегральных показателей:
где - номер исследуемых классов ( 0,1 ).
Функции соответствия определяются кусочно-линейными зависимостями вида:
В работе параметры функций соответствия (9) определяются по гистограммам распределения классов в соответствии с рекомендациями, разработанными на кафедре БМИ ЮЗГУ.
5. Уверенность в классификации по системам моделей (3) UM с учетом функций соответствия (9) определяется выражением:
где m1 - количество моделей, построенных по множеству признаков Х; m2 - количество моделей, построенных по множеству интегральных показателей Y.
Для регулирования соотношений между количеством ошибок первого и второго родов на экспертном уровне выбираются величины двух порогов P0 и P 1, алгоритм принимаемых решений по которым определяется таблицей 1.
Диагностические заключения относительно порогов P