WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

Pages:     || 2 |

«МОДЕЛИРОВАНИЕ СВОЙСТВ ХИМИЧЕСКИХ СОЕДИНЕНИЙ С ИСПОЛЬЗОВАНИЕМ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ И ФРАГМЕНТНЫХ ДЕСКРИПТОРОВ ...»

-- [ Страница 1 ] --

На правах рукописи

БАСКИН Игорь Иосифович

МОДЕЛИРОВАНИЕ СВОЙСТВ ХИМИЧЕСКИХ СОЕДИНЕНИЙ С

ИСПОЛЬЗОВАНИЕМ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ И

ФРАГМЕНТНЫХ ДЕСКРИПТОРОВ

02.00.17 – математическая и квантовая химия

АВТОРЕФЕРАТ

диссертации на соискание ученой степени доктора физико-математических наук

Москва - 2009 -2

Работа выполнена в лаборатории органического синтеза кафедры органической химии Химического факультета Московского государственного университета имени М.В.Ломоносова

Официальные оппоненты: доктор физико-математических наук, профессор Жидомиров Георгий Михайлович доктор физико-математических наук Кумсков Михаил Иванович доктор химических наук, профессор Пивина Татьяна Степановна

Ведущая организация: Институт физиологически-активных веществ Российской академии наук (г. Черноголовка)

Защита состоится 18 марта 2010 г. в 15 часов на заседании диссертационного совета Д 501.001.50 по химическим и физико-математическим наукам при Московском государственном университете имени М.В.Ломоносова по адресу:

119991, г. Москва, Ленинские горы, МГУ имени М.В.Ломоносова, д. 1, стр. 3, Химический факультет, ауд. 446.

С диссертацией можно ознакомиться в библиотеке Химического факультета Московского государственного университета им. М.В.Ломоносова

Автореферат разослан «11» февраля 2010 г.

Ученый секретарь диссертационного совета, к.х.н. Матушкина Н.Н.

-3

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. Современный этап развития нашей цивилизации характеризуется, прежде всего, беспрецедентным ростом мощности и распространенности компьютерной техники, и, вслед за этим, проникновением информатики во все сферы человеческой деятельности. Роботы, всевозможные устройства и компьютерные программы, оснащенные искусственным интеллектом, который уже в ближайшее время превзойдет по своим возможностям человеческий, начинают играть доминирующую роль не только в быту и промышленном производстве, но и в научных исследованиях.

Процессы информатизации быстро проникают и в химию. Этому особенно способствует то, что на протяжении многих лет химия развивалась как преимущественно эмпирическая наука, и потому в ней накоплено огромное количество экспериментальных данных, проведение глубокого анализа которых уже невозможно без применения средств современной информатики. Как результат, на стыке химии и информатики возникает и быстро оформляется в самостоятельную научную дисциплину хемоинформатика, методы которой начинают активно внедряться во все области химии, и, прежде всего, в органическую химию. Ранее этому процессу препятствовало отсутствие универсальной и строго обоснованной методологии и реализующего ее программного обеспечения, которые позволили бы химику на основе обработки экспериментальных данных осуществлять прогнозирование самых разнообразных свойств химических соединений и материалов.

На первом этапе выполнения настоящей диссертационной работы нами было теоретически обосновано, что такой универсальной методологией является сочетание искусственных нейронных сетей (ИНС) и фрагментных дескрипторов (ФД). Однако методология применения ИНС для прогнозирования свойств химических соединений была в это время практически неразвита, а в литературе имелись лишь единичные публикации в этом направлении. Известные ранее типы ФД, как правило, были нацелены на решение узкого круга задач и никак не могли быть положены в основу универсальной методологии поиска зависимостей между структурой органических соединений и их физико-химическими свойствами (QSPR), а также биологической активностью (QSAR). Кроме того, в рамках методологии QSAR/QSPR практически не предпринималось попыток учета влияния внешних условий (таких, например, как температура, давление, концентрация вещества, наличие и свойства того или иного растворителя и т.п.) на свойства химических соединений.

Таким образом, весьма актуальным является усовершенствование и интеграция нейросетевых и фрагментных подходов для моделирования и прогнозирования свойств органических соединений.

Цель работы. Целью настоящей диссертационной работы является создание универсальной методологии на базе ИНС и ФД, а также реализующего ее программного комплекса, позволяющего находить и анализировать количественные -4зависимости между структурами органических соединений и их свойствами (с учетом и без учета влияния внешних условий), и на основе этого прогнозировать свойства еще неизученных соединений.

Научная новизна работы.

1. Впервые применен аппарат искусственных нейронных сетей для количественного прогнозирования физико-химических свойств органических соединений и их реакционной способности.

2. Впервые разработан и применен универсальный подход к прогнозированию свойств органических соединений на основе комбинированного использования искусственных нейронных сетей и фрагментных дескрипторов.

3. Впервые предложена методика построения нелинейных зависимостей «структура-условия-свойства».



4. Впервые предложен метод интерпретации нейросетевых количественных зависимостей свойств органических соединений от их структуры.

5. Впервые разработаны и применены методы интеграции нейросетевых моделей «структура-свойство» на основе многоуровневого и многозадачного принципов их построения.

6. Впервые предложена концепция проведения прямых корреляций «структура-свойство» и на ее основе разработаны специальные архитектуры нейронных сетей, позволяющие осуществлять прогнозирование свойств органических соединений непосредственно из описания молекулярного графа без промежуточного вычисления вектора молекулярных дескрипторов. Тем самым впервые было осуществлено построение статистических регрессионных моделей с использованием невекторных (структурных, графовых) данных.

7. Впервые построены QSPR-модели «структура-свойство», позволяющие прогнозировать спектральные свойства красителей, а также кинетические константы гомогенных органических реакций.

Результатом работы явилось создание нового научного направления – нейросетевого моделирования свойств органических соединений на основе фрагментного подхода.

Практическая значимость работы. Предложенные методики позволяют расширить область традиционного моделирования «структура-свойство», улучшить прогнозирующую способность получаемых моделей, интерпретировать нейросетевые модели. Разработанный программный комплекс является универсальным инструментом для изучения зависимостей «структура-свойство», «структураусловия-свойство» и может широко использоваться для моделирования и прогноза широкого спектра свойств химических соединений. Построенные нейросетевые модели позволяют прогнозировать ряд физико-химических свойств, реакционную способность и биологическую активность органических соединений.

соавторстве при его непосредственном участии. Автору принадлежит выбор стратегии работы, постановка задач, математическое обоснование выбранного подхода, планирование расчетов и анализа, необходимых для решения поставленных задач, а также разработка необходимых для этого компьютерных программ.

Автор выражает глубокую признательность своему глубокоуважаемому учителю академику РАН Зефирову Н.С., а также всем сотрудникам, принимавшим участие в проведении исследований: в.н.с. Палюлину В.А., проф. Скворцовой М.И., с.н.с. Жоховой Н.И., д.б.н. Абилеву С.К., к.б.н. Любимовой И.К., к.ф-м.н. Айту А.О, н.с. Зефирову А.Н., к.ф-м.н. Кештовой С.В., prof. Varnek A. (University of Strasbourg, France), Tetko I.V. (Institute of Bioinformatics and Systems Biology, Neuherberg, Germany), аспирантам Гальберштам Н.М., Артеменко Н.В., Ивановой А.А. Основные вклады соавторов указаны в соответствующих разделах диссертации и автореферата.

. Апробация работы. Основные результаты работы были представлены на всесоюзных, российских и международных научных конференциях, в том числе, на межвузовской конференции “Молекулярные графы в химических исследованиях” в Калинине в 1990 г., на I-ой Всесоюзной конференции по теоретической органической химии в Волгограде в 1991 г., на 10-ом европейском симпозиуме “QSAR and Molecular Modelling” в Барселоне (Испания) в 1994 г., на II Российском национальном конгрессе "Человек и лекарство" в Москве в 1995 г., на втором международном симпозиуме по приобретению, представлению и обработке знаний «KARP-95» в Оборне (США, штат Алабама) в 1995 г., на 7-ом международном симпозиуме по наукам об окружающей среде «QSAR-96» в Эльсиноре (Дания) в 1996 г., на Международном симпозиуме по применению компьютеров в химических исследованиях «CACR-96» в Москве в 1996 г., на IV Российском национальном конгрессе «Человек и лекарство» в Москве в 1997 г., на 5-ом Европейском конгрессе по интеллектуальным и мягким вычислениям «EUFIT’97» в Аахене (Германия) в 1997 г., на XVI Менделеевском съезде по общей и прикладной химии в Санкт-Петербурге в 1998 г., на I Всероссийской конференции “Молекулярное моделирование” в Москве в 1998 г., на первом индо-американском симпозиуме по математической химии в приложении к молекулярному дизайну и оценке токсичности химикатов в Сантиникетане (Индия, западная Бенгалия) в 1998 г., на 12-ом европейском симпозиуме по количественным соотношениям структураактивность «Molecular Modelling and Prediction of Bioactivity» в Копенгагене (Дания) в 1998 г., на V Всероссийской конференции «Нейрокомпьютеры и их применение» в Москве в 1999 г., на международной школе-семинаре по компьютерной автоматизации и информатизации в науке и технике «ACS’2000» в Москве в г., на 9-ом международном симпозиуме по количественным соотношениям «структура-активность» в науках об окружающей среде «Crossroads to the XXI Century» в Бургасе (Болгария) в 2000 г., на VII Всероссийской конференции «Нейрокомпьютеры и их применение» в Москве в 2001 г., на II Всероссийской конференции «Молекулярное моделирование» в Москве в 2001 г., на 3-ей Всероссийской школе-конференции по квантовой и вычислительной химии им. В.А.Фока в г., на 14-ом Европейском симпозиуме по количественным соотношениям «структура-активность» «EuroQSAR-2002» в Борнемуте (Великобритания) в 2002 г., на 1-ой Российской школе-конференции «Молекулярное моделирование в химии, биологии и медицине» в Саратове в 2002 г., на II Российской школе-конференции «Молекулярное моделирование в химии, биологии и медицине» в Саратове в г., на XVI Европейском симпозиуме по количественным соотношениям «структура-активность» и молекулярному моделированию на Средиземном море в Италии в 2006 г., на 2-ой германской конференции по химической информатике в Госляре (Германия) в 2006 г., на 5-ой Всероссийской конференции «Молекулярное моделирование» в Москве в 2007 г., на XVIII Менделеевском съезде по общей и прикладной химии в Москве в 2007 г., в Страсбургской летней школе по хемоинформатике «CheminfoS3» в Оберне (Франция) в 2008 г., на 4-ой германской конференции по химической информатике в Госляре (Германия) в 2008 г.

Публикации. Содержание диссертации изложено в 54 публикациях, включая 2 главы в монографиях, 41 оригинальную статью в российских и международных журналах, в том числе 40 в журналах, рекомендованных ВАК, и 11 статей в сборниках.

Структура и объем работы. Диссертация изложена на 365 страницах машинописного текста, состоит из введения, 2 глав обзора литературы, 6 глав обсуждения результатов, выводов и списка цитированной литературы (517 ссылок), содержит 34 таблиц и 66 рисунков.

СОДЕРЖАНИЕ РАБОТЫ

Главным содержанием настоящей работы является создание универсальной методологии, позволяющей с единых позиций осуществлять количественный прогноз самых разнообразных свойств органических соединений на основе обработки экспериментальных данных. Математически обоснован и на множестве примеров продемонстрирован центральный тезис диссертационной работы: такой универсальной методологией является сочетание многослойных искусственных нейронных сетей (ИНС) персептронного типа и фрагментных дескрипторов (ФД).

Первая и вторая главы диссертационной работы являются литературным обзором, главы с третьей по восьмую – обсуждением результатов.

В данной главе рассматривается математический аппарат ИНС – современного метода машинного обучения, в основе работы которого лежит имитация функционирования клеток головного мозга человека. Основное преимущество ИНС перед классическими методами статистического анализа состоит в возможности аппроксимации по экспериментальным данным любых сколь угодно сложных нелинейных зависимостей произвольного и заранее неизвестного вида.

нейросетевого моделирования. ИНС состоят из определенного количества «искусственных нейронов» (являющихся упрощенной математической моделью биологических нейронов) и связей между ними, соответствующих контактам через синапсы между аксонами и дендритами биологических нейронов. В процессе работы нейросети осуществляется преобразование сигналов (кодирующих обрабатываемые данные) внутри нейронов и их передача между соседними нейронами.

Архитектура ИНС определяется топологией соединений нейронов между собой. Нейроны внутри сети, как правило, организованы в группы, называемые слоями. Нейроны, принимающие внешние данные для последующей обработки, называются входными; нейроны, выводящие уже обработанные данные, называются выходными. Остальные нейроны, участвующие в промежуточной обработке данных, называются скрытыми.

Подобно сетям биологических нейронов, ИНС способны обучаться на примерах путем подстройки весов связей между нейронами. В главе подробно рассматриваются методы обучения многослойных нейронных сетей – самой популярной архитектуры ИНС, имитирующей послойную организацию коры головного мозга человека. Все эти методы основаны на использовании алгоритма «обратного распространения (backpropagation) ошибки» для вычисления производных, вследствие чего такие ИНС часто называют нейросетями обратного распространения. Альтернативное название – многослойные персептроны. Важнейшее свойство ИНС этого типа заключается в способности обучаться апроксимации любых сколь угодно сложных нелинейных зависимостей между входными и выходными данными. Именно поэтому они и были выбраны в качестве основного инструмента обработки данных в рамках диссертационной работы.

В разделе 1.3 рассматриваются основные принципы применения многослойных ИНС для прогнозирования свойств химических соединений. Прежде всего, для построения нейросетевой модели подготавливается база данных, содержащая структуры химических соединений и известные значения тех свойств, которые в дальнейшем предполагается при помощи обученной ИНС прогнозировать.

Как правило, эта база разбивается на две части. По первой из них, называемой обучающей выборкой, путем многократного предъявления ее ИНС, производится обучение последней. По второй, называемой контрольной выборкой, производится контроль прогнозирующей способности ИНС. На следующем этапе для всех химических соединений из выборок производится расчет дескрипторов, т.е. чисел, описывающих структуру химических соединений. Далее следует этап построения нейронной сети. Число нейронов входного слоя обычно берется равным числу дескрипторов, и уровень выходного сигнала каждого из них устанавливается равным значению соответствующего дескриптора. Число выходных нейронов равно числу одновременно прогнозируемых свойств, причем в качестве прогнозируемого значения каждого из свойств берется выходное значение соответствующего выходного нейрона. Скрытые же нейроны служат для промежуточных вычислений, и их Обучающая выборка в процессе обучения ИНС ей многократно предъявляется. При каждом таком предъявлении значения дескрипторов каждого из соединений устанавливаются на входных нейронах. Далее ИНС запускается на счет, и с выходных нейронов снимаются прогнозируемые значения свойств, которые сравниваются с экспериментальными. На основании найденной разницы между экспериментальными и прогнозируемыми значениями, по определенным алгоритмам производится подстройка весов связей между нейронами с целью уменьшения этой разницы. Таким образом, в процессе обучения происходит постепенное уменьшение ошибок прогнозирования свойств химических соединений, входящих в обучающую выборку. Обученная таким образом ИНС может быть использована для прогнозирования свойств новых химических соединений. Для этого значения вычисленных для них дескрипторов устанавливаются на входные нейроны, ИНС запускается на счет, и с выходных нейронов снимаются спрогнозированные значения свойств этих соединений.

В разделе 1.4 перечислены основные ограничения ИНС и проблемы, связанные с их применением. Разработка эффективных методов решения этих проблем составила важную часть диссертационной работы (см. Главу 4).

Глава 2. Фрагментные дескрипторы в поиске зависимостей «структурасвойство»

Данная глава посвящена рассмотрению фрагментных дескрипторов (ФД), т.е. чисел, показывающих наличие данного фрагмента внутри химической структуры. К преимуществам ФД обычно относят следующие: 1) простота и эффективность вычисления; 2) простота интерпретации со структурно-химической точки зрения; 3) базисный характер, выражающийся в возможности аппроксимировать с их помощью любую зависимость «структура-свойство» (это было показано в рамках данной диссертационной работы, см. главу 3).

Глава начинается с изложения в разделе 2.1 истории ФД, берущей начало с появления первых аддитивных схем в 30-40-ых годах прошлого века.

В разделе 2.2 приведена подробная классификация ФД по следующим категориям: 1) типам молекулярных графов, соответствующих структурным фрагментам; 2) типам молекулярных структур; 3) типам значений дескрипторов; 4) типам дескрипторных наборов; 5) связности фрагментов; 6) уровням детализации молекулярных графов.

В разделе 2.3 перечислены основные ограничения ФД и проблемы, связанные с их использованием. Разработка способов решения этих проблем составила важную часть диссертационной работы (см. главу 5).

В данной главе содержится математическое обоснование использования сочетания многослойных ИНС с ФД в качестве универсального подхода к прогнозированию свойств органических соединений на основе анализа эмпирических данных.

Раздел 3.1 посвящен рассмотрению значимости для химии поиска базиса инвариантов помеченных графов. В нем отмечается, что один из наиболее популярных подходов к решению проблемы поиска соотношений «структурасвойство» основан на представлении химической структуры в виде помеченного молекулярного графа. В этом случае молекулярные дескрипторы (т.е. числа, описывающие химические структуры) и функции, аппроксимирующие разнообразные свойства химических соединений, являются инвариантами графов, т.е. числовыми характеристиками, не зависящими от нумерации вершин графа. Следовательно, при известном базисе инвариантов помеченных графов задачу поиска соотношений «структура-свойство» можно решить путем разложения зависимости моделируемого свойства от структуры химического соединения по такому базису (таковой ранее известен не был).

Раздел 3.2 содержит две основные теоремы о базисе инвариантов помеченных графов, впервые сформулированные в ходе совместной работы с М.И.Скворцовой, которая предложила их строгое математическое доказательство.

Теорема 1. Любой инвариант f(H) помеченного графа H H V( n, E может быть единственным образом представлен в виде:

где: HV( n,E - множество всех возможных помеченных графов с максимальным числом вершин n; cj – некоторые константы, не зависящие от H и зависящие от f; gj(H) – число вложений графа H j HV( n,E в граф H (т.е. количество различных подграфов графа H, изоморфных Hj). Таким образом, множество gj образует базис в алгебре инвариантов графов из множества HV( n,E. Суммирование ведется по подграфам Hj, получаемым из H путем удаления ребер всеми неэквивалентными способами.

Теорема 2. Любой инвариант f(H) помеченного графа H HV( n,E может быть представлен в виде полинома от переменных, равных числам встречаемости некоторых связных подграфов в H. Количество вершин в таких подграфах и степень полинома меньше либо равно n.

Таким образом, теорема 1 строго определяет, что базисом инвариантов помеченных графов являются числа вложений различных подграфов gj(H). Единственным отличием gj(H) от вышеупомянутых ФД является то, что при их вычислении рассматриваются вложения всех подграфов – как связных, так и, главным образом, несвязных, тогда как ФД строятся, как правило, на основе связных подграфов. Несвязных подграфов, однако, чрезвычайно много по сравнению со связными и с ними очень неудобно работать. Теорема 2 как раз и позволяет не рассматривать несвязные подграфы и устанавливает полиномиальный характер связи между значением произвольного инварианта f(H) и значениями ФД, построенных на основе связных подграфов. Таким образом, теорема 2 устанавливает тип дескрипторов, с помощью которых может быть аппроксимирован любой инвариант помеченного графа и, следовательно, любое скалярное свойство химических соединений. При этом, однако, остается нерешенной проблема о способах нахождения огромного числа коэффициентов, содержащихся в таком полиноме.

В разделе 3.3 рассматривается найденное нами эффективное решение этой проблемы путем применения теоремы Колмогорова о представлении непрерывных функций нескольких переменных в виде суперпозиций непрерывных функций одного переменного и сложения. С использованием нейросетевой интерпретации вышеупомянутой теоремы, данной Р. Хехт-Нильсеном (R.Hecht-Nielsen), а также математических результатов, полученных в работах Куркова (Krkov), можно сделать вывод о возможности аппроксимации рассматриваемой в теореме полиномиальной зависимости с помощью многослойной ИНС. Это легло в основу центрального положения диссертационной работы: любая сколь угодно сложная зависимость между структурой органического соединения и его свойством может быть аппроксимирована при помощи многослойной ИНС с двумя слоями скрытых нейронов и набора ФД. Отметим, что в большинстве случаев для аппроксимации зависимостей «структура-свойство» достаточно и одного слоя скрытых нейронов.

Данная глава содержит описание предложенных нами подходов к решению задач, связанных с применением ИНС для поиска количественных корреляций «структура-свойство».

Раздел 4.1 содержит описание разработанных нами способов решения проблем, связанных с явлением «переучивания» ИНС. Подраздел 4.1.1 содержит анализ этого явления. Суть его заключается в следующем: процесс обучения нейросети может быть условно разделен на две последовательные фазы – «обобщения» и «запоминания». Для химических соединений, содержащихся в обучающей выборке, среднеквадратичная ошибка прогнозирования свойств постоянно уменьшается по ходу обучения в обеих фазах. В то же время, для соединений, отсутствующих в обучающей выборке, среднеквадратичная ошибка прогнозирования сначала уменьшается в фазе «обобщения», но потом начинает расти в последующей фазе «запоминания». В результате этого «переобученная» нейросеть хорошо воспроизводит свойства соединений из обучающей выборки, но плохо прогнозирует свойства любых других соединений, содержащихся, например, в контрольных выборках. Эффект «переучивания» схематически показан на Рис. 1.

кривая показывает ход изменения среднеквадратичной ошибки прогнозирования для соединений, входящих в обучающую выборку, а верхняя – в контрольную выборку. Восклицательным знаком отмечена точка перехода из фазы «обобщения» в фазу В подразделе 4.1.2 рассмотрены известные из литературы способы предотвращения «переучивания» и показано, что наиболее эффективным из них является остановка обучения при достижении наименьшей среднеквадратичной ошибки прогнозирования на контрольной выборке. Тем не менее, при его применении возникает новая проблема, суть которой состоит в следующем. Поскольку контрольная выборка используется для остановки обучения, т.е. для отбора модели, то содержащаяся в ней информация частично попадает в отобранную модель, и поэтому контроль по такой выборке уже не может считаться полностью независимым, а среднеквадратичная ошибка прогнозирования на ней – для объективной оценки прогнозирующей способности этой модели. В подразделе 4.1.3 изложено предложенное нами эффективное решение этой проблемы.

Для решения вышеизложенной проблемы предлагается использовать трехвыборочный метод, согласно которому производится деление всего набора данных на 3 выборки: обучающую, внутреннюю контрольную и внешнюю контрольную. По обучающей выборке идет построение моделей, внутренняя контрольная выборка используется для отбора оптимальной для прогнозирования модели, а ошибка прогнозирования на внешней контрольной выборке, которая никаким образом не участвует ни в построении, ни в отборе модели, используется для оценки прогнозирующей способности этой модели. Разбивку набора данных на три выборки можно осуществлять либо случайным образом, либо систематически в рамках процедуры скользящего контроля.

Трехвыборочный метод был нами впервые представлен в 1995 г. в рамках приглашенного пленарного доклада на конференции по интеллектуальной обработке данных (г. Оборн, штат Алабама, США) и был положительно воспринят сообществом математиков, специализирующихся в области ИНС. Почти одновременно и независимо от нас сходные идеи были также опубликованы И.Тетко с соавторами. С тех пор трехвыборочный метод превратился в обязательный атрибут нейросетевых исследований в данной области. Трехвыборочный метод, в сочетании с идеями ансамблевого подхода к построению моделей «структура-свойство», лег в основу как более ранней методики, изложенной в подразделе 6.3.1 (т.н. трехвыборочного скользящего контроля), так и более поздней разработки – процедуры двойного скользящего контроля, описанной в подразделе 4.1.4.

исходная база данных систематически разбивается на 3 части: обучающую, внутреннюю контрольную и внешнюю контрольную выборки в соотношении (N-2):1:1.

Внутренняя контрольная выборка используется для отбора моделей с наилучшей прогнозирующей способностью, а внешняя контрольная выборка – для оценки прогнозирующей способности отобранных моделей. Предсказанное значение свойства для каждого химического соединения вычисляется как среднее из предсказанных значений при всех N-1 разбиениях, при которых оно попадает во внешнюю контрольную выборку, тогда как дисперсия предсказанных значений может быть использована для оценки точности прогноза для данного соединения. На Рис.

2 представлена диаграмма разбиения баз данных для N = 5.

В результате на основе усреднения N(N-1) частных моделей, выводимых при разных разбиениях исходной базы данных, получаются соответствующие комбинированные модели. Вычисляемые статистические характеристики включают: 1) Q2DCV - параметр Q2 (определяемый как Q2=(SS-PSS)/SS, где PSS - сумма квадратов ошибок прогноза свойства, SS - сумма квадратов отклонения свойства от среднего значения) для усредненных спрогнозированных значений; 2) RMSEDCV - среднеквадратичная ошибка прогнозирования; 3) MAEDCV - средняя абсолютная ошибка прогнозирования.

- внутренняя контрольная выборка Рис. 2. Схема 54-кратного двойного скользящего контроля Метод двойного скользящего контроля обеспечивает корректную оценку реальной прогнозирующей способности моделей, процедура отбора которых предполагает использование контрольной выборки либо процедуры скользящего контроля. Он не только позволяет эффективно предотвращать «переучивание» нейросетей (благодаря трехвыборочному подходу), но и обращает стохастические свойства нейросетевых моделей из кажущегося недостатка в преимущество, поскольку благодаря этому позволяет оценивать ожидаемую ошибку прогноза.

В подразделе 4.1.5 описан разработанный нами статистический метод построения линейно-регрессионных моделей, названный методом Быстрой Пошаговой Множественной Линейной Регрессии (БПМЛР), который основан на трехвыборочном подходе, совместим с процедурой двойного скользящего контроля, и позволяет очень эффективно осуществлять предварительный отбор дескрипторов для ИНС. Благодаря его использованию решается проблема невозможности обработки при помощи ИНС выборок, включающих большое число дескрипторов.

В рамках метода БПМЛР внутренняя контрольная выборка используется для определения оптимального числа включаемых в модель дескрипторов. Работа метода основана на использовании текущего вектора ошибок (невязок), который в начале работы инициализируется экспериментальными значениями свойств соединений из обучающей выборки. На каждой итерации дескриптор, наилучшим образом коррелирующий с текущим вектором ошибок на обучающей выборке, добавляется к текущему набору отобранных дескрипторов, а соответствующая регрессионная модель, построенная на этом дескрипторе, используется для пересчета текущего вектора ошибок, который уже используется на следующей итерации для отбора следующего дескриптора и т.д. Каждый дескриптор может быть включен в модель несколько раз на разных итерациях. При добавлении очередного дескриптора регрессионный коэффициент при свободном члене из построенного на нем регрессионного уравнения суммируется с текущим коэффициентом при свободном члене в многомерной модели. Что касается регрессионного коэффициента при самом дескрипторе, то он переносится в многомерную модель, если дескриптор включается в нее в первый раз, либо суммируется с уже имеющимся значением при последующем включении его в модель. Процесс пошагового отбора дескрипторов и построения результирующей модели останавливается по достижению наименьшей среднеквадратичной ошибки прогнозирования на внутренней контрольной выборке, тогда как среднеквадратичная ошибка прогнозирования на внешней контрольной выборке используется для оценки прогнозирующей способности итоговой многомерной линейной регрессионной модели.

Хотя метод БПМЛР первоначально был предназначен только для предварительного отбора дескрипторов для построения нейросетевых моделей, однако за время эксплуатации он успел себя зарекомендовать как мощный метод статистического анализа, обладающий очень высокой производительностью и позволяющий даже на персональном компьютере эффективно работать с очень большим числом дескрипторов. Последнее свойство важно при работе с ФД ввиду их очень большого числа.

Раздел 4.2 содержит описание предложенного нами подхода к интерпретации нейросетевых регрессионных моделей. Необходимость его разработки была обусловлена тем, что раньше ИНС рассматривались как «черный ящик», способный осуществлять прогноз, но не предоставляющий никакой возможности описать нейросетевые модели на содержательном уровне. Ранее именно это и считалось основным недостатком ИНС, поскольку для обоснованного использования построенных моделей часто требуется понимание лежащих в их основе физикохимических и биологических явлений. И действительно, наборы весовых коэффициентов не могут быть непосредственно использованы для интерпретации нейросетевых моделей, поскольку их числовые значения в значительной мере меняются при перестроении последних, а также сильно зависят от числа скрытых нейронов, и поэтому нельзя их непосредственно использовать для описания нейросетевых моделей «структура-свойство» на качественном уровне.

Для решения этой проблемы мы предлагаем использовать специальный набор статистических характеристик, значения которых, в отличие от значений весовых коэффициентов, почти не меняются при перестроении моделей, слабо зависят от числа скрытых нейронов и вполне могут быть использованы для интерпретации нейросетевых моделей. Более того, с их помощью можно анализировать даже такие характеристики соотношений «структура-свойство», которые обычно невозможно извлечь при помощи стандартных статистических подходов и которые могут быть важны для понимания природы соответствующих физико-химических и биологических процессов.

Основная идея предлагаемого подхода состоит в использовании для интерпретации нейросетевых моделей статистических характеристик, основанных на коэффициентах разложения в ряд по Тэйлору-Маклорену функции f, описывающей зависимость выходов ИНС от входов. Итак, предлагаются следующие характеристики: Mx – среднее значение первой частной производной по отношению к значению дескриптора x по выборке; Dx – дисперсия значений первой частной производной по выборке; Mxx – среднее значение второй частной производной по выборке; Mxy – среднее значение второй смешанной частной производной по отношению к значениям двум дескрипторов (x и y); Ix - сумма квадратов значений первой частной производной. Заметим, что значения Mx являются аналогами регрессионных коэффициентов в линейно-регрессионных моделях; аналогично Dx показывают степень нелинейности нейросетевых моделей, а Mxx и Mxy служат для анализа нелинейного характера моделей и взаимодействия в них дескрипторов.

Нами продемонстрировано на нескольких примерах, что при использовании вышеперечисленных статистических характеристик стало возможным извлечь из набора данных не только информацию, которую предоставляют традиционные методы линейного регрессионного анализа (например, о знаке и величине влияния дескрипторов на свойства химических соединений), но и получить дополнительную ценную информацию о нелинейном характере зависимостей «структурасвойство» и взаимодействии дескрипторов.

В разделе 4.3 рассматривается предложенная нами концепция обучаемой симметрии как пример использования ИНС для решения одной из задач, возникающих при построении корреляций «структура-свойство», которые в принципе не могут быть корректно решены при помощи линейных статистических методов.

Как известно, классический подход к выявлению количественной зависимости «структура-свойство» («структура-активность») для узкого ряда соединений, обладающих одинаковым скелетом, предполагает использование в качестве дескрипторов констант заместителей. В этом случае может возникнуть проблема, когда несколько положений заместителей топологически эквивалентны. Например, для пиридина (1) заместители R2 и R6, а также R3 и R5 находятся в топологически эквивалентных положениях. В этом случае корректно построенная модель «структура-свойство» должна обеспечить, например, одинаковое значение спрогнозированного свойства для 2-хлорпиридина (2) и 6-хлорпиридина (3), поскольку это одно и то же соединение.

Возникает вопрос: как можно построить такую модель? Нами показано, что такие обычно применяемые для этой цели подходы, как предварительная канонизация структур и использование простейших аддитивных симметрических функций, не дают адекватного решения задачи. Более того, строго математически доказано, что общий вид необходимой для построения такой модели функции, инвариантной относительно перестановки некоторых своих аргументов, должен быть нелинейным относительно этих аргументов. Следовательно, обычно применяемые в «классическом QSAR» средства линейного статистического моделирования не могут в принципе привести к построению оптимальной модели с необходимыми свойствами симметрии. Поэтому в данном случае мы рекомендуем использовать процедуры анализа данных, обеспечивающие возможность построения нелинейных моделей произвольной сложности, например ИНС.

Для решения этой проблемы мы предлагаем концепцию обучаемой симметрии. Согласно этой концепции необходимо: а) расширить обучающую выборку соединений путем добавления копий соединений («клонов») с теми же значениями моделируемого свойства, но различающихся перестановкой топологически эквивалентных позиций присоединения заместителей (например, структура 2 должна быть дополнена структурой 3); б) использовать ИНС для выявления количественной зависимости «структура-активность». В этом случае ИНС обучаются строить нелинейные зависимости «структура-активность» с необходимыми свойствами симметрии.

Эффект применения концепции обучаемой симметрии проиллюстрирован в данной диссертационной работе на двух примерах построения количественных моделей «структура – биологическая активность» для блокаторов кальциевых каналов L-типа (4) и для обладающих галлюциногенной активностью фенилалкиламинов (5). В обоих случаях в качестве дескрипторов использовались константы заместителей (как и в оригинальных работах, откуда выборки были взяты), а в качестве метода анализа данных – ИНС. Модели строились как на исходных базах, так и на базах, расширенных путем добавления «клонов», и при этом использовалась одна и та же разбивка на обучающую и контрольную выборки (второй кон- представлены значения среднеквадратичной ошибки прогнозирования на контрольных выборках для этих двух случаев.

Как видно из Табл. 1, применение концепции обучаемой симметрии в обоих случаях привело к значительному улучшению прогнозирующей способности нейросетевых моделей. Подчеркнем также, что построенные нами нейросетевые количественные модели «структура-активность» существенно лучше по своим статистическим характеристикам опубликованных ранее для этих же наборов данных.

Табл. 1. Сравнение прогнозирующей способности нейросетевых моделей, построенных без и с добавлением "клонов" в соответствии с концепцией обучаемой симметрии Моделируемое свой- Размер выбор- на контрольной выборке (в логарифмических Блокирующая способность дигидропиридинов Галлюциногенная активность фенилалкиламинов Данная глава содержит набор разработанных нами концепций, методов, программ и алгоритмов, нацеленных на превращение фрагментного подхода в мощный инструмент максимально точного моделирования широкого разнообразия свойств органических соединений. В главе не только приводятся способы преодоления существовавших ранее ограничений ФД, но и предлагаются методики, направленные на значительное расширение сферы применения фрагментного подхода.

Раздел 5.1 посвящен описанию принципов построения разработанных нами ФД, а также методов и алгоритмов их генерации при помощи дескрипторного блока Fragment. Отмечается, что основными отличительными особенностями разработанного нами варианта ФД является чрезвычайная гибкость (и, как следствие, универсальность их применения для моделирования самых разнообразных свойств органических соединений), а также очень высокая производительность их генерации. Гибкость достигается наличием: а) большого числа типов генерируемых фрагментов (см. Рис. 4) в сочетании с развитой четырехуровневой классификацией типов атомов (см. подраздел 5.1.2); б) механизма их автоматического обобщения; в) нескольких стратегий комбинирования разных уровней классификации атомов внутри фрагментов. Эффективность достигается за счет совершенного алгоритма, генерирующего все типы фрагментов за два просмотра структуры, использования оригинального трехуровневого иерархического списка кодов генерируемых фрагментов с очень быстрым доступом к его элементам, а также поддержкой динамически меняющегося списка групп статистически эквивалентных дескрипторов. Важными особенностями также является возможность работы с «выделенными» атомами (см. раздел 5.3), полимерными структурами (см. раздел 5.4) и стереохимической информацией. Пример кодировки фрагмента дан на Рис. 5.

Рис. 3. Типы фрагментных дескрипторов. Коды p1…pe соответствуют линейным фрагментам, включающим, соответственно, от 1 до 15 атомов; коды c3…cf соответствуют циклическим фрагментам, включающим от 3 до 15 атомов; коды s4…s соответствуют разветвленным фрагментам, включающим от 4 до 6 атомов; коды b0…bd – 14 типам бициклических фрагментов; коды t0…te – 15 типам трициклических фрагментов.

С ("C") N ("N") O ("O") S ("S") Se ("E") As ("A") P ("P") Si ("I") Hal ("H" ) Рис. 5. Пример кодировки фрагмента. Код фрагмента формируется из разделенных через запятую кода типа фрагмента, сцепленных кодов атомов и сцепленных кодов связей.

В разделе 5.2 приведены примеры прогнозирования физико-химических свойств органических соединений с использованием ФД и статистического аппарата множественной линейной регрессии. Эффект от перехода к нейросетевому моделированию описан ниже в разделе 6.6. Далее в подразделах 5.2.1 (на примере прогнозирования поляризуемости химических соединений) и 5.2.2 (на примере прогнозирования энтальпии образования алифатических полинитросоединений) показано, что ФД при линейном моделировании являются удобным средством автоматического создания аддитивных схем расчета физико-химических свойств органических соединений. В подразделах от 5.2.3 до 5.2.7 приведены работы (сделанные в соавторстве с Н. И. Жоховой), в которых ФД, в сочетании с множественной линейной регрессией, были успешно использованы для прогнозирования таких видов физико-химических свойств, которые лишь с большим трудом поддаются расчету при помощи методов квантовой химии и молекулярного моделирования. Такими свойствами являются: а) магнитная восприимчивость; б) энтальпия парообразования; в) энтальпия сублимации; г) температура вспышки; д) сродство азо- и антрахиноновых красителей к целлюлозному волокну. В Табл. приведены статистические характеристики построенных моделей с наиболее высокой прогнозирующей способностью. Отметим, что во всех случаях построенные модели превзошли по своим статистическим показателям модели, ранее опубликованные в литературе и построенные на тех же данных.

единиц кДж·моль В разделе 5.3 рассматривается подход, который позволяет значительно расширить круг свойств, для прогнозирования которых можно применять ФД за счет указания специальных «выделенных» атомов, играющих специфическую роль в природе моделируемого свойства. Например, при моделировании константы основности аминов логично отметить тот самый атом азота внутри химической структуры, который участвует в рассматриваемом кислотно-основном равновесии.

Суть предлагаемого метода заключается в том, что: 1) такие «выделенные» атомы помечаются определенными метками в соответствии с тем, по каким причинам этот атом выделен; 2) при генерации ФД каждая такая метка рассматривается как отдельный псевдоатом с именем, соответствующем символу метки; 3) при построении уравнений «структура-свойство» предусмотрена возможность включать в модели только те дескрипторы, которые содержат такой псевдоатом.

Мы предлагаем использовать ФД с “выделенными” атомами для моделирования широкого круга свойств: 1) при расчете локальных характеристик молекул, таких, например, как химические сдвиги в спектрах ЯМР, либо кислотноосновные свойства определенных атомов в молекулах; 2) при прогнозировании биологической активности для однородных выборок соединений, содержащих общий фрагмент с анкерными атомами, к которым присоединены заместители; 3) для прогнозирования кинетических параметров химических реакций одного типа;

4) при прогнозировании физических свойств полимеров (за счет добавления специальных меток к атомам, принадлежащим основной цепи полимера); 5) для прогнозирования свойств, обусловленных образованием супрамолекулярных комплексов (за счет добавления специфических меток, указывающих на роль атомов в супрамолекулярном взаимодействии); 6) для учета стереохимической информации (путем добавления меток S и R либо D и L к стереохимическим центрам, а также E и Z к атомам, связанным двойной связью). В каждом случае предлагаемый прием ФД. Таким образом, использование ФД с «выделенными» атомами позволяет значительно расширить сферу применения фрагментного подхода в поиске количественных соотношений «структура-свойство».

Далее на нескольких примерах рассмотрено применение ФД с «выделенными» атомами. Во всех случаях генерация дескрипторов проводилась при помощи блока Fragment. Предварительный отбор дескрипторов осуществлялся с помощью метода БПМЛР, а построение окончательной модели – при помощи трехслойной ИНС. Оценка прогнозирующей способности проводилась с помощью процедуры двойного скользящего контроля.

В подразделе 5.3.1 рассмотрено применение ФД с «выделенными» атомами для моделирования химических сдвигов в 31P ЯМР спектрах производных монофосфинов. Диаграмма разброса, список наиболее важных фрагментов и статистические характеристики построенной модели приведены на Рис. 6. Этот пример иллюстрирует возможность использования дескрипторов данного типа для прогнозирования локальных свойств химических соединений, которые можно приписать определенным атомам или группам атомов внутри молекулы. В этом случае использование цепочечных фрагментов с терминальными «выделенными» атомами позволяет получать легко интерпретируемые модели, наглядно показывающие пути влияния отдельных атомов или групп внутри молекулы на изучаемое свойство.

Например, первые три фрагмента на Рис. 6 отражают -индукционное влияние алкильных заместителей на атом фосфора, четвертый – эффект сопряжения с ароматическим ядром, пятый – влияние расположенного в орто-положении атома фтора.

Prediction, ppm Рис. 6. Диаграмма разброса, список наиболее важных фрагментов и статистические характеристики нейросетевой модели для прогнозирования химических сдвигов в 31P ЯМР спектрах производных монофосфинов.

для моделирования способности аналогов 1-[(2-гидроксиэтокси)-метил]– 6(фенилтио)тимина (HEPT) ингибировать обратную транскриптазу вируса ВИЧ-1.

Соответствующие диаграмма разброса, список наиболее важных фрагментов и статистические характеристики построенной модели приведены на Рис. 7. Данный пример иллюстрирует возможность применения ФД с «выделенными» атомами для количественного прогнозирования биологической активности органических соединений внутри рядов соединений с одинаковым общим фрагментом (скелетом). Следует отметить, что обычно ФД редко используются для этой цели, поскольку аппроксимируемый с их помощью вклад конкретной группировки атомов в общее свойство оказывается независимым от того, где именно внутри химической структуры она находится. Поскольку это плохо соотносится с природой биологической активности, которая связана с точным пространственно-электронным распознаванием молекул, то это часто приводит к плохой прогнозирующей способности построенных QSAR-моделей и невозможности их интерпретации с целью выявления факторов, влияющих на биологическую активность.

Предлагаемые ФД с «выделенными» атомами полностью решают эту проблему, поскольку позволяют позиционировать все рассматриваемые фрагменты относительно заранее заданных внутри химической структуры «реперных точек».

На изображенной (Рис. 7) общей структуре для рассматриваемого ряда соединений такими «реперными» точками являются места подсоединений заместителей к общему скелету, которые мы «выделили» путем приписывания им меток a, b, c и d. Благодаря этому аппроксимируемый при помощи ФД (с «выделенными» таким образом атомами) вклад группировки атомов в общую биологическую активность оказывается зависимым от ее положения внутри химической структуры. Это приводит не только к существенному росту прогнозирующей способности получающихся QSAR-моделей, но и делает их легко интерпретируемыми со структурнохимической точки зрения, поскольку значения регрессионных коэффициентов в линейных моделях и введенной нами характеристики Mx для нейросетевых моделей четко показывают, какая группировка атомов в каком положении вносит тот или иной вклад в биологическую активность, и, следовательно, какие изменения нужно внести для ее оптимизации. Более того, рассмотрение характеристик Мxy позволяет выявить синергию и диссинергию во влиянии различных группировок атомов на биологическую активность.

Прогноз, log 1/EC Рис. 7. Диаграмма разброса, список наиболее важных фрагментов и статистические характеристики нейросетевой модели для прогнозирования способности аналогов HEPT ингибировать обратную транскриптазу вируса ВИЧ- В подразделе 5.3.3 рассмотрено применение ФД с «выделенными» атомами для прогнозирования констант скорости гидролиза эфиров карбоновых кислот. В данном случае в качестве «выделенных» атомов взяты реакционные центры, включающие атомы углерода, входящие в образующиеся в входе реакции карбоксильную и гидроксильную группы. Кроме ФД с «выделенными» атомами, в соответствии с развиваемой нами методологией построения моделей «структураусловия-свойство» (см. раздел 7.2), мы также использовали дескрипторы, описывающие условия реакции: состав растворителя и температуру. В результате была получена нейросетевая модель со следующими статистическими характеристиками, определенными при помощи процедуры двойного скользящего контроля:

Q2DCV = 0.9162, RMSEDCV = 0.31 и MAEDCV = 0.19. Три наиболее важных фрагмента из вошедших в построенную модель изображены на Рис. 8. Первый из них описывает стерическое влияние заместителей при -углеродном атоме карбоновой кислоты, второй – электронное влияние расположенного в уходящей группе атома кислорода, несущего неподеленные электронные пары, третий – влияние фенильной группы при карбоксиле.

Таким образом, данный пример иллюстрирует возможность применения ФД с «выделенными» атомами для количественного прогнозирования кинетических констант органических реакций, а также для автоматизированного извлечения из огромной массы экспериментальных данных основных факторов, влияющих на протекание органических реакций. Можно надеяться, что в будущем подобного рода анализ займет достойное место в широком арсенале средств теоретической органической химии.

Рис. 8. Наиболее важные фрагменты для прогнозирования констант скоростей гидролиза сложных эфиров Раздел 5.4 посвящен предложенной нами концепции псевдофрагментных дескрипторов (ПФД) как одного из возможных подходов к решению проблемы «отсутствующих» (или «редких») фрагментов, которые могут отсутствовать (либо быть недостаточно представленными) в обучающей выборке, но присутствовать в соединениях, для которых осуществляется прогноз. Поскольку величины вкладов таких фрагментов не могут быть определены по обучающей выборке, то можно ожидать значительных ошибок прогнозирования для соединений, их содержащих.

Мы предлагаем решать эту проблему путем введения дополнительных дескрипторов, значения которых в какой-то мере были бы связаны с величинами вкладов фрагментов в прогнозируемое свойство. Для этой цели мы предлагаем использовать особую категорию ФД, значения которых вычисляются путем комбинирования свойств атомов, присутствующих в этих фрагментах. Дескрипторы такого рода мы будем называть псевдофрагментными дескрипторами (ПФД), чтобы их отличать от «настоящих» ФД, имеющих в качестве значения числа встречаемости либо индикаторы наличия тех или иных фрагментов в структурах химических соединений. В качестве свойств атомов для прогнозирования физико-химических свойств органических молекул можно, например, использовать атомную массу, число электронов, ковалентный радиус, электроотрицательность, потенциал ионизации и т.д., поскольку предполагается, что от них зависят величины вкладов фрагментных дескрипторов в прогнозируемое свойство. Важно также, чтобы используемые комбинации свойств имели ясный физический смысл, поскольку в этом случае возрастают шансы наличия корреляции их значений с величинами вкладов фрагментов. При такой корреляции небольшое число ПФД начинает входить в статистические модели вместо многочисленных «настоящих» ФД, в том числе и потенциально редких, выступая тем самым в качестве сжатого обобщения последних. Это в значительной степени и решает проблему редких фрагментов, отдельных атомов или небольших цепочек атомов.

где: Ri – ковалентный радиус атома, Na – число атомов в молекуле. Очевидно, что куб атомного радиуса пропорционален «объему» атома. Поскольку суммирование идет по атомам, то они и выступают в качестве базового фрагмента для вычисления дескриптора. Физический смысл всего дескриптора – средний удельный объем атома. Можно предположить, что он будет играть существенную роль при прогнозировании волюметрических свойств веществ, например, плотности. При включении такого дескриптора в модель, даже если будет требоваться осуществить прогноз подобного свойства для химического соединения, содержащего редкий элемент (отсутствующий в обучающей выборке), все равно будет дана разумная аппроксимация его вклада в прогнозируемое свойство.

В соответствии с вышеизложенными принципами нами было сконструировано 50 ПФД на основе как отдельных атомов, так и коротких цепочек, включающих до 5 атомов. Для их вычисления нами разработан дескрипторный блок FRAGPROP (в составе созданного нами программного комплекса NASAWIN).

Опыт работы с этим блоком показал, что добавление ПФД к «настоящим» ФД практически всегда повышают прогнозирующую способность моделей, предназначенных для прогнозирования физико-химических свойств органических соединений. Приведем в качестве примера прогнозирование трех ключевых физических свойств полимеров на основе структур мономеров при помощи статистических моделей, построенных методом БПМЛР. В Табл. 3 приведено сравнение статистических характеристик для построенных с использованием ФД моделей как с добавлением, так и без добавления ПФД.

Как видно из таблицы, ПФД позволяют в значительной степени улучшать качество моделей, построенных на основе ФД, за счет решения проблемы редких фрагментов. Следует отметить, что хотя ПФД можно применять и без ФД для построения моделей «структура-свойство», наилучшие модели всегда получаются только в сочетании с «настоящими» ФД. Поэтому их применение следует рассматривать как способ улучшения моделей, построенных на базе ФД.

Табл. 3. Статистические характеристики моделей, полученных для прогнозирования физических свойств полимеров с использованием как только ФД, так и с добавлением ПФД Kельвина); – плотность в аморфном состоянии (г/см3, 298К).

Данная глава посвящена изучению эффекта от совместного использования ИНС и ФД. На большом числе примеров проводится сравнение с линейными моделями и делается вывод о преимуществах этого сочетания.

Раздел 6.1 посвящен изложению результатов нашей первой работы по нейросетевому моделированию, опубликованной еще в 1993 г., в которой математические аппараты ИНС и пошаговой множественной линейной регрессии в сочетании с ФД и топологическими индексами (ТИ) были систематически применены для построения моделей, позволяющих прогнозировать разнообразные свойства углеводородов (главным образом, алканов). Для возможности сравнений при построении моделей одна и та же база была одинаковым образом разбита на обучающую и контрольную выборки. Результаты вычислительных экспериментов приведены в Табл. 4. В экспериментах 1-6 прогнозировалось по одному свойству (один выходной нейрон в ИНС), тогда как в моделях 7 и 8 одновременно прогнозировалось шесть различных свойств (шесть выходных нейронов) с помощью единой нейросетевой модели. Все линейно-регрессионные модели строились отдельно для каждого свойства.

Из анализа данных в Табл. 4 можно сделать следующие выводы.

1) Для углеводородов температура кипения, плавления, октановое число, критическая температура и поверхностное натяжение прогнозируются существенно лучше при использовании ИНС по сравнению с линейным регрессионном анализом. Это свидетельствует о нелинейном характере зависимости перечисленных выше свойств от рассматриваемых дескрипторов.

2) При прогнозировании молярного объема, молярной рефракции и теплоты испарения алканов предпочтительно использовать линейный регрессионный анализ по сравнению с ИНС, что свидетельствует о практически строгой линейной зависимости этих свойств от рассматриваемых дескрипторов.

3) В большинстве случаев использование ФД приводит к построению моделей с лучшей прогнозирующей способностью по сравнению с топологическими индексами.

4) Сочетание ИНС с ФД чаще всего приводит к построению моделей с наилучшей прогнозирующей способностью.

Именно этот последний вывод и послужил отправным толчком для проведения большой серии разноплановых исследований, которые и легли в основу данной диссертационной работы.

Итак, оценивая рассмотренную в данном разделе работу, можно сказать, что она во многих отношениях явилась пионерной:

прогнозирования физико-химических свойств органических соединений.

2) В ней впервые применено сочетание аппарата ИНС и ФД для прогнозирования свойств органических соединений.

3) В ней впервые было успешно применено многозадачное обучение, позволяющее одновременно осуществлять прогноз нескольких свойств в рамках одной модели.

Табл. 4. Результаты нейросетевого и линейно-регрессионного моделирования физикохимических свойств углеводородов где для алканов: bp(a) – температура кипения, 1 атм., oC; mp(a) – температура плавления, C; Vm(a) – молярный объем, см3/моль; R(a) – молярная рефракция, см3/моль; He(a) – теплота испарения, кДж/моль; Tc(a) – критическая температура, oC; Pc(a) – критическое давление, атм.; (a) – поверхностное натяжение, дин/cм; on(hc) – октановое число углеводородов (алканов, алкенов, циклоалканов); Nt – число соединений в обучающей выборке;

Nv – число соединений в контрольной выборке; R – множественный коэффициент корреляции (квадратный корень от коэффициента детерминации); st – среднеквадратичная ошибка на обучающей выборке; sv – среднеквадратичная ошибка на контрольной выборке.

В разделе 6.2 сравнивается прогнозирующая способность нейросетевых и некоторых из рассмотренных выше линейно-регрессионных моделей (см. Табл. - 27 на стр. 19), построенных, в отличие от моделей из предыдущего раздела, на выборках существенно большего размера. Эти выборки содержат разнородные органические соединения, принадлежащие разным классам. Результаты сравнения прогнозирующей способности на одних и тех же контрольных выборках представлены в Табл. 5.

Табл. 5. Точность прогноза для линейно-регрессионных и нейросетевых моделей Как видно из Табл. 5, для трех из четырех свойств (т.е. для магнитной восприимчивости, энтальпии сублимации и температуры вспышки) применение ИНС приводит к уменьшению ошибок прогноза. Что же касается энтальпии парообразования, то можно предположить, что более высокая прогнозирующая способность линейно-регрессионной модели обусловлена строгим аддитивным характером этого свойства. Это вполне согласуется с рассмотренными выше результатами, полученными для углеводородов. Таким образом, в большинстве случаев применение ИНС вместо аппарата множественной линейной регрессии приводит к улучшению прогнозирующей способности количественных моделей «структурасвойство».

Раздел 6.3 посвящен применению сочетания ИНС с ФД для моделирования ряда ключевых и технологически-важных физических свойств органических соединений, как то: температуры кипения, вязкости, плотности и давления насыщенных паров. Для этих свойств модели строились только по разнородным выборкам, содержащим представителей разных классов органических соединений.

Исследование проводилось в рамках процедуры трехвыборочного скользящего контроля, которая явилась дальнейшим развитием трехвыборочного подхода и предшественницей процедуры двойного скользящего контроля. Основная идея метода – использование процедуры скользящего контроля и ансамбля нейросетевых моделей вместо единичной модели. Это позволяет сделать прогноз и оценку его качества более обоснованным и не зависящим от конкретной разбивки базы на три выборки - обучающую, внутреннюю и внешнюю контрольные. Статистические показатели построенных моделей представлены в Табл. 6.

Как видно из Табл. 6, нейросетевые модели обладают лучшими статистическими показателями по сравнению с линейно-регрессионными моделями, причем для температуры кипения, плотности и вязкости это различие существенно. Здесь также следует отметить, что полученные нейросетевые модели по этим показателям превосходят все опубликованные ранее в литературе. В данном разделе - 28 также исследуется эффект использования ансамблей нейросетевых моделей, результатом прогноза которых является значение, получаемое путем усреднения прогнозов, выдаваемых индивидуальными моделями. В Табл. 6 также проведено сравнение двух наборов статистических показателей, первый из которых является результатом усреднения соответствующих показателей индивидуальных нейросетевых моделей, а второй описывает прогнозирующую способность их ансамбля.

Приведенные данные позволяют сделать вывод о существенных преимуществах использования ансамблей нейросетевых моделей по сравнению с индивидуальными моделями. Можно предположить, что в данном случае два основных фактора вносят вклад в это явление. Во-первых, усреднение по моделям, получаемым при разных разбивках базы данных, позволяет эффективно использовать для обучения информацию из внутренних контрольных выборок, что эквивалентно увеличению эффективного размера обучающих выборок. Во-вторых, наблюдается известное явление подавления «шума» при усреднении.

Табл. 6. Статистические показатели моделей для прогнозирования физических свойств показатели где: T кип – температура кипения; - вязкость; d – плотность; VP – давление насыщенных паров; R – коэффициент корреляции между спрогнозированными и экспериментальными значениями; RMSEt – среднеквадратичная ошибка на обучающих выборках;

RMSEv – среднеквадратичная ошибка на внутренних контрольных выборках; RMSEp среднеквадратичная ошибка на внешних контрольных выборках.

На Рис. 9 представлены диаграммы разброса, полученные для внешних контрольных выборок.

lg(Вязкости) расч.

Рис. 9. Диаграммы разброса, полученные для внешних контрольных выборок при прогнозировании: (а) температуры кипения; (б) плотности; (в) вязкости; (г) давления насыщенных паров Раздел 6.4 посвящен применению ИНС в сочетании с ФД и ПФД для прогнозирования температуры плавления ионных жидкостей, общие структуры которых приведены на Рис. 10. Были построены модели для четырех выборок, включающих: а) 126 бромидов производных пиридинов (PYR, 6 и 7); б) 384 бромида производных имидазолов и бензимидазолов (IMZ, 8 и 9); в) 207 бромидов четвертичных аммониев (QUAT, 10); г) 717 соединений, входящих во все вышеупомянутые наборы (FULL). В Табл. 7 представлены средние абсолютные ошибки прогноза полученных моделей, оцененные при помощи процедуры скользящего контроля с использованием внешних контрольных выборок. В этой же таблице приведены аналогичные показатели, полученные при применении двух линейных методов – БПМЛР и метода частичных наименьших квадратов (PLS). Как видно из таблицы, в большинстве случаев ИНС приводит к построению лучших моделей по сравнению с БПМЛР и PLS.

PYR IMZ QUAT FULL

Для того, чтобы провести объективное сравнение развиваемого нами подхода с широким набором существующих в настоящее время методов поиска количественных соотношений «структура-свойство», мы приняли участие в совместном исследовании, проведенном несколькими группами авторов, в ходе которого широкий набор современных методов машинного обучения (ассоциативные нейронные сети ASNN, машины опорных векторов SVM, метод ближайших соседей kNN, метод частичных наименьших квадратов PLS, нейронные сети обратного распространения и множественная линейная регрессия), реализованные в нескольких программных комплексах (VCCLAB, ISIDA и NASAWIN), в сочетании с разнообразными типами дескрипторов (несколько типов ФД, ПФД, дескрипторы на основе электронно-топологических состояний атомов, а также все виды дескрипторов, генерируемых программой DRAGON) были применены для моделирования температуры плавления ионных жидкостей с использованием вышеупомянутых данных. Было проведено сравнение всех построенных моделей и показано, что модели, построенные при помощи программного комплекса NASAWIN на основе ИНС/ФД, заняли первые два места наряду с ASNN/E-counts. Если учесть, что ASNN построена на основе ИНС, а дескрипторы E-counts являются фрагментными, то можно сделать вывод, что именно комбинация ИНС с ФД приводит к построению наилучших моделей для прогнозирования температуры плавления ионных жидкостей.

Глава 7. Разработка интегрированных подходов В данной главе излагаются предложенные нами подходы, которые включают разного рода интеграцию ИНС: а) с методами молекулярного моделирования;

б) с комбинацией дескрипторных описаний химических соединений и внешних условий, а также: в) между собой. Все это ведет к значительному расширению круга свойств химических соединений, поддающихся надежному прогнозированию при помощи разрабатываемых нами методов.

Раздел 7.1 посвящен совместному применению ИНС и методов молекулярного моделирования, включающих молекулярно-механические и квантовохимические расчеты. В нем отмечается, что, несмотря на большие успехи в области молекулярного моделирования, ни одна даже самая совершенная молекулярная модель не способна охватить всего комплекса взаимодействий, в которые вовлечена реальная молекулярная система, равно как и учесть эти взаимодействия с достаточно высокой точностью. Это служит серьезным препятствием к практическому применению построенных теоретических моделей. В связи с этим особую актуальность приобретает проблема соотнесения теоретически рассчитываемых характеристик молекулярных систем с проявляемыми в эксперименте свойствами.

Трудность решения этой проблемы обусловлена тем, что общий вид зависимости неучтенных в модели факторов от учитываемых молекулярных характеристик всегда является неизвестным, что является препятствием к применению стандартного аппарата математической статистики.

Генеральным направлением в решении указанной проблемы нам видится использование математического аппарата обработки данных, позволяющего выявлять любые сколь угодно сложные зависимости неизвестного вида между теоретически рассчитываемыми молекулярными характеристиками и экспериментальными данными. Именно это является как раз той самой задачей, для решения которой особенно хорошо подходят ИНС (в особенности в сочетании с ФД)! Преимущество применения ИНС заключается в их уникальной способности извлекать из эксперимента и обобщать зависимости, которые крайне трудно вывести из теоретических соображений. Поэтому аппарат ИНС является необходимым дополнением к методам молекулярного моделирования, способным резко повысить их прогнозирующую способность.

Возникает вопрос: если ИНС в сочетании с ФД могут аппроксимировать любое свойство, то зачем понадобилось их комбинировать с методами молекулярного моделирования? Все зависит от объема имеющихся экспериментальных данных (см. Табл. 8). Если данных достаточно много, то этого сочетания действительно достаточно для моделирования любого свойства. Если данных очень мало либо они вообще отсутствуют, то нейросети не могут быть обучены, поэтому для прогнозирования остаются только методы молекулярного моделирования. В промежуточной же ситуации, когда имеется определенный объем экспериментальных данных, но его недостаточно для построения нейросетевой модели на одних ФД, наилучший эффект дает интеграция молекулярного и нейросетевого моделирования. Это может быть достигнуто, например, путем использования определенных величин, вычисляемых при помощи методов молекулярного моделирования в качестве дескрипторов при построении нейросетевых моделей.

Табл. 8. Выбор метода моделирования в зависимости от объема данных Объем экспериментальных данных Предпочтительный метод моделирования Мало либо отсутствуют Молекулярное моделирование Промежуточный объем данных Сочетание молекулярного и нейросетевого положения длинноволновой полосы поглощения симметричных цианиновых красителей 11, растворенных в этаноле (работа сделана в соавторстве с А.О. Айтом).

В качестве дескрипторов брались энергии граничных молекулярных орбиталей, рассчитанные при помощи квантово-химического метода PM3, а также набор ФД, задающих тип гетероциклов. База данных была случайным образом разбита на обучающую и контрольную выборки. В Табл. 9 представлены статистические характеристики нейросетевых моделей, полученных как при наличии произвольного заместителя R6, так и при R6=H. Следует отметить, что достигнутая точность прогнозирования положения полосы поглощения значительно превосходит точность, с которой это свойство может быть предсказано с помощью прецизионных квантово-химических расчетов.

Табл. 9. Результаты нейросетевого моделирования положения длинноволновой полосы поглощения симметричных цианиновых красителей 11 в спиртовом растворе где: N – общее число соединений; R – коэффициент корреляции; RMSEt – среднеквадратичная ошибка на обучающей выборке; RMSEv – среднеквадратичная ошибка на контрольной выборке В подразделе 7.1.2 рассматривается применение ИНС для прогнозирования констант ионизации для нескольких классов органических соединений. В работе были использованы данные для 174 фенолов, 238 карбоновых кислот и 268 азотсодержащих соединений. Прежде всего, при помощи полуэмпирического квантово-химического метода PM3 нами были рассчитаны значения набора дескрипторов, описывающих электронные свойства молекул, такие, как: 1) энергии граничных орбиталей; 2) заряд на меченом атоме; 3) максимальный отрицательный заряд на атоме; 4) максимальный заряд на атоме водорода; 5) дипольный момент; 6) электрофильная, нуклеофильная и радикальная суперделокализация; 7) атомная самополяризуемость. Кроме того, нами были еще использованы ФД с «выделенными» атомами. Предварительный отбор дескрипторов проводился с помощью метода БПМЛР. Статистические характеристики полученных моделей приведены в Табл. 10.

Класс соединений Параметры моделей, построен- Параметры моделей, построенных ных с использованием только с использованием ФД и квантовохимических дескрипторов Карбоновые Азотсодержащие МЛР: R = 0.9302, s = 0.99, соединения RMSEt = 0.93, RMSEv = 1.14 RMSEt = 0.69, RMSEv = 0. где: R2 - коэффициент детерминации; RMSEt, RMSEv – среднеквадратичная ошибка на обучающей и контрольной выборке; s – стандартное отклонение.

Из анализа Табл. 10 можно сделать следующие выводы. Во-первых, применение ИНС во всех случаях приводит к получению моделей с лучшими статистическими показателями. Во-вторых, сочетание ФД с квантово-химическими дескрипторами приводит к построению моделей с лучшей прогнозирующей способностью по сравнению с использованием одних ФД.

Следующим этапом стало моделирование этого свойства для объединенной базы данных. При этом была получена модель с характеристиками: R2 = 0.9938, RMSEt = 0.34, RMSEv = 0.40. Полученные результаты показали хорошую применимость рассматриваемого нами подхода для прогнозирования данного свойства.

В подразделе 7.1.3 рассматривается моделирование мутагенной активности полициклических нитросоединений 12-20 (это исследование было осуществлено в соавторстве с С.К. Абилевым). Были использованы экспериментальные данные по мутагенной активности в штамме Salmonella typhimurium TA 1538 (hisD3052, rfa, uvr), регистрирующем мутации сдвига рамки считывания, без метаболической активации фракцией S9 печени млекопитающих.

Особенность этого исследования состоит в том, что в нем исходный набор дескрипторов формировался экспертным путем в соответствии с гипотезами о механизме действия нитроароматических соединений и эмпирическими заключениями о влиянии элементов структуры на мутагенную активность. Как известно, основным путем биотрансформации нитроаренов, приводящим к образованию мутагенных, канцерогенных и токсичных метаболитов, является восстановление нитрогруппы нитроредуктазами клетки. Способность к восстановлению нитроаренов коррелирует с таким параметром, как энергия низшей незанятой молекулярной орбитали ЕLUMO (дескриптор d1). По этой же причине были выбраны и два других квантово-химических дескриптора: максимальный заряд на атоме азота (дескриптор d2) и максимальный заряд на атоме кислорода (дескриптор d3). В качестве дескриптора d4 в модель был включен коэффициент распределения октанол-вода logP (гидрофобность), характеризующий способность молекулы достигать сайтов взаимодействия в живом организме. Поскольку мутагенная активность полициклических нитросоединений в значительной мере определяется положением нитрогруппы относительно общего бифенильного фрагмента, то в качестве ФД были выбраны: наличие нитрогруппы в пара-положении - d5; наличие аминогруппы в пара-положении - d6; наличие мета- и орто-заместителей - d7.

Моделирование проводилось как для всей выборки (54 соединения), так и для подвыборок, содержащих нитропроизводные гетероциклических аналогов полициклических углеводородов (пирена, фенантрена, флуорена) 12-19 и бифенила 20. Построение модели проводилось двумя методами: а) пошагового метода множественной линейной регрессии МЛР; б) трехслойной ИНС. Статистические показатели полученных моделей приведены в Табл. 11. Анализ приведенных в ней данных указывает на значительные преимущества нейросетевого по сравнению с линейно-регрессионным моделированием. Следует отметить, что столь большое - 35 различие мы наблюдали всегда при использовании наборов дескрипторов, сформированных экспертным путем с учетом природы моделируемого свойства. В этом случае эксперт может указать лишь на важные дескрипторы, но никак не может специфицировать точный тип функциональной зависимости от них. Именно поэтому ИНС, способные аппроксимировать произвольные зависимости заранее неизвестного вида, значительно лучше подходят для решения этой задачи.

Табл. 11. Статистические показатели нейросетевых и линейно-регрессионных моделей флуоренона где: R2 - коэффициент детерминации; RMSEt, RMSEv – среднеквадратичная ошибка на обучающей и контрольной выборке (логарифмические единицы).

В подразделе 7.1.4 рассмотрено совместное применение ИНС и методов молекулярного моделирования для прогнозирования пяти констант заместителей:

двух констант Гаммета m и p; двух констант Свейна и Лаптона - полевой F и резонансной R; стерической константы Тафта Es. Набор использованных дескрипторов включает значения энергий граничных молекулярных орбиталей, зарядов на атомах, а также теплот образования производных бензола, содержащих исследуемые заместители. Полученные низкие среднеквадратичные ошибки прогнозирования на контрольных выборках (0.13 для m, 0.16 для p, 0.14 для F, 0.15 для R, 0. для Es) свидетельствуют о работоспособности данного подхода к прогнозированию констант заместителей.

Раздел 7.2 посвящен применению ИНС для построения моделей «структураусловия-свойство». Он начинается с обоснования предложенной нами концепции построения нейросетевых моделей «структура-условия-свойство». Отмечается, что классический подход к построению моделей «структура-свойство» основан на аппроксимации зависимости исследуемого свойства от дескрипторов, описывающих структуры химических соединений, при фиксированных «стандартных» условиях, накладываемых на его измерение. Такими условиями могут являться, например, температура, давление, ионная сила раствора и т.д. Это, однако, оставляет открытым вопрос о прогнозировании этого же свойства при других условиях, а также значительно снижает объем доступных для обработки экспериментальных данных.

Поскольку, как правило, зависимость свойств химических соединений от условий, в которых они измерены, носит нелинейный характер, мы предположили, добавления характеристик внешних условий к входным данным, поступающим на вход нейросети. В качестве характеристик среды могут использоваться такие параметры, как температура, давление, концентрация, наличие того или иного растворителя, дескрипторы, характеризующие свойства растворителя, и т.д. Принцип построения моделей «структура – условия – свойство» при помощи ИНС показан на Рис. 11.

Возможность построения нейросетевых зависимостей «структура – условия – свойство» проиллюстрирована на примере моделей для физико-химических свойств углеводородов произвольной структуры, содержащих от 1 до 40 атомов углерода, а также констант скорости кислотного гидролиза сложных эфиров карбоновых кислот при различной температуре и различных составах растворителей.

В случае углеводородов строились зависимости температуры кипения от структуры (при различных значениях давления), а также динамической вязкости и плотности (при различных температурах). В этом случае для описания химической структуры углеводородов были использованы ФД, тогда как для описания условий – значения температуры либо давления. При моделировании реакции гидролиза сложных эфиров их структуры были описаны при помощи квантовохимических дескрипторов. При этом условия проведения реакции были представлены: а) температурой; б) концентрацией органического компонента бинарного растворителя (в смеси с водой); в) значениями четырех параметров, предложенных В.А. Пальмом для описания влияния реакционной среды на скорости органических реакций, как то: общей кислотностью (электрофильностью) (E); общей основностью (нуклеофильностью) (B); полярностью (Y); поляризуемостью (P). Любопытно отметить, что осуществленная позже замена квантово-химических дескрипторов на ФД с «выделенными» атомами привела к модели с несколько лучшей прогнозирующей способностью. Статистические показатели построенных моделей представлены в Табл. 12. Они свидетельствуют о работоспособности предложенного подхода к моделированию зависимостей «структура-условия-свойство»

при помощи ИНС.

Температура кипения углеводородов 14346 0.999 2.80 2. при разном давлении. ( С) Динамическая вязкость углеводородов 3426 0.990 0.14 0. при разной температуре (log сантипуазов) Плотность углеводородов при разной 3056 0.995 0.0063 0. температуре (г/см ) Константа скорости гидролиза сложных эфиров карбоновых кислот при разной температуре и разном составе растворителя Раздел 7.3 посвящен рассмотрению методов, основанных на индуктивном переносе знаний при интеграции нейросетевых моделей «структура-свойство». Он начинается с констатации того, что одним из основных факторов, препятствующих построению моделей «структура-свойство» с высокой прогнозирующей способностью, является недостаток экспериментальных данных. Одним из путей преодоления связанных с этим ограничений нам видится в том, чтобы рассматривать разнообразные свойства химических соединений в их тесной взаимосвязи, и с учетом этого строить модели «структура-свойство» не изолированными, а связанными друг с другом. В этом случае, вследствие т.н. индуктивного переноса знаний должна происходить интеграция данных, при которой объем полезной информации для каждого из свойств будет увеличен за счет эффективного использования информации, касающейся других свойств, тесно с ним связанным. Такой перенос информации возможен между моделями, расположенными внутри сети взаимосвязанных моделей как последовательно (см. подраздел 7.3.1), так и параллельно друг относительно друга (см. подраздел 7.3.2). Можно предвидеть, что в перспективе место разрозненных и независимых друг от друга моделей «структурасвойство» займет организованная в виде «химического мозга» сеть тесно связанных между собой моделей, позволяющая интегрировать внутри себя значительный объем как экспериментальных данных, так и знаний, что позволит значительно улучшить качество прогнозирования разнообразных свойств органических соединений.

В подразделе 7.3.1 рассматривается последовательный способ интеграции нейросетевых моделей на основе предложенного нами многоуровневого принципа построения моделей «структура-свойство», суть которого заключается в следующем. Прогнозирование свойств органических соединений проводится в рамках фрагментного подхода, однако вместо изолированных одноуровневых моделей прогнозируемых свойств, предлагается использовать организованную в виде нескольких слоев сеть моделей. Выходы моделей предыдущих слоев являются входами для моделей последующих (см. Рис. 13). В этом случае многоуровневая организация дает возможность проводить индуктивный перенос знаний от моделей предыдущего слоя к моделям последующего, что должно приводить к улучшению качества последних.

То, что при многоуровневом подходе происходит индуктивный перенос знаний, нами продемонстрировано на двух примерах. Первый из них касается моделирования коэффициента сорбции органических соединений в почве, второй – растворимости фуллерена С60 в органических растворителях. Построение моделей проводилось при помощи ИНС и ФД в рамках одноуровневого и многоуровневого подхода. В последнем случае были предварительно построены на том же наборе ФД промежуточные модели первого уровня, позволяющие прогнозировать значения липофильности log P и четырех констант Абрахама A, B, E и S, характеризующих, соответственно, кислотность и основность по отношению к образованию водородной связи, избыточную молярную рефракцию и диполярность/поляризуемость. Результаты прогноза первого уровня были после этого использованы в качестве дескрипторов при построении моделей второго уровня. В Табл. 13 представлены статистические характеристики промежуточных моделей первого уровня, а в Табл. 14 – целевых моделей второго уровня. Приведенные в последней таблице данные свидетельствуют о значительном улучшении прогнозирующей способности целевых моделей за счет индуктивного переноса знаний, полученных при формировании промежуточных моделей первого уровня.

Табл. 13. Статистические характеристики моделей «структура-свойство» первого уровня Табл. 14. Сравнительные статистические характеристики моделей «структура-свойство», полученных в рамках одноуровневого и многоуровневого подходов Свойство

Q DCV RMSEDCV RMSEDCV

Логарифм коэффициента сорбции в почве лерена C Подраздел 7.3.2 посвящен рассмотрению параллельного принципа интеграции нейросетевых моделей «структура-свойство» в рамках т.н. многозадачного обучения, когда проводится одновременное построение моделей, связь между которыми осуществляется за счет использования общих промежуточных данных (см. Рис. 14). При построении моделей «структура-свойство» многозадачное обучение может быть осуществлено, например, при помощи многослойной ИНС, имеющей несколько выходных нейронов по числу одновременно моделируемых свойств, причем индуктивный перенос знаний между моделями осуществляется за счет совместного использования промежуточных данных, формируемых на общем скрытом слое нейронов.

Рис. 14. Многозадачное обучение, при котором проводится одновременное построение взаимосвязанных моделей. Обмен информацией между моделями происходит за счет формирования единого внутреннего - 40 Впервые принципиальная возможность построения взаимосвязанных моделей «структура-свойство» была продемонстрирована нами еще в 1993 г. на примере ИНС с шестью выходами, способной одновременно предсказывать шесть физических свойств алканов (см. раздел 6.1). Поскольку исследование было проведено до появления первых математических работ по многозадачному обучению, мы не предпринимали попыток систематического изучения того, какой эффект дает его применение по сравнению с однозадачным обучением (см. Рис. 13), при котором каждое из свойств прогнозируется изолированной нейросетью с одним выходом.

Подобное систематическое изучение было предпринято в нашей недавней работе по прогнозированию 11 констант распределения «ткань-воздух», которая была осуществлена совместно с несколькими группами авторов. В этой работе для получения моделей «структура-свойство» использовались ИНС с ФД. Полученные результаты наглядно представлены в виде изображенной на Рис. 15 диаграммы, показывающей зависимость повышения параметра Q2 от размера выборки при переходе от однозадачного к многозадачному обучению. На диаграмме виден четкий тренд, показывающий, что с уменьшением размера выборки происходит резкое увеличение прогнозирующей способности моделей при переходе к многозадачному обучению за счет индуктивного переноса знаний.

Раздел 7.4 посвящен описанию разработанного нами нейронного устройства для проведения прямых корреляций «структура-свойство». При его применении не требуется предварительного вычисления каких-либо молекулярных дескрипторов. Его универсальная аппроксимирующая способность обеспечивается сочетанием ИНС с ФД либо ПФД, однако вместо использования предварительно отобранных дескрипторов, набор которых, скорее всего, является неоптимальным, происходит направленное «извлечение» наиболее ценных для построения моделей «структура-свойство» дескрипторов непосредственно из первичного описания молекул в виде графа. Эти дескрипторы формируются промежуточно в процессе работы нейронного устройства и не видны извне. На Рис. 16 представлена принципиальная схема нейронного устройства. Работоспособность его проверена на ряде примеров (см. Табл. 15). Во всех случаях подтверждена высокая прогнозирующая способность построенных моделей.

- 41 Рис. 16. Принципиальная схема нейронного устройства для осуществления прямых корреляций «структурасвойство». Предлагаемое устройство «мозг», осуществляющий с их помощью предсказание свойств органических соединений. Набор ИНС, занимающихся формированием промежуточных ФД одного типа, объединены в «глаза».

Табл. 15. Результаты применения нейронного устройства при построении корреляций давлении, град Теплота сольватации в циклогексане, разнообразные 0.980 1.77 2. кДж/моль Анестетическое давление газов, лог.ед. разнообразные 0.980 0.18 0. (log(1/p)) Данная глава посвящена рассмотрению разработанных в рамках диссертационной работы программных средств, центральным из которых является программный комплекс NASAWIN. Указанный комплекс позволяет в полном объеме осуществить весь цикл работ по построению моделей «структура-свойство», и с - 42 их помощью осуществлять прогнозирование самых разнообразных свойств органических соединений. Именно на нем была осуществлена большая часть рассмотренных выше исследований. Основные компоненты комплекса: управляющая программа, набор дескрипторных блоков (программных компонент, позволяющих вычислять разнообразные молекулярные дескрипторы), автономная программа для прогнозирования свойств органических соединений и набор утилит. Общий объем программных средств – более 150,000 строк программного кода.

Раздел 8.1 содержит подробное описание истории создания программных средств, использованных на разных этапах выполнения диссертационной работы, большинство из которых в настоящее время включено в состав комплекса NASAWIN.

Раздел 8.2 содержит описание центрального звена этого комплекса – управляющей программы, в которую интегрировано множество средств статистического анализа химических данных. Центральное место в них принадлежит многослойным ИНС. С помощью этой программы можно:

1) загружать и просматривать базы данных, содержащие структуры химических соединений и их свойства;

2) вычислять наборы дескрипторов, описывающих химические структуры, и отбирать наиболее значимые;

3) выявлять и интерпретировать количественные зависимости между значениями дескрипторов и свойств химических соединений;

4) статистически оценивать полученные модели;

5) определять области применимости моделей;

6) использовать полученные нейросетевые модели для прогнозирования свойств химических соединений.

Раздел 8.3 содержит описание дескрипторного блока Fragment, позволяющего рассчитывать ФД в соответствии с методологией, изложенной выше в разделе 5.1.

Раздел 8.4 содержит описание дескрипторного блока FragProp, осуществляющего расчет 50 ПФД (см. раздел 5.4).

Раздел 8.5 содержит описание автономной программы, для прогнозирования свойств органических соединений с помощью нейросетевых моделей, построенных при помощи NASAWIN.

1. Теоретически обоснован и разработан универсальный подход к прогнозированию свойств органических соединений на основе комбинированного использования искусственных нейронных сетей и фрагментных дескрипторов.

2. В рамках развития нейросетевых подходов разработаны: а) трехвыборочный подход и на его основе - процедуры трехвыборочного и двойного скользящего контроля, позволяющие эффективно предотвращать «переучивание» нейросетей и объективно оценивать прогнозирующую способность нейросетевых - 43 моделей; б) статистический метод быстрой пошаговой множественной линейной регрессии, позволяющий эффективно осуществлять отбор дескрипторов для построения нейросетевых моделей; в) метод интерпретации нейросетевых регрессионных моделей, позволяющий описывать характер найденных зависимостей; г) концепция «обучаемой симметрии», позволяющая улучшать прогнозирующую способность моделей «структура-свойство» за счет корректного учета в них свойств симметрии.

3. В рамках развития фрагментных подходов разработаны: а) иерархическая система классификации типов атомов, входящих в состав фрагментов, а также структура и алгоритм генерации фрагментных дескрипторов, ориентированных на прогнозирование свойств органических соединений; б) концепция фрагментов с «выделенными» атомами, позволяющая прогнозировать: локальные свойства органических соединений; константы заместителей и скоростей реакций; свойства полимерных и супрамолекулярных соединений;

биологическую активность внутри рядов органических соединений с учетом стереохимической информации; в) концепция псевдофрагментных дескрипторов как средство повышения прогнозирующей способности моделей «структура-свойство» за счет решения проблемы «редких» фрагментов.

4. В рамках развития интегрированных подходов разработаны: а) методы интеграции нейросетевого и молекулярного моделирования, ведущие к значительному улучшению прогнозирующей способности построенных моделей;

б) концепция построения нейросетевых моделей «структура-условиясвойство», позволяющая прогнозировать разнообразные свойства и реакционную способность органических соединений при различных внешних условиях; в) методы объединения нейросетевых моделей на основе концепций многоуровнего и многозадачного обучения, позволяющие повышать прогнозирующую способность моделей за счет интеграции разнородных экспериментальных данных; г) концепция проведения прямых корреляций «структура-свойство» и на ее основе специальные архитектуры нейронных сетей, позволяющие осуществлять прогнозирование свойств органических соединений непосредственно из описания молекулярного графа без предварителного вычисления молекулярных дескрипторов.

5. Разработан программный комплекс, позволяющий в полном объеме осуществить весь цикл работ по построению моделей «структура-свойство» и «структура-условия-свойство», и с их помощью осуществлять прогнозирование самых разнообразных свойств органических соединений.

6. Построены модели для прогнозирования 62 разнообразных свойств органических соединений: а) температуры кипения и плавления, молярного объема, молярной рефракции, теплоты испарения, критической температуры, критического давления и поверхностного натяжения алканов; б) октанового числа, вязкости, теплоты испарения и плотности углеводородов; в) динамической вязкости и плотности углеводородов при разной температуре; г) температуры магнитной восприимчивости, энтальпии сублимации, энтальпии парообразования, температуры вспышки, теплоты сольватации в циклогексане, анестетического давления газов, липофильности, значений 4 констант Абрахама, коэффициента сорбции в почве и растворимости фуллерена C60 для разнообразных соединений, принадлежащих к разным классам; д) констант ионизации фенолов, карбоновых кислот и азотсодержащих соединений; е) положения длинноволновой полосы поглощения спиртового раствора симметричных цианиновых красителей; ж) энтальпии образования алифатических полинитросоединений; з) сродства азо- и антрахиноновых красителей к целлюлозному волокну; и) химических сдвигов в 31P ЯМР спектрах производных монофосфинов; й) температуры плавления ионных жидкостей, представляющих собой бромиды производных пиридинов, имидазолов, бензимидазолов и четвертичных солей аммония; к) показателя преломления, плотности и температуры стеклования аморфных полимеров; л) константы скорости гидролиза сложных эфиров карбоновых кислот при разной температуре и разном составе растворителя; м) констант заместителей m, p, F, R, Es; н) 11 констант распределения «ткань-воздух» для произвольных органических соединений; о) мутагенной активности нитропроизводных гетероциклических аналогов полициклических углеводородов и бифенила; п) блокирующей способности дигидропиридинов по отношению к ионным каналам L-типа; р) галлюциногенной активности фенилалкиламинов; с) способности аналогов HEPT ингибировать обратную транскриптазу вируса ВИЧ-1; т) эмбриотоксичности синтетических аналогов биогенных аминов.

Основное содержание диссертации изложено в опубликованных работах.

Статьи в журналах, рекомендованных ВАК РФ для публикации основных результатов докторской диссертации:

1. Зефиров Н.С., Баскин И.И., Трач С.С. Универсальная программа машинной графики для целей органической химии. // Журн. Всес. хим. о-ва им. Д.И. Менделеева. – 1987. - Т. 32, № 1. - C. 112-113.

2. Станкевич М.И., Баскин И.И., Зефиров Н.С. Автоматизированный поиск структурных фрагментов. Алгоритм и программа. // Журн. структ. химии. – 1987. - Т.

28, № 6. - С. 136-137.

3. Баскин И.И., Станкевич М.И., Девдариани Р.О., Зефиров Н.С. Комплекс программ для нахождения корреляций «структура-свойство» на основе топологических индексов. // Журн. структ. химии. – 1989. - № 6. - С. 145-147.

4. Баскин И.И., Палюлин В.А., Зефиров Н.С. Вычислительные нейронные сети как альтернатива линейному регрессионному анализу при изучении количественных соотношений «структура-свойство» на примере физико-химических свойств углеводородов. // Докл. РАН. – 1993. - Т. 332, № 6. - С. 713-716.

- 45 Баскин И.И., Палюлин В.А., Зефиров Н.С. Методология поиска прямых корреляций между структурами и свойствами органических соединений при помощи вычислительных нейронных сетей. // Докл. РАН. – 1993. - Т. 333, № 2. - С. 176Баскин И.И., Любимова И.К., Абилев С.К., Зефиров Н.С. Исследование количественной связи между мутагенной активностью химических соединений и их структурой. Замещенные бифенилы. // Докл. РАН. – 1993. - Т. 332, № 5. - С.

587-589.



Pages:     || 2 |


Похожие работы:

«Невинская Екатерина Валерьевна СИСТЕМООБРАЗУЮЩАЯ ФУНКЦИЯ КОНСТИТУЦИИ РОССИЙСКОЙ ФЕДЕРАЦИИ Специальность: 12.00.02 – конституционное право; муниципальное право АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата юридических наук Екатеринбург – 2008 2 Работа выполнена на кафедре конституционного права государственного образовательного учреждения высшего профессионального образования Уральская государственная юридическая академия Научный Кокотов Александр Николаевич,...»

«КУЗЬМЕНКО ТАТЬЯНА ВЛАДИМИРОВНА ОЦЕНКА БИЗНЕС-ИМИДЖА ТЕРРИТОРИИ В СИСТЕМЕ РЕГИОНАЛЬНОЙ ЭКОНОМИЧЕСКОЙ ПОЛИТИКИ (на материалах Ставропольского края) Специальность 08.00.05 - Экономика и управление народным хозяйством: региональная экономика АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата экономических наук Ставрополь - 2007 2 Работа выполнена в ГОУ ВПО Северо-Кавказский государственный технический университет Научный руководитель : кандидат экономических наук,...»

«УДК: 797.25 Шмелёва Лариса Валентиновна СРЕДСТВА И МЕТОДЫ УПРАВЛЕНИЯ ПРОЦЕССОМ ПОДГОТОВКИ ВЫСОКОКВАЛИФИЦИРОВАННЫХ ВАТЕРПОЛИСТОК Специальность: 13.00.04 – теория и методика физического воспитания, спортивной тренировки, оздоровительной и адаптивной физической культуры АВТОРЕФЕРАТ на соискание учёной степени кандидата педагогических наук САНКТ-ПЕТЕРБУРГ 2003 Работа выполнена в отделе теории и методики спортивной тренировки и оздоровительной физической культуры...»

«Григорьев Алексей Николаевич ЗАКЛЮЧЕНИЯ КАК ФОРМЫ ВЫРАЖЕНИЯ МНЕНИЙ ОТДЕЛЬНЫХ УЧАСТНИКОВ ГРАЖДАНСКОГО СУДОПРОИЗВОДСТВА 12.00.15 – гражданский процесс, арбитражный процесс АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата юридических наук Саратов – 2011 2 Работа выполнена в Государственном образовательном учреждении высшего профессионального образования Саратовская государственная академия права. доктор юридических наук, профессор Научный руководитель : Исаенкова...»

«Седельников Михаил Валерьевич ВЗАИМОВЛИЯНИЕ ПОЛИТИЧЕСКОГО РЕЖИМА И НАУЧНОТЕХНИЧЕСКОГО ПРОГРЕССА: СОЦИАЛЬНО-ФИЛОСОФСКИЙ АНАЛИЗ Специальность 09.00.11 – Социальная философия АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата философских наук Красноярск – 2012 Работа выполнена на кафедре гражданского права и процесса филиала ФГБОУ ВПО Российский государственный социальный университет в г. Красноярске. доктор философских наук, профессор Научный руководитель : Аникевич...»

«УДК 37.013 АБРАУХОВА Валентина Владимировна РАЗВИТИЕ ТВОРЧЕСКОЙ НАПРАВЛЕННОСТИ ЛИЧНОСТИ ВОСПИТАННИКОВ УЧРЕЖДЕНИЙ ДОПОЛНИТЕЛЬНОГО ОБРАЗОВАНИЯ 13.00.01 – общая педагогика, история педагогики и образования АВТОРЕФЕРАТ диссертации на соискание ученой степени доктора педагогических наук Пятигорск-2012 Работа выполнена в Федеральном государственном автономном образовательном учреждении ВПО Южный федеральный университет Официальные оппоненты : Белогуров Анатолий Юльевич, доктор...»

«КУЗНЕЦОВА Ирина Сергеевна ПРОГНОЗИРОВАНИЕ И РАННЯЯ ДИАГНОСТИКА ПРОГРЕССИРОВАНИЯ ПРОЛИФЕРАТИВНОЙ ВИТРЕОРЕТИНОПАТИИ ПОСЛЕ УСПЕШНОГО ХИРУРГИЧЕСКОГО ЛЕЧЕНИЯ РЕГМАТОГЕННОЙ ОТСЛОЙКИ СЕТЧАТКИ 14.01.07 – глазные болезни Автореферат диссертации на соискание ученой степени кандидата медицинских наук Москва – 2012 Работа выполнена в ФГБУ Московский научно-исследовательский институт глазных болезней им. Гельмгольца Минздравсоцразвития России (директор – Заслуженный деятель науки РФ,...»

«Ишков Виталий Никитич ВСПЛЫВАЮЩИЕ МАГНИТНЫЕ ПОТОКИ И ВСПЫШЕЧНЫЕ ЯВЛЕНИЯ НА СОЛНЦЕ 01.03.03 – физика Солнца АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Троицк – 2008 Работа выполнена в Учреждении Российской академии наук Институте земного магнетизма, ионосферы и распространения радиоволн им. Н.В. Пушкова РАН (ИЗМИРАН) Научный руководитель :доктор физико-математических наук, профессор Могилевский Мендель Азрилевич Официальные...»

«СМОЛЬЯНОВ Максим Сергеевич ЮРИДИЧЕСКАЯ ПРОЦЕДУРА КАК ГАРАНТИЯ ПРАВ ЧЕЛОВЕКА Специальность: 12.00.01- теория и история права и государства; история учений о праве и государстве Авто ре фе ра т диссертации на соискание ученой степени кандидата юридических наук Москва, 2011 1 Работа выполнена в секторе теории права и государства Учреждения Российской академии наук Института государства и права РАН. Научный руководитель : кандидат юридических наук, доцент Лукьянова Елена...»

«КУЗНЕЦОВА Алина Александровна УДК 681.518.3(04)+616.1-07(04) АВТОМАТИЗИРОВАННОЕ УСТРОЙСТВО КОНТРОЛЯ ТРОПОНИНА Специальность: 05.11.13 – Приборы и методы контроля природной среды, веществ, материалов и изделий Автореферат диссертации на соискание ученой степени кандидата технических наук Ижевск 2009 Работа выполнена в ГОУ ВПО Ижевский государственный технический университет (ИжГТУ) Научный руководитель : доктор физико-математических наук, профессор ГОУ ВПО ИжГТУ Загребин...»

«Солодский Сергей Анатольевич РАЗРАБОТКА АВТОМАТИЗИРОВАННОЙ СИСТЕМЫ ДЛЯ СВАРКИ В СО2 С ИМПУЛЬСНОЙ ПОДАЧЕЙ ПРОВОЛОКИ И МОДУЛЯЦИЕЙ СВАРОЧНОГО ТОКА Специальность 05.02.10 – Сварка, родственные процессы и технологии Автореферат диссертации на соискание ученой степени кандидата технических наук Челябинск 2010 2 Работа выполнена на кафедре Сварочного производства Юргинского технологического института (филиала) Томского политехнического университета. Научный руководитель – Доктор...»

«Сюбаева Венера Тахировна СИНТЕЗ И ИССЛЕДОВАНИЕ ЛИНЕЙНЫХ И РАЗВЕТВЛЕННЫХ СОПОЛИМЕРОВ НА ОСНОВЕ ПОЛИ-L-ЛАКТИДА 02.00.06 – Высокомолекулярные соединения АВТОРЕФЕРАТ диссертация на соискание ученой степени кандидата химических наук Москва – 2007 год www.sp-department.ru Работа выполнена на кафедре аналитической, физической и коллоидной химии Московского государственного текстильного университета имени А.Н.Косыгина и в Институте элементоорганических соединений имени А.Н.Несмеянова...»

«УДК616.345:(616.33+616.329)-002.44(615.32+615.37) Черёмушкина Наталья Васильевна Особенности метаболизма оксида азота при гастроэзофагеальной рефлюксной болезни 14.00.05 - Внутренние болезни Автореферат диссертации на соискание ученой степени кандидата медицинских наук Москва - 2008 Работа выполнена в ГОУ ВПО Московский государственный медикостоматологический университет Росздрава Научный руководитель : доктор медицинских наук, Маев Игорь Вениаминович профессор Официальные...»

«Сметанников Александр Евгеньевич Процессуальный режим деятельности апелляционной инстанции в арбитражном процессе Специальность 12.00.15 – гражданский процесс; арбитражный процесс АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата юридических наук Томск – 2006 Paбoтa выполнена на кафедре гражданского процесса Юридического института Томского государственного университета. Научный руководитель Заслуженный юрист РФ, кандидат юридических наук, доцент Скутин Александр...»

«Добржицкий Алексей Александрович Разработка рецептуры, технология получения майонеза с применением льняной муки в качестве стабилизатора Шифр и наименование специальности: 05.18.06 – Технология жиров, эфирных масел и парфюмерно-косметических продуктов (технические наук и) АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Москва, 2013 Работа выполнена на кафедре Технология продуктов питания и экспертиза товаров ФГБОУ ВПО Московский государственный...»

«Хаминова Анастасия Алексеевна ТВОРЧЕСКОЕ НАСЛЕДИЕ В. Ф. ОДОЕВСКОГО В АСПЕКТЕ ИНТЕРМЕДИАЛЬНОГО АНАЛИЗА Специальность 10.01.01 – русская литература Автореферат диссертации на соискание ученой степени кандидата филологических наук Томск – 2011 Работа выполнена на кафедре общего литературоведения, издательского дела и редактирования ФГБОУ ВПО Национальный исследовательский Томский государственный университет Научный руководитель : доктор филологических наук, профессор Ирина...»

«Попова Диана Григорьевна Детские социальные учреждения: особенности гражданско-правового регулирования их деятельности Специальность 12.00.03 – гражданское право; предпринимательское право; семейное право; международное частное право Автореферат диссертации на соискание ученой степени кандидата юридических наук Томск – 2013 2 Работа выполнена в федеральном государственном бюджетном образовательном учреждении высшего профессионального образования Национальный исследовательский...»

«Лапердин Вячеслав Борисович РАЗВИТИЕ НАСЕЛЕНИЯ ЗАПАДНОЙ СИБИРИ В ПОСЛЕВОЕННЫЕ ГОДЫ (1946–1950 гг.) Специальность 07.00.02 – Отечественная история Автореферат диссертации на соискание ученой степени кандидата исторических наук Новосибирск 2013 Работа выполнена в секторе историко-демографических исследований ФГБУН Институт истории Сибирского отделения РАН Научный руководитель : доктор исторических наук Владимир Анатольевич Исупов Официальные оппоненты : доктор исторических наук...»

«ПОПРЫГА Дмитрий Викторович ЗАКОНОМЕРНОСТИ ИЗМЕНЧИВОСТИ МОРФОМЕТРИЧЕСКИХ ПАРАМЕТРОВ И БИОМЕХАНИЧЕСКИХ СВОЙСТВ КОСТЕЙ ГОЛЕНИ 14.03.01 – анатомия человека АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата медицинских наук Саратов – 2013 Работа выполнена в Государственном бюджетном образовательном учреждении высшего профессионального образования Саратовский государственный медицинский университет имени В.И. Разумовского Министерства здравоохранения Российской...»

«Денисова Марина Николаевна ГИДРОТРОПНАЯ ДЕЛИГНИФИКАЦИЯ НЕДРЕВЕСНОГО СЫРЬЯ Специальность 05.21.03 – Технология и оборудование химической переработки биомассы дерева; химия древесины Автореферат диссертации на соискание ученой степени кандидата технических наук Красноярск, 2014 Работа выполнена в Федеральном государственном бюджетном учреждении науки Институте проблем химико-энергетических технологий Сибирского отделения Российской академии наук (ИПХЭТ СО РАН), г. Бийск Научный...»






 
2014 www.av.disus.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.