WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

На правах рукописи

БАСКИН Игорь Иосифович

МОДЕЛИРОВАНИЕ СВОЙСТВ ХИМИЧЕСКИХ СОЕДИНЕНИЙ С

ИСПОЛЬЗОВАНИЕМ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ И

ФРАГМЕНТНЫХ ДЕСКРИПТОРОВ

02.00.17 – математическая и квантовая химия

ДИССЕРТАЦИЯ

на соискание ученой степени доктора физико-математических наук

Москва – 2009

СОДЕРЖАНИЕ

Содержание

Введение

Глава 1. Искусственные нейронные сети

1.1. Введение

1.2. Основные принципы нейросетевого моделирования

1.2.1. Общая терминология

1.2.2. Нейрон МакКаллока-Питтса

1.2.3. Персептрон Розенблатта

1.2.4. Нейросети обратного распространения (backpropagation)

1.2.5. Другие архитектуры нейронных сетей

1.3. Основные принципы применения искусственных нейронных сетей для прогнозирования свойств химических соединенй

1.4. Ограничения искусственных нейронных сетей

Глава 2. Фрагментные дескрипторы в поиске зависимостей структура-свойство

2.1. История фрагментных дескрипторов

2.2. Типы фрагментных дескрипторов

2.2.1. Классификация по типам молекулярных графов

2.2.2. Классификация по типам молекулярны структур

2.2.3. Классификация по типам значений дескрипторов

2.2.4, Класификация по типам дескрипторных наборов

2.2.5. Классификация по связности фрагментов

2.2.6. Классификация по уровням детализации молекулярных графов.............. 2.2.7. Фрагментные дескрипторы с выделенными атомами

2.3. Ограничения фрагментных дескрипторов

Глава 3. Математическое обоснование выбранного подхода

3.1. Химическая значимость поиска базиса инвариантов помеченных графов 3.2. Две основные теоремы о базисе инвариантов графов

3.3. Теоретические основы сочетания искусственных нейронных сетей и фрагментных дескрипторов

Глава 4. Разработка нейросетевых подходов

4.1. Подход к решению проблемы «переучивания» нейронных сетей.............. 4.1.1. Суть эффекта «переучивания» нейросетей

4.1.2. Методы предотвращения «переучивания» нейросетей

4.1.3. Трехвыборочный подход

4.1.4. Процедура двойного скользящего контроля

4.1.5. Быстрая пошаговая множественная линейная регрессия

4.2. Подход к интерпретации нейросетевых моделей

4.3. Концепция обучаемой симметрии

Глава 5. Разработка фрагментных подходов

5.1. Принципы построения и генерации фрагментных дескрипторов.............. 5.1.1. Типы фрагментов

5.1.2. Иерархическая классификация атомов во фрагментах

5.1.3. Построение фрагментного дескриптора

5.1.4. Генерация кодов фрагментов с обобщенными типами атомов................ 5.1.5. Алгоритм генерации фрагментных дескрипторов

5.2. Примеры прогнозирования физико-химических свойств органических соединений с использованием фрагментных дескрипторов и линейнорегрессионных моделей

5.2.1. Прогнозирование поляризуемости органических соединений................ 5.2.2. Прогнозирование энтальпий образования алифатических полинитросоединений

5.2.3. Прогнозирование магнитной восприимчивости органических соединений

5.2.4. Прогнозирование энтальпии парообразования органических соединений

5.2.5. Прогнозирование энтальпии сублимации органических соединений..... 5.2.6. Прогнозирование температуры вспышки органических соединений..... 5.2.7. Прогнозирование сродства азо- и антрахиноновых красителей к целлюлозному волокну

5.3. Фрагментные дескрипторы с «выделенными» атомами

5.3.1. Прогнозирование химических сдвигов в 31P ЯМР спектрах замещенных монофосфинов

5.3.2. Прогнозирование способности аналогов 1-[(2-гидроксиэтокси)-метил]– 6(фенилтио)тимина (HEPT) ингибировать обратную транскриптазу вируса ВИЧ-1

5.3.3. Прогнозирование констант скорости гидролиза эфиров карбоновых кислот

5.4. Псевдофрагментные подходы. FRAGPROP. Прогнозирование физических свойств полимеров

Глава 6. Сочетание искусственных нейронных сетей и фрагментных дескрипторов

6.1. Первые свидетельства эффективности совместного использования искусственных нейронных сетей и фрагментных дескрипторов

6.2. Прогнозирование физико-химических свойств органических соединений с использованием фрагментных дескрипторов и нейросетевых моделей ........... 6.3. Моделирование физических свойств органических жидкостей в рамках процедуры трехвыборочного скользящего контроля

6.3.1. Общая методология моделирования

6.3.2. Моделирование вязкости органических соединений

6.3.3. Моделирование плотности жидких органических соединений............... 6.3.4. Моделирование давления насыщенных паров

6.3.5. Моделирование температуры кипения разнородных органических соединений

6.4. Прогнозирование температуры плавления ионных жидкостей.................. Глава 7. Разработка интегрированных подходов



7.1. Совместное применение методологии искусственных нейронных сетей и методов молекулярного моделирования

7.1.1. Предсказание положения длинноволновой полосы поглощения симметричных цианиновых красителей.

7.1.2. Оценка значений констант ионизации для различных классов органических соединений

7.1.3. Моделирование мутагенной активности замещенных полициклических нитросоединений с помощью искусственных нейронных сетей

7.1.4. Прогнозирование констант заместителей с использованием искусственных нейронных сетей и квантово-химических дескрипторов......... 7.2. Корреляции структура-условия-свойство

7.2.1. Концепция построения нейросетевых зависимостей структура – условия – свойство

7.2.2. Построение и анализ нейросетевых зависимостей структура-условиесвойство для физико-химических свойств углеводородов

7.2.3. Построение и анализ нейросетевых зависимостей структура – условия реакции – константы скорости для реакции кислотного гидролиза сложных эфиров карбоновых кислот

7.3. Индуктивный перенос знаний при интеграции моделей «структурасвойство»

7.3.1. Многоуровневый принцип построения моделей «структура-свойство» 7.3.2. Параллельный принцип построения моделей «структура-свойство».

Многозадачное обучение.

7.4. Нейронное устройство для проведения прямых корреляций «структурасвойство»

7.4.1. Введение

7.4.2. Описание нейронного устройства

7.4.3. Примеры разных конфигураций нейронного устройства

7.4.4. Применение нейронного устройства в исследованиях «структурасвойство» для органических соединений

7.4.5. Выводы

Глава 8. Разработка программных средств

8.1. История разработки программных средств

8.2. Программный комплекс «NASAWIN»

8.2.1. Представление химической информации

8.2.2. Интеграция с программными компонентами, осуществляющими расчет дескрипторов химических структур

8.2.3. Химически-ориентированная визуализация

8.2.4. Модификация дескрипторов и свойств

8.2.5. Предварительный отбор дескрипторов

8.2.6. Построение классификационных моделей структура-активность.......... 8.2.7. Нейросетевые парадигмы

8.2.8. Интерпретация нейросетевых моделей

8.2.9. Отбор дескрипторов в ходе обучения нейросети

8.2.10. Определение момента начала «переучивания» нейросети

8.2.11. Кластеризация баз данных

8.2.12. Динамическая визуализация хода обучения нейросети

8.2.13. Определение области применимости модели

8.2.14. Химически-ориентированный блок прогноза

8.3. Дескрипторный блок «FRAGMENT»

8.4. Дескрипторный блок «FRAGPROP»

8.5. Автономные прогнозаторы свойств органических соединений................. Выводы

Литература

Благодарности

Список обозначений и сокращений

ВВЕДЕНИЕ

На современном этапе развития химии, когда накоплен и организован в виде электронных баз данных огромный объем экспериментальных данных, особое внимание уделяется компьютерным методам обработки характеристик уже исследованных веществ с целью предсказания свойств, которыми обладают еще не исследованные соединения либо которыми будут обладать новые, еще не синтезированные вещества. Это, в свою очередь, открывает большие перспективы в решении одной из главных задач химической науки - целенаправленной разработке новых веществ и материалов с заранее заданными свойствами.

Тем не менее, несмотря на актуальность этой задачи, до последнего времени отсутствовала универсальная, строго обоснованная и, в то же время, легкая для понимания методология, которая позволила бы химику на основе обработки экспериментальных данных осуществлять прогнозирование всевозможных свойств химических соединений. Главной целью настоящей диссертационной работы была разработка универсальной методологии, позволяющей с единых позиций прогнозировать самые разнообразные свойства органических соединений на основе обработки эмпирических данных. В данной работе сначала математически обоснован, а потом и на множестве примеров проиллюстрировали центральный тезис диссертационной работы – такой универсальной методологией является сочетание многослойных искусственных нейронных сетей и фрагментных дескрипторов.

Искусственные нейронные сети в настоящее время являются одним из наиболее широко применяемых методов для восстановления по экспериментальным данным как разнообразных количественных зависимостей, так и для проведения качественной классификации. Благодаря уникальной возможности осуществлять построение нелинейных моделей любого уровня сложности, особенно в тех случаях, когда неизвестен общий вид аналитической зависимости, нейронные сети нашли широкое применение в рамках поиска зависимостей между структурами органических соединений и их физико-химическими свойствами (QSPR) и биологической активностью (QSAR).

Несмотря на широкое использование искусственных нейросетей для получения зависимостей структура – свойство, до настоящего времени не существовало универсального программного комплекса, реализующего все необходимые этапы построения моделей и позволяющего исследователям-химикам комплексно, с учетом особенностей работы со структурной информацией, применять методологию нейронных сетей. Именно разработка такого программного комплекса, реализующего универсальную методологию построения моделей, предназначенных для количественного прогнозирования разнообразных свойства органических соединений на базе сочетания многослойных нейронных сетей и фрагментных дескрипторов, а также его апробация на различных примерах, и составляла важнейшую задачу диссертационной работы.

Следует отметить, что на период начала работы отсутствовало понимание основных принципов работы с нейронными сетями для построения QSAR/QSPR-моделей. В частности, не было ясно, как лучше всего предотвращать «переучивание» нейросетей, как объективно оценивать прогнозирующую способность полученных моделей, а также как эффективно отбирать дескрипторы для их построения, как их использовать для определения области применимости моделей. Кроме того, в рамках методологии QSAR/QSPR практически не предпринималось попыток учета влияния внешних условий (таких, например, как температура, давление, концентрация вещества, наличие и свойства того или иного растворителя и т.п.) на исследуемые свойства, а также прогнозировать свойства многокомпонентных систем. Не было также ясно, как применять аппарат нейронных сетей в сочетании с техникой молекулярного моделирования. Кроме того, ранее не существовало методов, позволяющих давать понятную химикам интерпретацию нейросетевым регрессионным моделям. На эти и ряд других важных вопросов, связанных с применением нейросетей для построения QSARQSPR-моделей, дан ответ в данной работе.

Следующая важная часть работы связана с разработкой универсального набора фрагментных дескрипторов, которые могли бы служить для как можно более точного прогнозирования самых разнообразных свойств органических и металлоорганических соединений. Кроме специального дизайна самих дескрипторов, основанного на иерархической классификации типов атомов, эта цель была достигнута путем введения «выделенных» атомов, благодаря которым фрагментные дескрипторы удалось распространить на прогнозирование локальных свойств атомов в органических соединениях, кинетических констант органических реакций, физических свойств полимеров, а также на количественное прогнозирование биологической активности внутри рядов соединений.

Кроме того, при помощи «выделенных» атомов можно преодолеть один из недостатков большинства фрагментных дескрипторов – игнорирование стереохимической информации.

Для преодоления другого недостатка фрагментных дескрипторов – проблемы «редких фрагментов» - нами разработаны «псевдофрагментные» дескрипторы, значения которых формируются путем комбинирования свойств атомов внутри фрагментов. Совместное использование фрагментных и псевдофрагментных дескрипторов обычно ведет к заметному повышению прогнозирующей способности построенных моделей за счет эффективной аппроксимации вкладов отсутствующих в обучающей выборке фрагментов. Кроме того, идея псевдофрагментных дескрипторов явилась отправной при разработке специальных архитектур нейронных сетей, позволяющих строить прямые корреляции между структурой химического соединения и его свойствами без предварительного вычисления каких-либо дескрипторов – нейронная сеть сама строит внутри себя наиболее оптимальные псевдофрагментные дескрипторы.

Дальнейшему повышению универсальности нейросетевым количественных моделей «структура-свойство» и повышению точности осуществляемого ими прогноза служат предложенные в данной работе «интегрированные» подходы: 1) концепция построения моделей «структура-условия-свойство; 2) концепция построения моделей «структура-свойство» для многокомпонентных систем; 3) многоуровневый подход и многозадачное обучение как средства объединения различных моделей «структура-свойство» в единую сеть.

Диссертационная работа состоит из семи глав. Первые две главы, составляющие обзор литературы, посвящены математическому аппарату искусственных нейронных сетей и фрагментным дескрипторам. В третьей главе, составляющей начало обсуждения результатов, приводится математическое обоснование выбранного подхода, основанного на сочетании многослойных нейронных сетей и фрагментных дескрипторов. Следующие две главы посвящены, соответственно, разработкам нейросетевых и фрагментных подходов. Шестая глава посвящена сочетанию нейросетей с фрагментными дескрипторами, седьмая – вышеупомянутым интегрированным подходом. В последней восьмой главе диссертационной работы рассматриваются разработанные программные средства.

ГЛАВА 1. ИСКУССТВЕННЫЕ НЕЙРОННЫЕ СЕТИ

1.1. Введение Первые исследования, посвященные применению нейронных сетей (или персептронов) для решения химических задач, были осуществлены еще в начале 70-х годов в СССР [1, 2], но эти пионерные работы не были должным образом оценены и оказались практически забытыми. Лишь в конце 80-х годов возродился интерес химиков к подобному подходу, и он начал стремительно расти [3].

Нейронные сети (часто называемые искусственными нейронными сетями, вычислительными нейронными сетями или просто нейросетями) представляют собой упрощенную математическую модель обработки информации головным мозгом человека [4-9]. Однако большинство современных архитектур нейронных сетей не воспроизводят в точности биологическую модель мозга, скорее, они могут рассматриваться в рамках класса алгоритмов статистического анализа данных [10-24], объединенных под общим названием нейроинформатики.

Кроме того, нейронные сети часто рассматривают как высоко-паралелльные методы решения задач вычислительной математики в «нейросетевом базисе»

(что составляет предмет особой области вычислительной математики – нейроматематики [25]), на базе которых работают основанные на пороговой логике высокопроизводительные высоко-параллельные вычислительные устройства – нейрокомпьютеры [26-29].

Благодаря своей способности обучаться и обобщать данные, нейросети начали успешно применяться в химии, особенно в тех случаях, когда неизвестен аналитический вид зависимости между структурой и свойствами соединений [30-40].

1.2. Основные принципы нейросетевого моделирования 1.2.1. Общая терминология Все нейросетевые методы имеют в своей основе определенные идеи, отражающие те или иные аспекты обработки информации в человеческом мозгу.

Искусственные нейронные сети (или просто нейросети) состоят из определенного количества «искусственных нейронов», являющихся упрощенной математической моделью биологических нейронов, и связей между ними, соответствующих контактам через синапсы между аксонами и дендритами биологических нейронов (см. Рис. 1). В процессе работы нейросети осуществляется преобразование сигналов (кодирующих обрабатываемые данные) внутри нейронов и их передача между соседними нейронами.

Архитектура нейронной сети определяется топологией соединений нейронов между собой. Нейроны внутри сети, как правило, организованы в группы, называемые слоями. Для всех нейронов, принадлежащих одному слою, характерно одинаковое число входных связей, соединяющих нейрон с предыдущим слоем или с внешними устройствами ввода и вывода данных. Нейроны, принимающие внешние данные для последующей обработки, называются входными; нейроны, выводящие уже обработанные данные, называются выходными. Остальные же нейроны, участвующие в промежуточной обработке данных, называются скрытыми. В соответствии с типом нейронов, их слои также называются входными, выходными либо скрытыми.

1.2.2. Нейрон МакКаллока-Питтса Впервые математическая модель искусственного нейрона была предложена в 1943 г. У.С.Мак-Каллоком и В.Питтсом [4]. Подобно тому, как биологические нейроны, вследствие наступающей под действием нейромедиаторов деполяризации мембраны, способны возбуждаться и проявлять спайковую активность, так и их искусственные аналоги (т.н. нейроны Мак-Каллока-Питса) характеризуются определенным уровнем активности (обычно в интервале от 0, соответствующего нейрону в состоянии покоя, до 1, что соответствует возбужденному нейрону). Этот уровень активности передается в виде сигнала на соседние искусственные нейроны, что имитирует биологический процесс распространения деполяризации мембраны по аксону, выделения молекул нейромедиатора, их диффузии через синаптические щели и воздействия на рецепторы, расположенные на мембранах дендритов соседних нейронов. Весь этот сложный процесс передачи сигнала от одного нейрона к другому описывается в методологии искусственных нейронных сетей одним числом, называемым «весом связи», которое является аналогом понятия синаптической проводимости биологических нейронов. Обычно считается, что степень воздействия искусственного нейрона j на другой нейрон i равна произведению уровня активности первого нейрона oj на вес связи (синаптическую проводимость) ji между ними.

Положительное значение синаптической проводимости соответствует прохождению через синаптические контакты возбуждающих нейромедиаторов, например, глутамата или ацетилхолина, а отрицательное – тормозящих, например, гамма-аминомасляной кислоты. В то же время абсолютная величина этого числа отражает легкость передачи сигнала, что в случае биологических нейронов определяется количеством и разветвленностью синаптических контактов, уровнем экспрессии и активности постсинаптических рецепторов, легкостью выделения нейромедиаторов и многими другими факторами, управляемыми как генетически, так и при помощи разнообразных сигнальных систем.

В рамках методологии искусственных нейронных сетей функционирование отдельного нейрона обычно описывается уравнением (см. Рис. 2):

где: ai – общий сетевой вход нейрона i; oj – выходной сигнал нейрона j; wji – вес связи (синаптическая проводимость) между нейронами j и i; ti – порог активации нейрона i (превышение этого порога суммой воздействий со стороны соседних нейронов приводит его в возбужденное состояние); oi – результирующий выходной сигнал, равный уровню активности данного нейрона i; f(x) – т.н. функция активации нейрона (или передаточная функция), которая в простейшем случае, к примеру, может быть определена как пороговая:

Таким образом, уравнение (1) в сочетании с определением функции (2) упрощенно описывает функционирование биологического нейрона, находящегося, в частности, в коре головного мозга человека.

Подобно своему биологическому прототипу, нейроны МакКаллокаПиттса способны обучаться путем настройки параметров w, описывающих синаптическую проводимость.

Как правило, вместо использования пороговых величин ti в нейросеть добавляют так называемые «псевдонейроны смещения» (bias pseudoneurons) с постоянным выходным сигналом, равным 1.

1.2.3. Персептрон Розенблатта На приведенном выше описании искусственного нейрона были основаны разработанные более 40 лет назад первые типы искусственных нейронных сетей, получивших название «персептроны» [5-7] (в русскоязычной литературе пишутся иногда как «перцептроны»), а вместе с ними и первые попытки создать искусственный интеллект путем имитации работы головного мозга человека на клеточном уровне. Название «персептрон» происходит от английского слова perception – восприятие. Оно было предложено в 1958 г. Фрэнком Розенблаттом в попытках имитировать с помощью нейронов МакКаллока-Питтса человеческое восприятие (прежде всего зрение) и распознавание с его помощью объектов внешнего мира. Персептрон Розенблатта имел многослойную архитектуру (см. Рис. 3), причем только последний (выходной) содержал нейроны с настраиваемыми весами, а формируемые ими выходные сигналы свидетельствовали о принадлежности анализируемого объекта к определенному классу.

Само описание объекта в персептронах Розенблатта формировалось на входном слое нейронов, названном рецепторным полем по аналогии с биологическим прототипом. Сигналы с рецепторного поля поступали на необязательный скрытый слой нейронов по связям, веса которых инициировались случайными числами и в процессе обучения не менялись, а сформированные на нейронах скрытого слоя сигналы уже, в свою очередь, поступали на выходной слой нейронов для дальнейшей обработки (см. Рис. 3).

Эти попытки имитации человеческого восприятия на нейронах МакКаллока-Питтса, однако, оказались не совсем удачными, поскольку они не оправдали всех возлагавшихся на них надежд [7]. Поскольку в то время был известен способ настройки весов связей, идущих лишь к нейронам одного (выходного) слоя, то на практике персептроны Розенблатта оказались неспособными обучаться распознаванию сложных образов, и их реальная распознающая способность оказалась не выше, чем у более простых и понятных стандартных методов дискриминатного анализа. Все это привело к разочарованию и, как следствие, прекращению практически всех проводившихся работ в области искусственных нейронных сетей.

Рис. 3. Многослойный персептрон Розенблатта. Преобразования сигналов производится по формулам (1) и (2) на скрытых и выходных нейронах, изображенных кружками, тогда как изображенные квадратами входные псевдонейроны служат исключительно для ввода данных.

1.2.4. Нейросети обратного распространения (backpropagation) 1.2.4.1. Общая характеристика К середине 80-ых годов стало ясно, что одна из причин неудач кроется в конкретном виде пороговой функции активации (2). Оказалось, что замена пороговой функции (2) на непрерывную, ограниченную и монотонновозрастающую, например, сигмоидную функцию (3), способна привести к построению многослойных персептронов, все веса связей которых способны эффективно обучаться при помощи алгоритма обратного распространения ошибок (error backpropagation) [41, 42]. Именно благодаря открытию (точнее, переоткрытию) этого алгоритма, с конца 80-ых годов начался этап активного развития и использования аппарата искусственных нейронных сетей в разных областях науки и техники (см. книги и учебные пособия [10-24]), а с начала 90-ых – в различных областях химии (см. [30-34]) и, в частности, в области исследования зависимости структура-свойство для органических соединений [35-39].

Кроме чисто математических причин, переход к подобным непрерывным дифференцируемым функциям имеет и определенное нейрофизиологическое обоснование. С точки зрения способа передачи информации, сигнал реальных биологических нейронов модулирован не по амплитуде, а по частоте, и, к тому же, является стохастическим, что вполне согласуется с уравнениями (1) и (3) при условии, что уровень сигнала (активации) oi показывает, с какой вероятностью нейрон i переходит в возбужденное состояние.

Алгоритм обратного распространения ошибки (см. ниже) сыграл настолько важную роль в истории становления многослойных персептронов, что сами нейросети этого типа часто стали называть нейросетями с обратным распространением (backpropagation neural networks).

К основным достоинствам таких нейросетей можно отнести их способность находить нелинейные и многопараметрические линейные зависимости, характеризующиеся высокой точностью интерполяции, даже в тех случаях, когда экспериментальные данные сильно зашумлены. Для многослойных персептронов характерна послойная передача сигнала, от входа нейросети к ее выходу. В то же время при обучении нейросетей этого типа настройка весовых коэффициентов связей проводится последовательно, начиная со связей выходного слоя, поэтому методы обучения таких нейросетей носят название методов обратного распространения ошибки [41, 42].

1.2.4.2. Функционал ошибки нейросети Суть обучения нейросети заключается в минимизации функционала ошибки для выборки E(w) в пространстве ее настроечных параметров, каковыми являются веса связей (пороги нейрона здесь тоже рассматриваются как веса связей, ведущих от псевдонейронов смещения с постоянным значением выхода, равным единице, к этому нейрону):

где: p – вес p-ого объекта (например, химического соединения) из обучающей выборки; P – количество объектов в обучающей выборке; E p (w) - индивидуальный функционал ошибки для p-ого объекта из обучающей выборки, который обычно (но не всегда!) представляют как взвешенную сумму значений функции потерь l(·,·) для каждого из выходных нейронов (т.е. для каждого из одновременно прогнозируемых свойств в случае QSAR/QSPR-анализа):

где: k – вес k-ого выходного нейрона; K – количество выходных нейронов (равное числу одновременно прогнозируемых свойств химических соединений в случае QSAR/QSPR-анализа). В большинстве случаев (но не всегда!) используется квадратичная функция потерь, что превращает нейронную сеть в вариант метода наименьших квадратов:

Значения весов объектов p, отличные от единицы, берутся, главным образом, тогда, когда нейросеть обучается классифицировать объекты для придания большего веса тем из них, которые принадлежат к классам с меньшим числом представителей. В остальных же случаях (т.е. практически всегда) веса объектов считаются одинаковыми и равны единице. Аналогично, значения весов выходных нейронов k, отличные от единицы, берутся лишь в редких случаях многозадачного обучения, в остальных же случаях они принимаются равными единице. С учетом вышесказанного, индивидуальный функционал ошибки для p-ого объекта из обучающей выборки обычно имеет вид:

где: d kp - желаемый выход для k-ого выходного нейрона p-ого объекта (экспериментальное значение k-ого свойства для p-ого соединения) из обучающей выборки; okp[ N ] - вычисленный выход для k-ого выходного нейрона p-ого объекта (спрогнозированное значение k-ого свойства для p-ого соединения) из обучающей выборки; N – номер выходного слоя; K – число выходов нейросети, равное числу одновременно прогнозируемых свойств химических соединений в случае QSAR/QSPR-анализа. Функционал ошибки для всей выборки в этом случае имеет вид:

1.2.4.3. Вычисление производных функционала ошибки по методу обратного распространения Для эффективной минимизации функционала необходимо уметь быстро вычислять его градиент, т.е. вектор первых производных по отношению ко всем настраиваемым параметрам. В случае индивидуального функционала ошибки для p-ого соединения из обучающей выборки элементы искомого вектора градиента можно выразить в следующем виде:

где: величина i p[n ], называемая иногда невязкой нейрона, обозначает частную производную функционала ошибки для p-ого объекта из обучающей выборки по отношению к сетевому входу нейрона i, находящегося в слое n (знак минуса взят для совместимости с принятыми в литературе обозначениями); o jp[ n1] - выходной сигнал находящегося в слое n-1 нейрона j для p-ого объекта из обучающей выборки. Таким образом, частная производная функционала ошибки нейросети по отношению к весу связи равна произведению выхода находящегося в предыдущем слое нейрона, из которого выходит данная связь, на невязку нейрона следующего слоя, в который входит данная связь.

Из вышеизложенного следует, что для вычисления градиента ошибки необходимо рассчитать значения выходов и невязок всех нейронов. Поскольку нейросеть обратного распространения (многослойный персептрон) устроен таким образом, что каждый нейрон (кроме входных псевдонейронов и псевдонейронов смещения) получает сигнал из нейронов предыдущего слоя, то вычисление выходов нейронов производится по формулам (1) и (3) последовательно при движении от входного к выходному слою. Подобную последовательность вычислений называют прямым распространением сигнала. В противоположность этому, расчет невязок нейронов производится в обратном направлении при движении от выходного слоя к входному (обратное распространение ошибки).

Действительно, для нейронов выходного слоя, дифференцируя выражение (7), имеем:

Для остальных нейронов, применяя цепное правило дифференцирования к формуле (1) и опуская некоторые тривиальные промежуточные преобразования, получаем:

Таким образом, значения невязок нейронов каждого скрытого слоя рассчитываются исходя из значений невязок нейронов последующего слоя, что можно условно описать процессом распространения ошибки в направлении, обратном распространению сигнала. Для сигмовидной передаточной функции (3) производная вычисляется по следующей формуле:

Производные суммарного функционала ошибки для всей обучающей выборки могут быть получены суммированием производных индивидуальных функционалов ошибки:

Формулы (9-13) составляют суть метода обратного распространения, который можно рассматривать как очень эффективный алгоритм расчета градиента функционала ошибки нейросети в пространстве весов связей (поскольку суммарное время вычисления всех производных, число которых может быть очень велико, не превышает времени расчета самого функционала).

1.2.4.4. Градиентные методы обучения Исторически первым методом обучения сетей обратного распространения явился метод Уидроу-Хоффа, называемый чаще дельта-правилом [43], который традиционно записывается в виде:

где: w(t ) - текущий вес на t-ом шагу обучения связи, идущей от нейрона j к нейji рону i; i - невязка i-ого нейрона, получаемая по методу обратного распространения (см. выше); oj – выходное значение j-ого нейрона; – параметр скорости обучения. Типичное значение параметра скорости обучения – 0.25, но оно может меняться в широких приделах, особенно в сторону уменьшения на окончательных этапах обучения.

Все весовые коэффициенты связей перед началом обучения инициализируются небольшими случайными числами. Правильный выбор границ инициализации, обеспечивающий удаленные от нуля значения производной передаточной функции нейронов (в противном случае происходит т.н. «паралич» нейронов), может сократить время обучения нейросети и улучшить качество получаемых нейросетевых моделей [44, 45]. На каждой итерации обучения производится корректировка значений весов по формуле (14) после предъявления очередного примера из обучающей выборки. Такой режим обучения называют последовательной адаптацией (online mode), в противоположность режиму группового обучения (batch mode), когда корректировка значений весов происходит после предъявления всей обучающей выборки. В классическом варианте обучение проводится до тех пор, пока не будет выполнено одно из возможных условий остановки обучения (например, когда значение функционала ошибки не опустится ниже заранее заданного порога, либо когда число итераций не превысит определенный лимит).

Хотя исторически дельта-правило возникло как обобщение алгоритма обучения персептрона Розенблатта на непрерывные входы и выходы и первоначально никак не было связано с представлениями о функционале ошибки нейросети, тем не менее оно оказалось математически эквивалентным применению метода скорейшего спуска к минимизации функционала ошибки нейросети в пространстве весов связей. Действительно, при подстановке формулы (9) в (14) получаем:

Формула (15) определяет шаг, который делается в направлении, противоположном градиенту, и поэтому дельта-правило представляет собой метод минимизации функционала ошибки в пространстве весов связей при помощи простейшего варианта градиентного метода скорейшего спуска с фиксированным значением параметра скорости обучения.

В своем первоначальном виде дельта-правило представляет в настоящее время главным образом историческую ценность, поскольку именно с его изложения в статье Румельхарта [42] начался современный этап развития всей методологии искусственных нейронных сетей. Между тем, будучи простейшим градиентным методом оптимизации нелинейных функций, дельта-правило обладает целым рядом серьезных недостатков. Во-первых, теория нелинейной оптимизации гарантирует возможность достижения локального минимума за конечное число шагов лишь при постепенном уменьшении параметра скорости по мере обучения, тогда как при фиксированном его значении алгоритм может зациклиться в окрестностях узкого минимума. Во-вторых, в тех случаях, когда производные по различным весам сильно различаются (а именно так обычно и бывает в нейросетях), рельеф функционала ошибки представляет собой узкий овраг, попав в который градиентные методы вместо движения по его дну начинают осциллировать по его стенкам (поскольку практически во всех точках кроме очень узкой области у самого дна оврага градиент направлен почти перпендикулярно направлению движения к минимуму), что часто приводит к чрезвычайному замедлению и даже к практической остановке процесса обучения (см. Рис. 4). В-третьих, градиентные методы оптимизации часто застревают в мелких локальных минимумах.

Рис. 4. Неэффективность метода скорейшего спуска: градиент направлен почти перпендикулярно необходимому направлению движения к минимуму Осознание вышеприведенных проблем очень скоро привело к модификации метода и созданию расширенного варианта дельта-правила, в котором частично устранено или, по крайней мере, ослаблено влияние всех трех вышеперечисленных типов недостатков. Достигнуто это путем введения момента инерции, приводящего, по мере обучения, к накоплению влияния градиента на изменение весов:

где: µ - параметр момента инерции. Типичное значение этого параметра 0.9, и



Похожие работы:

«Жидкова Юнна Юрьевна РАЗРАБОТКА СОСТАВА И ФАРМАКОТЕХНОЛОГИЧЕСКИЕ ИССЛЕДОВАНИЯ КОМПОЗИТНЫХ ГЕЛЕЙ ДЛЯ ПРОФИЛАКТИКИ ГИПЕРТРОФИЧЕСКИХ И КЕЛОИДНЫХ РУБЦОВ 14.04.01. – технология получения лекарств ДИССЕРТАЦИЯ на соискание ученой степени кандидата фармацевтических наук Научный руководитель :...»

«ИЗ ФОНДОВ РОССИЙСКОЙ ГОСУДАРСТВЕННОЙ БИБЛИОТЕКИ Соловьев, Сергей Владимирович Экологические последствия лесных и торфяных пожаров Москва Российская государственная библиотека diss.rsl.ru 2006 Соловьев, Сергей Владимирович.    Экологические последствия лесных и торфяных пожаров  [Электронный ресурс] : Дис. . канд. техн. наук  : 05.26.03, 03.00.16. ­ М.: РГБ, 2006. ­ (Из фондов Российской Государственной Библиотеки). Пожарная безопасность Экология Полный текст:...»

«Дерябина Елена Владимировна ТРАНСФОРМАЦИЯ ОРГАНИЗАЦИИ И СТИМУЛИРОВАНИЯ ТРУДА В ЖИЛИЩНО-ЭКСПЛУАТАЦИОННОМ ХОЗЯЙСТВЕ РОССИИ: ТЕОРЕТИКО-МЕТОДОЛОГИЧЕСКИЕ И МЕТОДИЧЕСКИЕ АСПЕКТЫ Специальность 08.00.05 – экономика и управление народным хозяйством (экономика труда) Диссертация на соискание учёной степени доктора экономических наук...»

«БОЧКОВ ВЛАДИМИР СЕРГЕЕВИЧ ПОВЫШЕНИЕ ИЗНОСОСТОЙКОСТИ НАКЛЕПОМ ФУТЕРОВОК ШАРОВЫХ МЕЛЬНИЦ ПРИ ПРОВЕДЕНИИ ИХ ТЕХНИЧЕСКОГО ОБСЛУЖИВАНИЯ Специальность 05.05.06 – Горные машины ДИССЕРТАЦИЯ на соискание ученой степени кандидата технических наук Научный руководитель доктор...»

«Сокольская Валерия Валерьевна ГЕНДЕРНЫЕ СТЕРЕОТИПЫ НА РЫНКЕ ТРУДА (НА ПРИМЕРЕ МОНОПРОФИЛЬНОГО ГОРОДА) 22.00.06 – социология культуры, духовной жизни диссертация на соискание ученой степени кандидата социологических наук Научный руководитель : доктор философских наук, профессор Дронишинец Н.П. г. Екатеринбург, 2003 2 CОДЕРЖАНИЕ Введение... Глава 1. Теоретические основы изучения гендерных стереотипов. 1.1...»

«по специальности 12.00.03 Гражданское право; предпринимательское...»

«ЛЕБЕДЕВ Виктор Андреевич ЦЕНТРАЛЬНЫЕ ЭФФЕКТЫ ПОЛИПРЕНОЛСОДЕРЖАЩИХ ПРЕПАРАТОВ 14.03.06 – фармакология, клиническая фармакология Диссертация на соискание ученой степени кандидата биологических наук НАУЧНЫЙ РУКОВОДИТЕЛЬ: доктор медицинских наук профессор П.Д. ШАБАНОВ Санкт-Петербург...»

«КАШКАБАШ Татьяна Викторовна ГОРОДСКОЕ ВИЗУАЛЬНОЕ КОММУНИКАТИВНОЕ ПРОСТРАНСТВО КАК ФАКТОР СОЦИАЛЬНОЙ ИНТЕГРАЦИИ (на примере г. Москвы) Специальность 22.00.04. – Социальная структура, социальные институты и процессы ДИССЕРТАЦИЯ на соискание ученой степени кандидата социологических наук Научный руководитель : Мамедов А.К. доктор социологических наук, профессор Москва – Оглавление Введение...»

«Слободнюк Елена Сергеевна ХУДО ЖЕ СТВЕННАЯ ДЕЙ СТВИТЕЛЬНОСТЬ КНИГ ДЖУНГЛЕЙ Д. Р. КИПЛ ИНГА: двоемирие и мифология Закон а Специальность 10.01.03 — литература народов стран зарубежья (западноевропейская литература) Диссертация на соискание ученой степени кандидата филологических наук Научный руководитель : доктор филологических наук,...»

«УДК 911.3:301(470.3) Черковец Марина Владимировна Роль социально-экономических факторов в формировании здоровья населения Центральной России 25.00.24. – Экономическая, социальная и политическая география Диссертация на соискание ученой степени кандидата географических наук Научный руководитель : кандидат географических наук, доцент М.П. Ратанова Москва 2003 г. Содержание Введение.. Глава 1....»

«БОСТАНОВ МАГОМЕТ ЭНВЕРОВИЧ ГЛОБАЛИЗАЦИОННЫЕ ТЕНДЕНЦИИ ВНЕШНЕЙ ПОЛИТИКИ ТУРЕЦКОЙ РЕСПУБЛИКИ В РЕГИОНЕ ЛЕВАНТА Специальность 23.00.04 – Политические проблемы международных отношений, глобального и регионального развития Диссертация на соискание ученой степени кандидата политических наук Научный руководитель : канд. полит. наук, доц....»

«УДК 81'33:81'32 ЧУХАРЕВ Евгений Михайлович ЛИНГВОСТАТИСТИЧЕСКИЕ КОРРЕЛЯТЫ СПОНТАННОСТИ В КОМПЬЮТЕРНО-ОПОСРЕДОВАННОМ ДИСКУРСЕ (НА МАТЕРИАЛЕ РУССКОЯЗЫЧНОГО ЧАТА) Специальность: 10.02.21 — прикладная и математическая лингвистика ДИССЕРТАЦИЯ на соискание учёной степени кандидата филологических наук Научный руководитель —...»

«СВИРИДОВ Константин Сергеевич ПРАВОВОЕ РЕГУЛИРОВАНИЕ ДЕЯТЕЛЬНОСТИ ПО ОКАЗАНИЮ ТУРИСТИЧЕСКИХ УСЛУГ Специальность 12.00.03 Гражданское право; предпринимательское право; семейное право; международное частное право. Диссертация на соискание ученой степени кандидата юридических наук Научный руководитель доктор юридических наук профессор Владимир Федорович ПОПОНДОПУЛО Санкт-Петербург 2003 2 ОГЛАВЛЕНИЕ ВВЕДЕНИЕ ГЛАВА 1. ОБЩАЯ...»

«vy vy из ФОНДОВ РОССИЙСКОЙ ГОСУДАРСТВЕННОЙ БИБЛИОТЕКИ Каткова, Татьяна Игоревна 1. Социально-профессиональная адаптация студентов экономического вуза 1.1. Российская государственная библиотека diss.rsl.ru 2003 Каткова, Татьяна Игоревна Социально-профессиональная адаптация студентов экономического вуза[Электронный ресурс]: Дис. канд. пед. наук : 13.00.08.-М.: РГБ, 2003 (Из фондов Российской Государственной библиотеки) Теория и методика профессионального образования Полный текст:...»

«Григорьев Максим Анатольевич УДК 62-83::621.313.3 СИНХРОННЫЙ РЕАКТИВНЫЙ ЭЛЕКТРОПРИВОД С НЕЗАВИСИМЫМ УПРАВЛЕНИЕМ ПО КАНАЛУ ВОЗБУЖДЕНИЯ И ПРЕДЕЛЬНЫМИ ХАРАКТЕРИСТИКАМИ ПО БЫСТРОДЕЙСТВИЮ И ПЕРЕГРУЗОЧНЫМ СПОСОБНОСТЯМ Специальность 05.09.03 – “Электротехнические комплексы и системы” Диссертация на соискание учёной степени доктора технических наук Научный консультант – доктор технических наук,...»

«ЕЛМАНОВ АНДРЕЙ ВЛАДИМИРОВИЧ РЕПРОДУКТИВНОЕ ЗДОРОВЬЕ ЖЕНЩИНАБОРИГЕНОК РЕСПУБЛИКИ АЛТАЙ 14. 00. 01 - акушерство и гинекология Диссертация на соискание ученой степени кандидата медицинских наук Научный руководитель : доктор медицинских наук, профессор В.С. Горин 2 Новокузнецк - 2004 3 ОГЛАВЛЕНИЕ Введение Глава 1. Социально-гигиенические и популяционные аспекты изучения...»

«БОЛЬШАКОВА Елена Алексеевна ОЦЕНКА ЭКОНОМИЧЕСКОЙ ЭФФЕКТИВНОСТИ ИНННОВАЦИОННЫХ КЛАСТЕРНЫХ ПРОЕКТОВ НА ОСНОВЕ ОПЦИОННОГО ПОДХОДА Специальность 08.00.05 - Экономика и управление народным хозяйством (управление инновациями) ДИССЕРТАЦИЯ на соискание ученой степени кандидата экономических наук Научный руководитель д.э.н.,...»

«из ФОНДОВ РОССИЙСКОЙ ГОСУДАРСТВЕННОЙ БИБЛИОТЕКИ СоБашников, Сергей Викторович 1. Букгалтерский и налоговый учет докодов и раскодов коммерческой организации 1.1. Российская государственная Библиотека diss.rsl.ru 2005 СоБаигникоБ, Сергей Викторович Букгалтерский и налоговый учет докодов и раскодов коммерческой организации [Электронный ресурс]: Дис.. канд. экон. наук : 08.00.12.-М.: РГБ, 2005 (Из фондов Российской Государственной Библиотеки) Букгалтерский учет, статистика Полный текст:...»

«ГАЛИМОВА ЛЕЙСАН ХАЙДАРОВНА Идиоматическое словообразование татарского и английского языков в свете языковой картины мира 10.02.02 – Языки народов Российской Федерации (татарский язык) 10.02.20 – Сравнительно-историческое, типологическое и сопоставительное языкознание ДИССЕРТАЦИЯ на соискание ученой степени кандидата филологических...»

«КОГАН ЕЛЕНА ВИКТОРОВНА УПРАВЛЕНИЕ РЕПУТАЦИЕЙ В РЕГИОНАЛЬНОМ ПОЛИТИЧЕСКОМ ПРОЦЕССЕ РФ (НА ПРИМЕРЕ ЧЕЛЯБИНСКОЙ ОБЛАСТИ) 23.00.02 – Политические институты, процессы и технологии ДИССЕРТАЦИЯ на соискание ученой степени кандидата политических наук Научный руководитель – кандидат филологических наук, профессор И.М. Дзялошинский Москва – ОГЛАВЛЕНИЕ ВВЕДЕНИЕ.....»






 
2014 www.av.disus.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.