«ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ “ВОРОНЕЖСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ” ИВАНОВА КСЕНИЯ ГЕОРГИЕВНА УПРАВЛЕНИЕ ПОРТФЕЛЕМ ЦЕННЫХ БУМАГ ...»
На правах рукописи
ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ
ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО
ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
“ВОРОНЕЖСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ”
ИВАНОВА КСЕНИЯ ГЕОРГИЕВНА
УПРАВЛЕНИЕ ПОРТФЕЛЕМ ЦЕННЫХ БУМАГ НА
ОСНОВЕ D-ОЦЕНОК РУССМАНА И НЕЙРОСЕТЕВОГО
МОДЕЛИРОВАНИЯ
специальность 08.00.13 – Математические и инструментальные методы экономикиДИССЕРТАЦИЯ
на соискание ученой степени кандидата экономических наук
Научный руководитель: доктор физико-математических наук, профессор Берколайко М.З.
Воронеж - -3СОДЕРЖАНИЕ Введение....................................................................
1. Методы управления портфелем. D-оценки Руссмана и теоретический аппарат нейросетевого моделирования.................. 1.1. Обзор существующих методов управления портфелем. Проблема измерения рыночного риска ……………………....…................ 1.2. D-оценки Руссмана как аппарат для оценки риска портфельного инвестирования ……………………………………..……………… 1.3. Возможности краткосрочного прогнозирования финансовых временных рядов ……………………………..……………..……... 1.4. Теоретический аппарат нейросетевого моделирования……..…... Выводы к главе 1……………………………..……………..……… 2. Применение D-оценок Руссмана к задаче управления портфелем активов............................................. ……. 2.1. Вывод на основе D-оценок формулы оценки риска для произвольной непрерывной траектории поведения системы в плановом периоде …………………………………………………............ 2.2. Исследование свойств оценок риска вдоль траекторий движения системы, представляющих собой двухзвенные ломаные ……….. 2.3. Исследование свойств оценок риска вдоль траекторий движения системы вида f (t ) = t a ……...…………………………………….. 2.4. Некоторые статистические закономерности рынка ценных бумаг……………………………………………………………….. Выводы к главе 2. ………………………………………………... 3. Разработка и практическое использование синтетической методики управления портфелем...................... ……….. …. 3.1. Подготовка данных для нейросетевого анализа ……………….... 3.2. Методы формирования комитета нейроэкспертов ………………. 3.3 Алгоритмы совместного применения комитетов нейросетей и D-оценок Руссмана к задаче управления портфелем активов…... -4Обзор результатов тестирования представленных алгоритмов…. Выводы к главе 3. ………………………………………………… Заключение............................................................ Список использованных источников............................ Приложение 1. Алгоритмы обучения базовых нейронных сетей, составляющих комитет нейроэкспертов…….…….…….…….…………….. Приложение 2. Результаты тестирования нейросетевого комитета …… -5ВВЕДЕНИЕ Актуальность темы исследования. Как известно, российскому рынку ценных бумаг присущи следующие особенности: неликвидность значительной доли ценных бумаг, доминирующее влияние игровых спекулятивных операций, резкое изменение тенденций, отсутствие зависимости стоимости акций от финансовых результатов эмитента, информационная непрозрачность, доминирующее значение политических и макроэкономических факторов, большая волатильность. Все это вызывает большие трудности для оценки и прогнозирования значений рыночных показателей и усложняет применение долгосрочных инвестиционных стратегий. Вследствие чего наиболее популярна сейчас активная стратегия управления портфелем, которая сводится к частому пересмотру портфеля в поисках финансовых инструментов, неверно оцененных рынком, и торговле ими с целью получить более высокую доходность.
Однако такой подход трудно соотнести с традиционными способами построения оптимального рыночного портфеля, которые, в силу использования в своей основе средних значений доходности, рассчитаны на долгосрочные инвестиции (пассивную стратегию управления портфелем). В связи с этим возникает необходимость в разработке стратегий для краткосрочных портфельных инвестиций, по возможности свободных от предположений о рыночной эффективности, которая в последнее время очевидным образом нарушается.
Отметим, что особую роль в современной экономической науке, равно как и практической деятельности, играет проблематика рисков. Вопросы идентификации, систематизации, анализа, количественной оценки и управления рисками занимают важное место как на уровне теоретической литературы и научных исследований, так и в системе реальной экономики.
Объективная реальность развития рынка свидетельствует о том, что на данном этапе требуются новые подходы к формированию портфеля ценных -6бумаг, новые способы оценки рыночного риска в условиях текущей сверхрискованности российского рынка акций и невозможности долгосрочного и среднесрочного прогнозирования тенденций фондового рынка.
Степень разработанности проблемы. Начало исследований в области моделей портфельного инвестирования было положено Г. Марковицем в году. В настоящее время развитие теории оптимального портфеля продолжается. Значительный вклад в исследование рынка ценных бумаг внесли, прежде всего, лауреаты Нобелевских премий (Дж. Тобин, Г. Марковиц, У.Ф. Шарп, М.
Шоулс, Р. Ингл), а также ряд других зарубежных (Г. Дж. Александер, Дж. В.
Бейли, Г. Дженкинс, Дж. Линтнер, Д. Мерфи, Дж. Моссин, Д. Нельсон, С. Росс и др.) и отечественных (Л.О. Бабешко, А.В. Воронцовский, В.В. Давнис, В.Н.
Едронова, Д.А. Ендовицкий, Ю.П. Лукашин, Я.М. Миркин, А.О. Недосекин, Л. П. Яновский, Е.М. Четыркин и др.) ученых.
Большое внимание проблематике рисков портфельного инвестирования также уделялось в работах К. Рэдхэда, С. Хьюса, И.Т. Балабанова, В.Р. Евстигнеева.
Однако, как уже отмечалось, эти работы, в основном, касаются оценок риска долгосрочного портфельного инвестирования, тогда как современные рыночные реалии требуют аппарата для получения оценок риска в краткосрочных стратегиях.
Объектом исследования является динамика зарубежных и российских фондовых рынков.
Предметом исследования в настоящей работе является математический аппарат для мониторинга рыночной конъюнктуры и формирования портфеля ценных бумаг.
Цели и задачи диссертационной работы. Целью данного исследования является развитие математического аппарата формирования оптимального портфеля ценных бумаг для стратегий краткосрочного инвестирования.
Для реализации поставленной цели в диссертационной работе были поставлены и решены следующие задачи:
-7исследовано состояние российского рынка ценных бумаг и проанализированы тенденции его развития;
§ изучены современные подходы к формированию портфеля ценных бумаг;
§ исследованы прикладные возможности методологического аппарата теории D-оценок Руссмана применительно к моделированию процесса портфельного инвестирования;
§ усовершенствован аппарат D-оценок Руссмана за счет возможности привлечения методов нейросетевого моделирования;
§ разработаны методы подготовки входных данных для нейросетевого анализа временных рядов доходностей;
§ предложены подходы к созданию и использованию нейросетевого комитета, адаптивно реагирующего на изменение рыночной ситуации;
§ рассчитаны оценки риска краткосрочных портфельных стратегий на основе D-оценок Руссмана и данных, предоставляемых нейросетевым комитетом;
§ осуществлено тестирование программной реализации алгоритмов формирования портфеля ценных бумаг и торговых стратегий.
Область исследования. Диссертационная работа выполнена в рамках п.
1.6. «Математический анализ и моделирование процессов в финансовом секторе экономики …», п. 1.9. «Разработка и развитие математических методов и моделей анализа и прогнозирования развития социально-экономических процессов общественной жизни…» паспорта специальности 08.00.13 – «Математические и инструментальные методы экономики».
Теоретическую и методологическую основу исследования составили современная теория финансовых рынков, а также последние достижения в области нейросетевого моделирования. В процессе работы над диссертацией использовались труды отечественных и зарубежных ученых в области построения моделей портфельного инвестирования, инвестиционного менеджмента, применения нейронных сетей к анализу финансовых рынков.
-8Информационно-эмпирическую базу исследования составили материалы научной периодической печати, архивы котировок цен акций и индексов, расположенные на официальных сайтах ЗАО Финам (www.finam.ru) и Российской Торговой Системы (www.rts.ru).
Обработка данных проводилась на ПЭВМ с использованием пакетов статистического анализа данных, тестирование представленных методик осуществлялось с помощью программного обеспечения, используемого в деятельности ООО «Инвестиционная палата».
Научная новизна заключается в разработке подхода к управлению портфелем ценных бумаг для краткосрочных стратегий, отличающегося от существующих тем, что в его основу положено совместное использование Dоценок Руссмана и методов нейросетевого моделирования. Такое объединение, с одной стороны, позволяет с помощью аппарата D-оценок получать не только текущие, но и ожидаемые оценки риска, с другой стороны, для нейронных сетей отпадает необходимость прогнозирования непосредственных значений котировок, а вместо нее решается значительно более простая задача прогнозирования коридора будущих значений цен.
Научную новизну содержат следующие результаты диссертационного исследования:
§ разработана синтетическая методика формирования портфеля ценных бумаг на основе D-оценок Руссмана и данных, представляемых нейросетевым комитетом, обеспечивающая применение краткосрочных стратегий инвестирования;
§ предложена методика оценки риска краткосрочных портфельных стратегий, в рамках которой оценка риска рассматривается как изменяющаяся во времени величина, а сам портфель – как система переменной структуры;
§ построены модели формирования портфеля ценных бумаг на основе D-оценок Руссмана с привлечением методов нейросетевого моделирования;
анализа эмпирической базы, позволяющие уменьшить противоречивость этих данных и частично избавиться от шумов;
§ предложены методы формирования нейросетевого комитета, предусматривающие автоматическое ранжирование нейроэкспертов на основе анализа краткосрочных рыночных тенденций;
§ рассчитаны оценки риска для наиболее статистически обоснованных сценариев поведения портфеля активов в перспективном периоде, использование которых позволяет сформировать оптимальный портфель ценных бумаг.
Практическая значимость исследования заключается в том, что сформулированные выводы и предложения, разработанные модели и алгоритмы могут быть использованы финансовыми учреждениями, частными инвесторами, разработчиками информационно-аналитических систем, другими субъектами рынка ценных бумаг в качестве инструментария для получения дополнительной информации, способствующей повышению степени обоснованности инвестиционных решений.
Апробация результатов работы. Основные результаты исследования докладывались и обсуждались на: семинарах и научных сессиях экономического факультета Воронежского государственного университета; 30-й Международной научной школе- семинаре “Системное моделирование социально-экономических процессов” (Воронеж, 2007); IV Международной научнопрактической конференции «Экономическое прогнозирование: модели и методы» (Воронеж, 2008); 31-й Международной школе-семинаре “Системное моделирование социально-экономических процессов” (Воронеж, 2008).
Внедрение результатов исследования. Предложенные методы, модели и программы прошли успешную верификацию на реальных временных рядах российского фондового рынка. Отдельные результаты диссертационного исследования нашли применение в практической деятельности финансовой Публикации. По теме диссертационного исследования опубликовано работ, в том числе 2 статьи в издании, рекомендованном ВАК России ([11] и [34]), 2 статьи в выпусках Вестника Воронежского государственного университета, 3 статьи в сборниках трудов научно-практических конференций.
В работе [9] автором осуществлен вывод формул оценки риска для широкого класса функций изменения состояния системы вида: f (t ) = t a (a > 0).
В работе [10], лично автору принадлежит вывод формул оценки риска для функций изменения состояния системы, представляющих собой двухзвенные ломаные линии. В [11] автором предложена методика формирования портфеля ценных бумаг на основе D-оценок Руссмана и прогнозных данных, предоставляемых нейросетевым комитетом. В работе [32] автором проведен статистический анализ закономерностей, присущих российскому рынку ценных бумаг. На основе этого анализа сделаны выводы о наиболее обоснованных сценариях поведения портфеля активов в плановом периоде (в зависимости от текущей рыночной ситуации). В [33] и [34] автору принадлежат алгоритмы подготовки и преобразования входных данных для нейросетевого прогнозирования временных рядов доходностей. В [35] автором предложен алгоритм формирования нейросетевого комитета, позволяющий осуществлять автоматическое ранжирование прогнозирующих нейроэкспертов на основе анализа краткосрочных рыночных тенденций.
Объем и структура работы. Диссертация состоит из введения, трех глав с выводами по каждой главе и заключения, а так же списка используемой литературы из 123 наименований, в т.ч. англоязычных – 41, и двух приложений. Основной текст изложен на 115 страницах, содержит 10 таблиц, рисунков.
Во введении обоснована актуальность темы диссертации, определены предмет и объект исследования, сформулирована цель и поставлены задачи, и практическая значимость результатов исследования.
В первой главе приведен аналитический обзор современных подходов к формированию портфеля активов, особое внимание уделяется проблеме измерения портфельного риска. Здесь же кратко излагается теоретический аппарат D-оценок, разработанный Исааком Борисовичем Руссманом. Помимо того, в первой главе анализируются возможности краткосрочного прогнозирования финансовых временных рядов и представляются теоретические основы аппарата нейросетевого моделирования.
Во второй главе описывается подход к управлению портфелем, основанный на совместном использовании D-оценок Руссмана. Задача управления портфелем рассматривается как задача управления системой переменной структуры с целью достижения этой системой некоторой заранее заданной цели. Здесь же выводится общая формула оценки риска для произвольной траектории поведения системы в плановом периоде. Далее приводится анализ некоторых статистических закономерностей, присущих российскому рынку ценных бумаг, позволяющий в зависимости от продолжительности планового периода выделить наиболее обоснованные траектории поведения системы. Для этих траекторий выводятся конкретные формулы изменяющихся во времени оценок риска.
В третьей главе описывается разработка и практическое применение синтетической методики управления портфелем активов, основанной на использовании D-оценок Руссмана и аппарата нейросетевого моделирования.
В частности, большое внимание уделяется методам подготовки данных для нейросетевого анализа, так как от этого существенно зависит качество прогнозирования диапазона возможного изменения параметров системы в плановом периоде, а, значит, и качество модели в целом. Здесь же приводятся алгоритмы формирования комитетов нейроэкспертов для прогнозирования параметров системы в плановом (краткосрочном) периоде и обосновывается преимущества использования таких комитетов по сравнению с отдельными получены в процессе тестирования и последующего использования программного обеспечения, созданного на основе данного диссертационного исследования в финансовой компании ООО «Инвестиционная палата».
В заключении изложены основные научные результаты и выводы диссертационного исследования.
- 13 I. МЕТОДЫ УПРАВЛЕНИЯ ПОРТФЕЛЕМ. D-ОЦЕНКИ РУССМАНА И АППАРАТ НЕЙРОСЕТЕВОГО МОДЕЛИРОВАНИЯ
I.1. Обзор существующих методов управления портфелем. Проблема измерения рыночного риска Портфелем ценных бумаг называются все ЦБ, которыми располагает инвестор. Портфель может состоять из следующих секций: облигационной, обыкновенных активов, привилегированных активов, паев ПИФов и т.д. [2].Обыкновенные акции являются высокорискованной ЦБ, не предполагающей гарантированного дохода. Инвестиции в такие активы обеспечивают инвестору два источника получения дохода: доход от прироста курсовой стоимости акций и дивидендный доход. Неопределенность относительно будущей стоимости акций и величины будущих дивидендов является источником повышенного риска, связанного с вложениями в данные ЦБ, так как на стоимость акций влияет большое количество разнообразных факторов. В результате анализа факторов, порождающих данную неопределенность, инвестор должен выделить разнообразные виды рисков, сопровождающих вложения в подобные активы, исходя из выбранных критериев. В конечном счете, приемлемый уровень предполагаемого риска и дохода, приносимого акциями, находит свое отражение в инвестиционной политике инвестора и определяет его действия на рынке ценных бумаг.
Сущность портфельного инвестирования на рынке ценных бумаг заключается в том, чтобы улучшить условия инвестирования, сформировав в определенный момент инвестиционного периода такую совокупность активов, которая обеспечивает необходимое для инвестора соотношение между риском и доходностью от вложений, что недостижимо при инвестициях в отдельно взятый актив и возможно только при размещении средств инвестора в их комбинации. Под риском, как правило, понимается категория неопределенности в получении доходов инвестором, вызывающая у каждого инвестора субъективное отношение к процессу инвестирования, чаще всего — отношение неприятия риска.
Эффективность управления портфелем ценных бумаг предполагает проведение мониторинга портфеля ценных бумаг с целью осуществления необходимой корректировки принятых решений. Важным принципом проведения мониторинга является сопоставимость результатов, для обеспечения которой необходимо применять единую методику и использовать ее через некоторые интервалы времени.
Результативность мониторинга во многом зависит от качества построения системы показателей портфеля, степени ее репрезентативности, а также чувствительности к неблагоприятным изменениям.
Началом современной теории портфеля принять считать опубликование в 1959 г. книги Г. Марковица «Portfolio selection: efficient diversification of investments» [4].
Согласно методике Марковица [1,4,45,32], ожидаемая доходность актива представляется случайной величиной, а риск — мерой неопределенности этой случайной величины. Мерой доходности каждого конкретного актива служит математическое ожидание возможных значений доходности этого актива, а мерой риска — дисперсия (вариация или же среднеквадратическое отклонение) возможных значений его доходности.
Принимая, что величина капитала инвестора равна 1 и распределена между n ценными бумагами портфеля, по известным правилам теории вероятностей можно выразить математическое ожидание доходности rp портфеля и его дисперсию s 2 :
где xi - доля капитала, вложенного в i -ю ценную бумагу, Kij - ковариация между доходностями ценных бумаг i и j.
Опираясь на методику Марковица, инвесторы должны определять портфель с наивысшей ожидаемой доходностью с приемлемым для них уровнем риска либо, наоборот, решать задачу минимизации риска портфеля при обеспечении заданного уровня его доходности.
Предложенные Марковицем концепции были расширены Шарпом (Sharpe, 1964), Литнером (Litner, 1965) и Моссином (Mossin, 1966) и вылились в известную модель ценообразования активов капитала (САРМ), до сих пор считающуюся стандартом для любой новой модели инвесторского поведения.
Основным результатом САРМ явилось установление соотношения между доходностью и риском актива для равновесного рынка. При этом важным оказывается тот факт, что при выборе оптимального портфеля инвестор должен учитывать не весь риск, связанный с активом (риск по Марковицу), а только часть его, называемую систематическим, или недиверсифицируемым риском. Эта часть риска актива тесно связана с общим риском рынка в целом и количественно представляется коэффициентом «бета», введенным Шарпом ранее в его однофакторной модели [77]. Остальная часть (несистематический, диверсифицируемый риск) устраняется выбором соответствующего (оптимального) портфеля.
В основе САРМ лежат следующие положения:
- стандартная параметризация характеристик портфелей инвесторов (т.е. ожидаемые доходности и стандартные отклонения за период владения акциями);
- отсутствие факторов, препятствующих инвестициям в активы (совершенство рынков, исключающее налоги и трансакционные издержки, безграничная делимость активов, равенство ставок безрискового заимствования и кредитования и т.д.);
- одинаковый временной горизонт активности инвесторов;
- 16 однородность ожиданий относительно будущих доходностей, среднеквадратических отклонений и ковариаций доходностей активов на рынке;
- одинаковая структура информационного поля для всех инвесторов.
Главными итогами САРМ можно назвать появление теоремы о разделении. Она указывает на то, что оптимальная комбинация активов в портфеле инвестора может быть определена без учета его субъективных предпочтений относительно риска и доходности инвестиций [6]. В состоянии равновесия портфель состоит из всех активов, обращающихся на рынке. Причем доля каждого актива соответствует его относительной рыночной стоимости, т.е.
равна отношению текущей капитализации данного актива к текущей капитализации всего рынка активов. Следовательно, данная комбинация активов должна стать объектом практических инвестиций при пассивном поведении инвестора. Кроме того, данный «рыночный» портфель является универсальным показателем оценки эффективности деятельности инвестора.
Одним из основных спорных моментов как портфельной теории Марковица, так и методики САРМ является присутствующее в них ключевое предположение о конечности дисперсии портфеля, выступающей в качестве меры риска. Данное предположение основывается на так называемой теории "эффективного" рынка, изложенной в диссертации Луи де Башелье [43] еще в 1900 году. Согласно этой теории, ценовые изменения активов независимы и следуют случайным блужданиям (то есть представляют собой броуновское движение). Следовательно, по закону больших чисел, вероятностное распределение доходности портфеля приблизительно нормально (или, как позднее утверждал М. Кенделл [128], логнормально, то есть броуновскому движению подвержены логарифмы ценовых изменений активов). Эта приблизительность означает, как минимум, что распределение прибылей имеет конечную среднюю величину и дисперсию.
Однако, теория эффективного рынка до сих пор не получила широкого практического подтверждения. Еще эмпирические данные 60-х годов из статьи Мандельброта [32] показывали, что доходности некоторых активов могут иметь распределение Парето с бесконечной дисперсией. А к началу 70-х годов уже было накоплено много фактов, свидетельствующих о том, что прибыли не следуют нормальному распределению. В том числе книга одного из создателей САРМ Шарпа (1970) [56] содержит разделы, в которых говорится о необходимости модификации стандартной теории портфеля с учетом устойчивого распределения Парето. Несмотря на это, к концу 1970-х годов нормальное и логнормальное распределение доходностей с предположением о независимости случайных изменений цен стали общепринятыми в моделировании. На этой основе бурно развиваются эконометрические (статистические) модели [1, 48, 50, 62, 115] анализа и прогнозирования финансовых показателей. Применения эконометрики к рынкам капитала стали более комплексными, так как теория эффективного рынка получила широкое признание и все меньше ставилась под вопрос.
Главными достижениями 70-х годов в области портфельного инвестирования были модель расчета цен опционов Блэка и Шоулса (Black, Scholes, 1973) и арбитражная ценовая теория (APT — Arbitrage Pricing Theory) Росса (Ross, 1976). Следует отметить, что APT является более общей ценовой моделью, чем САРМ, однако практически для ее инструментального оснащения была использована стандартная эконометрика (включая предположение о конечной дисперсии).
Работы 1980-х в основном были сосредоточены на эмпирических исследованиях и приложениях уже существующих моделей. При этом следует отметить, что, несмотря на господствующую в теории модель САРМ, в качестве основы для оценки портфельного риска в практических расчетах чаще стала использоваться не дисперсия (или среднеквадратичное отклонение), а так называемая волатильность – неформальное обозначение вариабельности, разброса доходностей рыночных активов. Основное достоинство такого подхода к оценке риска заключается в том, что, как было замечено, рыночная волатильность изменяется во времени (в отличие от достаточно стабильно среднеквадратичного отклонения). Теория эффективного рынка исходит из - 18 того, что случайные изменения цен на каждом временном интервале не зависят друг от друга. Реальное поведение случайных изменений обычно не соответствует данному допущению. Для волатильности характерна так называема "кластеризация", т.е. периоды, когда абсолютные значения волатильности принимают большие или, наоборот, маленькие значения. Это может означать, что волатильность (а, следовательно, и риск) зависит от своих предыдущих уровней.
Такой подход нашел отражение в авторегрессионных условных гетероскедастических (ARCH) моделях Ингла (Engle, 1982). ARCH-модель представляет волатильность в виде суммы некоторой базовой волатильности и линейной функции абсолютных значений нескольких последних изменений доходностей:
где a (константа) - базовая волатильность; e t -i - предыдущие изменения цен;
q (порядок модели) - количество последних изменений цен, влияющих на текущую волатильность; bi - весовые коэффициенты, определяющие степень влияния предыдущих изменений цен на текущее значение волатильности.
Расширением ARCH-модели является GARCH-модель, где на текущую волатильность влияют как предыдущие изменения цен, так и предыдущие оценки волатильности (т.н. "старые новости"). Согласно данной модели расчет волатильности производится по следующей формуле:
где p - количество предшествующих оценок волатильности, влияющих на текущую; ci - весовые коэффициенты, определяющие степень влияния предыдущих оценок волатильности на текущее значение.
Несмотря на несомненные достоинства, ARCH и GARCH -модели исходят из предположения о кратковременной памяти в рыночных процессах, а также — в той или форме — о рыночной эффективности.
- 19 Начиная с 90-х годов и до настоящего времени наиболее распространенной формой количественной оценки портфельного риска в мире становится методология Value- at-Risk (VaR). VAR — это статистическая оценка максимальных потерь заданного портфеля при заданном распределении рыночных факторов за данный период времени. VAR портфеля для данного доверительного уровня р и данного периода поддержания позиций t определяется таким значением V, которое обеспечивает покрытие возможных потерь х держателя портфеля за время t с вероятностью р, т. е. Р(х < V) = р.
С точки зрения теории вероятностей и математической статистики VaR соответствует р-квантилю заданного распределения. При этом VaR = V соответствует доверительному уровню, равному 1 - p.
Определение VaR подразумевает знание функции распределения доходности портфеля за выбранный интервал времени. Если стандартное отклонение как мера риска определяет "ширину" плотности распределения доходности портфеля, то VaR определяет конкретное значение потерь в стоимости портфеля, соответствующее заданному весу "хвоста" распределения.
Методология VaR обладает рядом преимуществ, так как позволяет:
- оценить риск в терминах возможных потерь, соотнесенных с вероятностями их возникновения;
- измерить риски на различных рынках универсальным образом;
- агрегировать риски отдельных позиций в единую величину для всего портфеля, учитывая при этом информацию о количестве позиций, волатильности на рынке и периоде поддержания позиций.
Однако VAR, как и МРТ, использует предположение о конечности дисперсии портфеля, хотя и, в общем случае, не требует нормального распределения доходностей активов. Кроме того, если, например, скачкообразно изменяется волатильность рынка или корреляция между активами, то VAR сможет учесть эти изменения (при условии их сохранения) только через определенный промежуток времени. А до этого момента оценка VAR будет некорректна, что делает ее малопригодной на нестабильных рынках, к которым можно отнести и Российский рынок ценных бумаг.
Как известно, российскому рынку ЦБ присущи следующие особенности:
недооцененность, неликвидность значительной доли ценных бумаг, доминирующее влияние игровых спекулятивных операций (более 90% сделок осуществляется с целью перепродажи), резкое изменение тенденций, отсутствие зависимости стоимости акций от финансовых результатов эмитента, информационная непрозрачность, доминирующее значение политических и макроэкономических факторов, большая волатильность. Все это вызывает определенные трудности в деле оценки и прогнозирования значений рыночных показателей. Инвесторы российского рынка имеют различные ожидания относительно доходности и риска отдельных ценных бумаг. В итоге цена данных активов часто завышена или занижена. Поэтому наиболее популярная сейчас активная стратегия управления портфелем сводится к частому пересмотру портфеля в поисках финансовых инструментов, которые неверно оценены рынком, и торговле ими с целью получить более высокую доходность.
Однако такой подход трудно соотнести с традиционными способами построения оптимального рыночного портфеля, которые, в силу использования в своей основе средних значений доходности, рассчитаны на долгосрочные инвестиции (пассивную стратегию управления портфелем). В связи с этим, возникает острая необходимость в разработке стратегий для краткосрочных портфельных инвестиций, по возможности еще и свободных от спорных предположений о рыночной эффективности.
С целью получения оценок риска для краткосрочных портфельных инвестиций в данной диссертационной работе предлагается использовать аппарат D-оценок Руссмана.
В современной экономической науке, равно как и практической деятельности, проблематика рисков играет серьезную роль. Вопросы идентификации, систематизации, анализа, количественной оценки и управления рисками занимают важнейшее место как на уровне теоретической литературы и научных исследований, так и в системе реальной экономики.
За последние несколько десятилетий существенно расширилась теоретическая база анализа рисков, и целый ряд работ в этой области был отмечен нобелевскими премиями (в т.ч. К. Эрроу, Г. Марковиц, У. Шарп, Дж. Акерлоф, Ф. Найт).
Однако, как уже отмечалось, эти работы касаются оценок риска долгосрочного портфельного инвестирования, тогда как современные рыночные реалии требуют получения оценок риска в краткосрочных стратегиях. С целью получения таких оценок в задаче управления портфелем предлагается использовать системный подход.
Итак, представим, что портфель ценных бумаг – это некоторая система переменной структуры, а управление портфелем – это процесс контроля за данной системой. Целью такого управления будет являться получение запланированного дохода за определенный инвестиционный период. Риск, в свою очередь, определим как степень угрозы недостижения поставленной цели и сделаем его переменной величиной - функцией относительно текущего положения системы. Для количественной оценки степени угрозы недостижения цели используем D-оценки Руссмана, аппарат которых представлен далее в этом параграфе.
Интуитивно ясно, что тем труднее достичь поставленной цели, чем меньше запас наших возможностей по отношению к тем требованиям, которые диктует желаемая цель, то есть угроза недостижения цели связана – и концептуально и формально – с изменяющимися во времени "трудностями", возникающими при её достижении и вызванными сопротивлением внешней - 22 среды, неидеальным качеством используемых ресурсов и собственными ограниченными возможностями. (В случае управления портфелем ценных бумаг под ресурсами мы будем понимать текущий состав портфеля, обеспечивающий ему определенную доходность.) При этом количественная шкала оценки «трудностей» уже содержится в семантике: мы говорим, что цели достичь невозможно, если качество и количество наших ресурсов меньше требуемого; мы говорим, что цели достичь очень трудно, если этот запас лишь незначительно превышает требования и т.д.
Таким образом, основное условие, которому должна удовлетворять оценка «трудности», состоит в том, что «трудность» монотонно убывает при возрастании «расстояния» между оценками требований и ресурсной обеспеченности.
Понятно также, что качество результата (цели) и качество ресурсов – это понятия комплексные, зависящие от многих факторов.
Итогом исследования такой многофакторной характеристики является введенная И.Б. Руссманом оценка «трудности достижения цели» (или Dоценка), про которую в этом контексте уместно говорить, что она порождена многими факторами. Помимо этого можно, разумеется, рассматривать и специфические трудности, порожденные каждым фактором в отдельности. Поэтому возникает естественная проблема взаимоотношения между набором локальных «трудностей» и агрегированной трудностью, порожденной комплексом этих специфических факторов.
В [11] эти соотношения описываются следующей системой аксиом.
Пусть d1, d 2 – специфические трудности, а d – порожденная ими агрегированная трудность.
Это требование означает, что агрегированная трудность не зависит от каких – либо других факторов, кроме заданных. В дальнейшем будем наf зывать сверткой трудностей.
Коммутативность свертки означает, что до применения управляющего воздействия порядок возникновения трудностей не существенен, т.е. если система предоставлена самой себе, то не имеет значения, накладывается ли первая трудность на вторую, или наоборот.
Принятие такого условия влечет за собой и отсутствие иерархии факторов, т.е. их одноуровневость, что выражается условием ассоциативности:
Следующее условие есть условие нормировки:
И, наконец, условие:
которое означает, что при отсутствии трудности по второму фактору, свертка совпадает с трудностью по первому фактору.
Еще в начале XIX-го века Н.Абелем было доказано, что общий вид функции, при выполнении условий 1) – 3), задается формулой:
где j - монотонная, непрерывная функция.
Для выполнения условий 4) – 5) на j накладываются очевидные ограничения: j (0) = 0, j (1) =. Если теперь в качестве функции j выбрать Таким образом, если понятие трудности удовлетворяет естественным условиям 1) – 5), а в качестве генерирующей функции j выбрана функция (1.5), то выражение для агрегированной трудности совпадает с формулой вероятности суммы независимых событий. Отсюда следует, что трудность может быть охарактеризована в вероятностных терминах; это сделано в работах [11,14], где трудность возникает, как условная вероятность недостижения цели при условии, что качество ресурса удовлетворяет первоначально сформулированным ограничениям.
В ситуации управления активами это означает, что "благонадежная" предыстория актива не есть гарантия его хорошего поведения в дальнейшем.
Если j (d ) в соотношении (1.5) трактовать как затраты на преодоление трудности d, то (1.6) можно записать в виде: затраты на преодоление общей трудности есть сумма затрат на преодоление профакторных трудностей, поd = j -1 [j (d1) + j ( d2 ) ] эквивалентно равенству j ( d ) = j ( d1 ) + j ( d 2 ).
скольку Сказанное позволяет сделать вывод о том, что экономические соображения подтверждают разумность выбора условий 1) – 5).
Перейдём к определению трудности через оценки качества ресурса.
Пусть m ( 0,1] есть безразмерная оценка качества ресурса с условием "чем больше, тем лучше", а e 0,1) - нижняя граница требований к качеству ресурса. Ресурс считается допустимым, если m e. Трудностью (или Dоценкой Руссмана) мы назовём величину, задаваемую соотношением:
Ясно, что d [0,1]. Кроме того, d = 0, когда отсутствуют требования к качеству ресурса (e = 0) и при m = 1, т.е. для ресурса идеального качества.
Трудность максимальна (d = 1) при m = e. Легко видеть, что трудность, задаваемая соотношением (1.7), удовлетворяет всем сформулированным выше условиям.
Формула (1.7) допускает очевидную вероятностную интерпретацию:
введем два случайных события: Ai – не выполнено требование к качеству iго результата, - не выполнено требование к качеству j-го ресурса. Тогда dij выступает как вероятность P ( Ai / B j ) недостижения i-го результата при использовании j-го ресурса, удовлетворяющего требованиям. При этом выражение (1.7) становится формулой Байеса, если принимается одна из двух возможных интерпретаций:
В том и другом случае, естественно предполагается выполнение условия P ( Ai / B j ) = 1, то есть при некачественном ресурсе результат всегда не достигается. Легко проверить, что mij e j и m j e ij.
Важным соображением будет тот факт, что риск, то есть угроза потери управляемости, неограниченно возрастет вблизи некоторой границы, за которой система становится принципиально неуправляемой. Это естественно приводит к введенной Гильбертом и Клейном проективной метрике на плоскости Лобачевского – Клейна [15]. Для удобства изложения приведем необходимые сведения. Изобразим плоскость Лобачевского – Клейна как единичный круг, любая хорда которого трактуется как бесконечная прямая.
Расстояние r ( B, C ) между точками B и C стремится к бесконечности при d= - ангармоническое отношение четырёх точек. Выше у нас встреAC BD чалось похожее выражение: ln. Разница между этим выражением и метd рикой Клейна – Гильберта связана с тем, что, в отличие от модели Клейна – Гильберта, в которой равенство r ( B, C ) = 0 эквивалентно тому, что B = C, в наших построениях совпадение точек В и С означает, что качество ресурса m Таким образом, выражение для трудности имеет очевидные аналогии с проективным расстоянием. Как известно, это расстояние является в проективной геометрии единственным, сохраняющим обычные правила сложения отрезков на прямой, что вполне соответствует принципу сложения затрат.
Упомянем также, что выражение вида (1.7) фигурирует в описании операторов нечёткой импликации [14], которые возникают при оценке осуществимости вывода о том, что при выполнении определенных условий можно получить требуемый результат.
Точные количественные вычисления риска с помощью данного аппарата будут приведены в главе II. А пока, подводя итог данного параграфа, еще раз отметим, что D-оценка Руссмана («трудность достижения цели») – это изменяемая во времени (зависящая от положения системы) величина, которую можно трактовать как степень угрозы недостижения поставленной цели. Поскольку в нашем случае целью является получение запланированной прибыли, угрозу недостижения этой цели можно напрямую увязать с портфельным риском.
Поскольку такая оценка риска меняется во времени, она может быть использована и при краткосрочном портфельном инвестировании. Однако недостатком данного подхода является то, что для вычисления риска предстоящего периода необходимо иметь представление о поведении системы в этот период, то есть, в нашем случае, по крайней мере, иметь оценки (верхнюю и нижнюю) доходности акций, которые могут быть включены в портфель, для чего нам понадобится аппарат прогнозирования.
временных рядов Помимо оценок риска, для эффективного формирования краткосрочного инвестиционного портфеля необходимо уметь вычислять ожидаемые значения его доходности. Как было указано ранее, использование в этом качестве оценок среднестатистических возможных значений доходности не годится, так как оно ориентировано на долгосрочную перспективу. Поэтому в данной работе предлагается осуществлять краткосрочное прогнозирование значений доходности, и уместно остановиться на его принципиальной возможности.
Согласно упомянутой ранее доктрине эффективного рынка, такое прогнозирование бессмысленно, инвестор может надеяться лишь на среднюю рыночную доходность. Всякий же спекулятивный доход носит случайный характер и подобен азартной игре на деньги.
Однако теория эффективного рынка, как уже подчеркивалось, имеет больше контраргументов, чем аргументов в свою защиту, и не разделяется самими участниками рынка, что вполне естественно. Большинство из них уверены, что рыночные временные ряды, несмотря на кажущуюся стохастичность, полны скрытых закономерностей, т.е. в принципе хотя бы частично предсказуемы, если научиться находить эти закономерности. Такие скрытые эмпирические закономерности первым пытался выявить еще в 30-х годах века в серии своих статей финансист Ральф Эллиот [23]. Анализируя данные фондового рынка, он выделил несколько главных ритмов, теперь известных как волны Эллиота. Волновая теория Эллиота основана на последовательности ростов и падений биржевых котировок, которые подчинены определенным принципам, и широко используется аналитиками при описании современных рыночных тенденций.
В 80-х годах 20 века гипотеза о частичной предсказуемости рыночных временных рядов нашла поддержку в незадолго до этого появившейся теории динамического хаоса. Эта теория построена на противопоставлении хаотич- случайными, но, как детерминированный динамический процесс, вполне допускают краткосрочное прогнозирование. Область возможных предсказаний ограничена по времени горизонтом прогнозирования, но этого может оказаться достаточно для получения реального дохода от предсказаний. И тот, кто обладает лучшими математическими методами извлечения закономерностей из зашумленных хаотических рядов, может надеяться на большую норму прибыли - за счет своих менее оснащенных собратьев.
В последнее десятилетие наблюдается устойчивый рост популярности технического анализа - набора эмпирических правил, основанных на различного рода индикаторах поведения рынка. Технический анализ сосредотачивается на индивидуальном поведении данного финансового инструмента, вне его связи с остальными ценными бумагами.
Такой подход психологически обоснован сосредоточенностью брокеров именно на том инструменте, с которым они в данный момент работают.
Согласно Александру Элдеру, известному специалисту по техническому анализу (по своей предыдущей специальности - психотерапевту), поведение рыночного сообщества имеет много аналогий с поведением толпы, характеризующимся особыми законами массовой психологии. Влияние толпы упрощает мышление, нивелирует индивидуальные особенности и рождает формы коллективного, стадного поведения, более примитивного, чем индивидуальное. В частности, стадные инстинкты повышают роль лидера, вожака. Ценовая кривая, по Элдеру, как раз и является таким лидером, фокусируя на себе коллективное сознание рынка [9]. Такая психологическая трактовка поведения рыночной цены обосновывает применение теории динамического хаоса.
Частичная предсказуемость рынка обусловлена относительно примитивным коллективным поведением игроков, которые образуют единую хаотическую динамическую систему с относительно небольшим числом внутренних степеней свободы.
- 29 Согласно этой доктрине, для предсказания рыночных кривых необходимо освободиться от власти толпы, стать выше и умнее ее. Для этого предлагается выработать систему игры, апробированную на прошлом поведении временного ряда и четко следовать этой системе, не поддаваясь влиянию эмоций и циркулирующих вокруг данного рынка слухов. Иными словами, предсказания должны быть основаны на алгоритме, т.е. их можно и даже должно перепоручить компьютеру. За человеком остается лишь создание этого алгоритма, для чего в его распоряжении имеются многочисленные программные продукты, облегчающие разработку и дальнейшее сопровождение компьютерных стратегий на базе инструментария технического анализа.
Следуя этой логике, почему бы не использовать компьютер и на этапе разработки стратеги, причем не в качестве ассистента, рассчитывающего известные рыночные индикаторы и тестирующего заданные стратегии, а для извлечения оптимальных индикаторов и нахождения оптимальных стратегий по найденным индикаторам. Такой подход – с привлечением технологии нейронных сетей – завоевывает с начала 90-х годов все больше приверженцев, т.к. обладает рядом неоспоримых достоинств.
Гипотеза эффективного рынка опровергается даже в теории, если рынок «зашумлен» наличием неравновесных цен, психологическими барьерами и возвратными движениями цен при достижении крайних значений [27]. Такие технологии, как нейронные сети, позволяют получать возможности для извлечения прибыли на ограниченных отрезках времени и/или на краткосрочных контрактах. Даже если все-таки предположить, что рынок рационален, т.е. что все индивидуальные инвесторы ведут себя в среднем рационально, это вовсе не значит, что не может существовать не замеченных ранее закономерностей в ценах и различных индикаторах рынка.
Характер динамики рынка связан с его формальными и неформальными установками, институциональным окружением, а также сложившейся практикой, предвзятыми мнениями, тенденциями и психологическими барьерами. Все это делает возможным существование (до поры скрытых и выглядящих как случайности) закономерностей в поведении рыночных цен, и эти закономерности, в принципе, можно предсказывать.
Представляется, что нейронные сети лучше, чем другие методы, подходят для выявления нелинейных закономерностей в отсутствие априорных знаний об основной модели. Нейросетевой вариант имеет хотя бы то несомненное преимущество, что не содержит искусственного подгона рыночных взаимосвязей под маску стандартного распределения. В этом контексте данный подход представляется более универсальным и перспективным.
По своей природе нейросетевое моделирование представляет синтез подхода исторического моделирования и экспертных оценок. Сама по себе сеть – простейшая модель человеческого мозга – как инструмент моделирования принципиально отличается от статистических моделей, поскольку не требует задания зависимостей. Если в стандартных моделях пользователь задает ряд гипотез и законов, на основе которых формализованным, более или менее стандартным образом формируются модели, то нейронная сеть сама в процессе обучения подбирает зависимости, уровень сложности которых зависит от сложности сети.
На первом этапе работы нейросети – обучении – в качестве входных данных вводится исторический массив данных по колебаниям рынка, на основе которых сеть осуществляет подбор закономерностей, эти движения описывающих. Далее "обученная" сеть выступает готовым прогностическим инструментом, настроенным на специфику объекта.
Недостатком нейронных моделей являются значительные затраты по времени и другим ресурсам для построения удовлетворительной модели. Известно, что обучение сети может занимать довольно много времени.
Однако нейросетевая модель имеет гораздо большее количество достоинств. Существует удобный способ модифицировать модель по мере того, как появляются новые наблюдения. Модель хорошо работает с временными последовательностями, в которых мал интервал наблюдений, т.е. может быть получена относительно длинная временная последовательность. По этой причине модель может быть использована в области краткосрочного прогнозирования, где нас интересуют ежечасовые, ежедневные или еженедельные наблюдения. Эти модели также используются в ситуациях, когда необходимо анализировать одновременно несколько временных последовательностей.
Сеть нейронов человеческого мозга представляет собой высокоэффективную комплексную систему с параллельной обработкой информации. Она способна организовать (настроить) нейроны таким образом, чтобы реализовывать восприятие образа, его распознавание во много раз быстрее, чем эти задачи будут решены самыми современными компьютерами. Так распознавание знакомого лица происходит в мозге человека за 100-120 мс, в то время как компьютеру для этого необходимы минуты и даже часы.
Искусственный нейрон в первом приближении имитирует свойства биологического нейрона. Здесь множество входных сигналов, обозначенных, x1, …, xn, поступают на искусственный нейрон. Эти входные сигналы, в совокупности обозначаемые вектором Х, соответствуют сигналам, приходящим в синапсы биологических нейронов. Каждый синапс характеризуется величиной синапсической связи или ее весом wi. Каждый сигнал умножается на соответствующий вес и поступает на суммирующий блок. Суммирующий блок, соответствующий телу биологического нейрона, складывает взвешенные входы алгебраически, создавая величину S. Таким образом, текущее состояn ние нейрона определяется как взвешенная сумма его входов s = wi.
Выход нейрона есть функция его состояния y = f ( s ), где f – активационная функция, более точно моделирующая нелинейную передаточную характеристику биологического нейрона и предоставляющая нейронной сети больше возможностей. Одной из наиболее распространенных является нелинейная функция с насыщением, так называемая логистическая функция или сигмоид (т.е. функция S-образного типа): f ( s ) = Послойная организация нейронов в искусственных нейронных сетях копирует слоистые структуры определенных отделов мозга. Оказалось, что такие сети обладают большими возможностями, чем однослойные, и в последние годы были разработаны многообразные алгоритмы их обучения. Многослойные сети могут образовываться каскадами слоев. Выход одного слоя является входом для последующего.
Сеть обучается, чтобы для некоторого множества входов давать требуемое множество выходов. Каждое такое множество рассматривается как одновременной подстройкой весов в соответствии с определенной процедурой. В процессе обучения веса сети становятся такими, чтобы каждый входной вектор вырабатывал выходной. Различают алгоритмы с учителем и без учителя.
Обучение с учителем предполагает, что для каждого входного вектора существует целевой вектор, представляющий собой требуемый выход, вместе они называются обучающей парой. Обычно сеть обучается на некотором числе таких обучающих пар. Предъявляется входной вектор, вычисляется выход сети и сравнивается с соответствующим целевым вектором, разность с помощью обратной связи подается в сеть, и веса меняются в соответствии с алгоритмом, стремящимся минимизировать ошибку. Векторы обучающего множества предъявляются последовательно, вычисляются ошибки, и веса подстраиваются для каждого вектора до тех пор, пока ошибка не достигнет приемлемо низкого уровня.
Приведем теоретическое обоснование того, что нейронная сеть способна к обучению. По сути, обучение нейронной сети сводится к получению на основе обучающих наборов вида ( X k, Y k ), k = 1.. p, нелинейной аппроксимации многомерной функции F: X®Y, где X- множество входов сети, Y- множество выходов.
Одним из строгих математических результатов в области аппроксимации функций является доказательство возможности аппроксимации произвольной непрерывной функции нейронной сетью с одним скрытым слоем с наперед заданной точностью.
Рассмотрим в качестве примера двухслойную нейронную сеть с n входами (x1, x2,..., xn) и одним выходом (y), которая достаточно проста по структуре и в то же время широко используется для решения прикладных задач.
Эта сеть изображена на рис. 1.2. Каждый i-й нейрон первого слоя ( i = 1,2..., m ) имеет n входов, которым приписаны веса w1i, w2i,..., wni.
Получив входные сигналы, нейрон суммирует их с соответствующими - 34 весами, затем применяет к этой сумме активационную функцию и пересылает результат на вход нейрона второго (выходного) слоя. В свою очередь, нейрон выходного слоя суммирует полученные от второго слоя сигналы с некоторыми весами vi. Для определенности будем предполагать, что передаточные функции в скрытом слое являются сигмоидальными ( s (s ) = ), а в выходном слое используется тождественная активационная функция, т. е.
взвешенная сумма выходов второго слоя и будет ответом сети.
Подавая на входы любые числа x1, x2,..., xn, мы получим на выходе значение некоторой функции Y=F(x1, x2,..., xn), которое является ответом (реакцией) сети. Очевидно, что ответ сети зависит как от входного сигнала, так и от значений ее внутренних параметров — весов нейронов. Выпишем точный вид этой функции:
В 1957 г. математик А. Н. Колмогоров доказал следующую теорему.
Теорема Колмогорова. Любая непрерывная функция от n переменных F(x1, x2,..., xn) на замкнутом ограниченном множестве может быть представлена в виде где gi и hij — непрерывные функции, причем hij не зависят от функции F.
Эта теорема означает, что для реализации функций многих переменных достаточно операций суммирования и композиции функций одной переменной. К сожалению, при всей своей математической красоте, теорема Колмогорова малоприменима на практике. Это связано с тем, что функции hij — негладкие и трудно вычислимые; также неясно, каким образом можно подбирать функции gj для данной функции F. Роль этой теоремы состоит в том, что она показала принципиальную возможность реализации сколь угодно сложных зависимостей с помощью относительно простых автоматов типа нейронных сетей. Более значимые для практики результаты в этом направлении появились только в начале 90-х г.г. в работах Хехт-Нильсена. Вкратце, суть этих результатов можно сформулировать следующим образом.
Пусть F(x1, x2,..., xn) — любая непрерывная функция, определенная на замкнутом ограниченном множестве, и e > 0 — любое сколь угодно малое число, означающее точность аппроксимации.
Теорема [21]. Существуют такое число m, набор чисел wij, и набор чисел vi, что функция приближает данную функцию F(x1, x2,..., xn) с погрешностью не более e на всей области определения.
Через s здесь обозначена любая непрерывная нелинейная функция одной переменной (например, сигмоидальная). Легко заметить, что эта формула полностью совпадает с выражением, полученным для функции, реализуемой нейросетью. В терминах теории нейросетей эта теорема формулируется так.
Любую непрерывную функцию нескольких переменных можно с любой заданной точностью реализовать с помощью двухслойной нейросети с достаточным количеством нейронов и нелинейной активационной функцией в скрытом слое.
- 36 Таким образом, независимо от вида функции, максимальное количество слоев нейронной сети, достаточных для аппроксимации заданного преобразования, не превышает двух. В практических реализациях сетей как количество слоев, так и число нейронов в каждом из них может отличаться от предлагаемых теоремой Колмогорова. Чаще всего число нейронов для двухслойной сети выбирают из интервала (n; 3n), где n –количество входов нейронной сети.
Следует избегать как слишком большого числа нейронов сети, так и чрезмерно малого. С одной стороны, чем больше нейронов, тем больше число связей между ними, и тем более сложные задачи способна решить нейронная сеть. Кроме того, если использовать заведомо большее число нейронов, чем необходимо для решения задачи, то нейронная сеть точно обучится.
Если же начинать с небольшого числа нейронов, то сеть может оказаться неспособной обучиться решению задачи, и весь процесс придется повторять сначала с большим числом нейронов. Вторая точка зрения опирается на "эмпирическое" правило: чем больше подгоночных параметров, тем хуже аппроксимация функции в тех областях, где ее значения были заранее неизвестны.
Рис.1.3 Примеры аппроксимации неизвестной функции функции полиномами 3-й и 8-й степеней. Очевидно, что аппроксимация, полученная с помощью полинома 3-ей степени, больше соответствует внутреннему представлению о "правильной" аппроксимации. Несмотря на свою простоту, этот пример достаточно наглядно демонстрирует суть проблемы.
Подводя итог анализа двух крайних позиций, можно сказать следующее: сеть с минимальным числом нейронов должна лучше ("правильнее", более гладко) аппроксимировать функцию, но выяснение этого минимального числа нейронов требует больших интеллектуальных затрат и экспериментов по обучению сетей. Если число нейронов избыточно, то можно получить результат с первой попытки, но существует риск построить "плохую" аппроксимацию. На практике подбор количества скрытых нейронов (и связанный с ним подбор количества весов) может, в частности, выполняться путем тренинга нескольких сетей с последующим выбором той из них, которая содержит наименьшее количество скрытых нейронов при допустимой погрешности обучения.
В связи с доказанной возможностью аппроксимации произвольных непрерывных нелинейных зависимостей, нейросетевая методология находит все новые успешные применения в практике управления и принятия решений, в том числе – в финансовой сфере. Лежащая в ее основе теория нелинейных адаптивных систем доказала свою полезность при выработке прогнозов в целом ряде финансовых отраслей.
Благодаря своей возможности выявлять нелинейные математические закономерности временных рядов, быстро адаптироваться к изменениям рыночных тенденций, нейронные сети (НС) являются на данный момент одним из самых перспективных инструментов прогнозирования. Такой подход обладает рядом неоспоримых достоинств.
Во-первых, нейросетевой анализ, в отличие от технического, не предполагает никаких ограничений на характер входной информации. Это могут быть как индикаторы данного временного ряда, так и сведения о поведении - 38 других рыночных инструментов (например, это могут быть последние изменения цен на нефть, изменения курсов ведущих мировых индексов, объемы продаж на бирже). Недаром нейросети активно используют именно институциональные инвесторы (например, крупные пенсионные фонды), работающие с большими портфелями, для которых особенно важны корреляции между различными рынками.
Во-вторых, в отличие от теханализа, основанного на общих рекомендациях, нейросети способны находить оптимальные для данного инструмента индикаторы и строить по ним оптимальную опять же для данного ряда стратегию предсказания. Более того, эти стратегии могут быть адаптивны, меняясь вместе с рынком, что особенно важно для молодых, активно развивающихся рынков, в частности, российского.
Как уже было отмечено, задача прогнозирования с использованием ИНС сводится к задаче аппроксимации многомерных функций, т.е. к задаче построения многомерного отображения. В зависимости от типа выходных переменных, аппроксимация функций может принимать вид классификации или регрессии. В задаче прогнозирования финансовых рынков можно выделить две крупные подзадачи: построение модели и обучение нейронных сетей, реализующих решение задачи (т.е. фактически построение аппарата отображения).
Модель нейросетевого прогнозирования включает: набор входных переменных; метод формирования входных признаков; метод формирования обучающего правила; архитектуру нейросети (ей); метод обучения нейросети (ей).
Для решения задачи прогнозирования необходимо найти такую нейронную сеть или комитет нейроэкпертов, который бы наилучшим образом строил отображение F: X®Y, обобщающее сформированный на основе ценовой динамики набор примеров {xt, yt}. Поиск такой нейронной сети или комитета нейроэкспертов осуществляется при помощи одного или нескольких алгоритмов обучения.
анализа, должным образом сформировав множество независимых входов и зависящих от них выходов. Как правило, модель строится для того, чтобы предсказывать значения временного ряда для одной целевой переменной, однако, в принципе, модель может предсказывать значения и нескольких переменных (например, доходы по акциям на различное время вперед), если в сеть добавить дополнительные выходные элементы.
При этом, однако, исследования в области прогнозирования временных рядов при помощи сетей продолжаются и в настоящее время, и никаких стандартных методов здесь пока не выработано. В нейронной сети многочисленные факторы взаимодействуют весьма сложным образом, и успех пока приносит только эвристический подход.
Типичная последовательность действий при решении задачи прогнозирования финансовых показателей с помощью нейронных сетей показана на рис. 1.4.
1. Определение временного интервала. Формирование 2. Определение входных величин. Определение прогнозируемых величин. Предварительная обработка данных.
3. Формирование входных множеств (обучающего, валидационного, тестового) 4. Выбор архитектуры нейросети (количество слоев, число нейронов в каждом слое, вид функции активации 5. Выбор обучающего алгоритма и обучение нейросети.
Рис. 1.4. Блок-схема технологического цикла предсказаний рыночных временных рядов на основе нейросетей - 40 На первом этапе исследователем определяются базовые характеристики данных, которые определяются торговой стратегией. Формируется база данных.
На втором этапе определяется набор входных и прогнозируемых величин, производятся анализ и очистка базы данных. Для этих целей используются оптимизационные, статистические и другие методы.
На третьем этапе производится формирование образов, подаваемых непосредственно на выходы нейросетей, с последующим созданием обучающих и тестовых множеств.
Архитектура нейросети может быть различной, но в большинстве случаев используются сети типа многослойный перцептрон.
На пятом этапе с использованием выбранных алгоритмов обучения производится обучение нейронной сети, или, если это предполагается постановкой задачи, нескольких нейронных сетей (от двух до нескольких тысяч), которые после участвуют в «конкурсе» на попадание в комитет нейроэкспертов.
Прогнозирование (шестой этап) осуществляется по тому же принципу, что и формирование обучающей выборки. При этом на этапе адаптивного предсказания и принятия решений выделяются две возможности: одношаговое и многошаговое прогнозирование.
В первую очередь отметим, что перед тем как начать формировать и обучать ИНС, входную информацию необходимо должным образом подготовить. Предварительный анализ входных данных может существенно улучшить как параметры обучения, так и работу обученной нейросетевой системы.
В частности, целью такого анализа может быть определение входных параметров, значимых для предсказания данного ряда. Для получения более высокой точности прогнозов можно провести статистический анализ временного ряда, под которым подразумевается: определение модели временного сезонной и циклической составляющих. В случае проведения такого анализа прогнозирование ведется для “случайной” (остаточной) составляющей временного ряда.
При прогнозировании финансовых рынков при помощи ИНС в качестве входной информации могут выступать: ценовая динамика и ее производные (значения индикаторов, значимые уровни и т.п.) и рыночные (часто макроэкономические) показатели. Каждый набор входных переменных обучающего, тестового и рабочего множеств, составляющих «образ», должен обладать свойством инвариантности. Выходные сигналы, формирующиеся на выходах скрытых и выходных нейронов и подающиеся на выходы нейронов следующих слоев, лежат в интервале их активационных функций. Таким образом, логично полагать, что и входные сигналы должны также лежать в интервале активационных функций нейронов 1-го скрытого слоя.
Рассмотрим простейший способ формирования входных образов для обучения ИНС. Основным понятием при работе с рассматриваемым здесь видом входной информации является «окно» («глубина погружения»), т.е. то количество периодов времени, которое попадает в «образ», формируемый на входе сети. При работе с часовой динамикой курсов окно размером n будет означать, что исследователя интересует динамика курса за последние n часов.
Чтобы ИНС работала с «образами» такого окна, при проектировании архитектуры сети необходимо выделить n входных нейронов.
Суть метода формирования входных образов заключается в следующем. Предположим, что интервал активационных функций выходных нейронов (0,1), а данные каждого из входных образов лежат в диапазоне [Min..Max], тогда наиболее простым способом нормирования будет:
После такого преобразования каждый «образ», состоящий из n последовательных цен, нормируется так, что все значения «образа» лежат в интервале от 0 до 1. Таким образом, при любом уровне цен гарантируется инвариантность преобразования входной записи. Такое перекодирование не лишено смысла, так как трейдер-человек обычно оценивает данные временного ряда в относительном выражении с помощью стандартных приемов.
На вход прогнозирующей нейронной сети следует подавать не значения курсов, а их приращения или логарифмы отношений последовательных значений [4]. В частности, это необходимо делать потому, что в промежутке времени, который охватывают примеры обучающего множества, как правило, заметно влияние инфляции. Т. о., если использовать значения курсов или их разность, то, фактически, в разные дни мы получим разные единицы измерений. Отношения последовательных котировок лишены этого недостатка.
Отметим, что нейросетевое моделирование в чистом виде может базироваться и лишь на исходных данных (временном ряде), а также использовать в качестве входных данных различные финансовые и иные показатели, значения которых влияют на изменение курса прогнозируемой акции. Поскольку выявить все такие факторы (и степень их влияния) однозначно, как правило, сложно, на практике чаще всего используется не единственная нейронная сеть, а целые комитеты нейронных сетей. Сети-эксперты, входящие в такой комитет, могут отличаться наборами входных данных, архитектурой, методами обучения. Задача подготовительного (тестового) этапа в этом случае заключается еще и в эффективной организации комитета, исключении из него заведомо «некомпетентных» (дающих неудовлетворительные прогнозы) сетей-экспертов, разработка механизма согласования прогнозов с целью получения единого решения.
1. В связи с тем, что в настоящее время российский рынок акций является нестабильным, методики краткосрочного портфельного инвестирования являются пока более востребованными, чем долгосрочные.
2. Традиционные подходы к формированию оптимальных портфелей финансовых активов рассчитаны на долгосрочное инвестирование, так как для оценок риска и доходности они используют усредненные по большому промежутку времени характеристики.
3. Возникает необходимость в разработке подходов к определению оценок риска и доходности портфельных инвестиций для краткосрочных стратегий (а также долгосрочных, но подразумевающих частый пересмотр портфеля) 4. В качестве основы для получения оценок риска предлагается выбрать D-оценки Руссмана и с их помощью трактовать риск как степень угрозы неполучения заявленной доходности в течение инвестиционного периода. Риск при этом становится переменной величиной и зависит от текущей доходности портфеля.
5. Как известно, в области краткосрочного прогнозирования хорошо себя зарекомендовали нейронные сети. Поэтому оценки доходности портфеля предлагается получать с помощью специальным образом организованного нейросетевого комитета.
6. На основе полученных таким образом оценок риска и доходности в дальнейшем планируется сформировать новую стратегию управления инвестиционным портфелем.
- 44 II. ПРИМЕНЕНИЕ D-ОЦЕНОК РУССМАНА К ЗАДАЧЕ УПРАВЛЕНИЯ ПОРТФЕЛЕМ АКТИВОВ
II.1 Вывод на основе D- оценок формулы оценки риска для произвольной непрерывной траектории поведения системы в плановом периоде В данной главе управление портфелем рассматривается как процесс достижения цели системой переменной структуры, а риск, в свою очередь, определяется как степень угрозы недостижения и является функцией положения системы относительно цели.Это означает, что мы должны:
– в рамках заданного объема средств (бюджета), в заданный промежуток времени, формируя портфель и реорганизуя его, получить при закрытии позиции запланированный адекватно конъюнктуре рынка доход;
– если же (например, в связи с резким изменением конъюнктуры) достижение цели оказывается невозможным, то обнаружить это как можно раньше и изменить параметры цели так, чтобы она стала достижимой. Изменение может выражаться в уменьшении величины дохода, в увеличении времени, или в том и другом одновременно.
Придадим точный смысл введенному ранее пониманию риска как степени угрозы потери управляемости.
Введём величины (параметры), которые будут использоваться при определении системы. За плановый срок tpl обозначим время, в течение которого нужно добиться планового результата (цели) Аpl. Заметим, что измерять количественное выражение результата и время, необходимое для его достижения, можно и в безразмерных величинах; для этого достаточно положить Apl и tpl равными единице. Это особенно удобно, если значения Apl и tpl практически не изменяются при переходе от одного планового срока к другому. Пусть из предыстории объекта известно, что минимальная скорость его движения к цели есть Vmin (минимальная скорость прироста стоимости портфеля), а максимальная скорость – Vmax. (Заметим, что в случае с ценными бумагами для определения минимальной и максимальной скорости есть смысл использовать достаточно короткую предысторию, это связано с механизмом быстрого старения подобной информации). Допустим следующую особенность: минимальная скорость движения может быть отрицательной это характерно для случаев с ценными бумагами. В качестве планового результата мы ставим достижение бумагой определённого прироста стоимости за плановое время, но, как известно, курс может падать, что в нашей трактовке говорит об отрицательности минимальной скорости.
На рис. 2.1 уравнение прямой OB есть A = Vmax t, уравнение OD описывается формулой A = Vmin t.
Если в процессе движения объект попадает в треугольник D1CD, то достижение цели в заданное время становится невозможным, поэтому этот треугольник становится запретной областью и приближение к нему увеличивает угрозу потери управляемости. Ясно, что риск, отражающий величину этой угрозы, должен стремиться к бесконечности при приближении точки к прямой CD1.
Рис. 2.1 Графическое представление параметров системы Также будем считать запретной область, лежащую ниже прямой OD1, хотя из лежащей там точки мы могли бы теоретически достичь цели в плановый срок. Тем не менее, минимальная скорость «производства» результата (она может быть и отрицательной, если рассматривается не только наращивание результата, но допускается и его уменьшение) понимается нами как оценка надежности объекта, движение с еще меньшей скоростью следует понимать могут привести и к разрушению самого объекта.
Именно поэтому наше количественное определение риска должно предусматривать и стремление его к бесконечности при приближении объекта к отрезку OD1. Таким образом, ломаная OD1C, выделенная жирно на рис. 2.1, является границей запретной зоны. За величину риска для точки М с координатами ( t1, A1 ) мы принимаем расстояние:
Поясним смысл точек T1 и T2 на рис. 2.1. Очевидно, что в задачах управления, когда состояние объекта описывается в терминах «времярезультат», очень важно нахождение точек контроля, которые могут быть также моментами времени для принятия решения о применении управляющих воздействий или пересмотра параметров цели.
Организация системы контроля должна удовлетворять двум противоречивым требованиям: точек контроля не должно быть слишком много (за это приходится платить), но их не должно быть слишком мало (за это приходится расплачиваться ситуацией, когда что- либо менять уже поздно).
Теоретически объект мог сразу двигаться с максимальной скоростью по прямой ОВ и к моменту T1 попасть в точку B1, после чего даже движение с минимальной скоростью позволяет вовремя достичь цели. Очевидно поэтому, что до момента контролировать объект не имеет практического области и контроль потеряет смысл.
Итак, в дальнейшем, решая задачу о целесообразности реорганизации портфеля активов, мы будем искать первый момент времени для принятия решения на отрезке [T1, T2 ].
Укажем необходимые ограничения на соотношения между параметрами:
1) максимальная скорость должна обеспечивать достижение планового результата за плановый срок: Vmaxtpl >Аpl, в противном случае ни о каком выполнении результата речь идти не может;
2) двигаясь всё время с минимальной скоростью, мы не должны превысить планового результата Vmintpl < Аpl, иначе нет необходимости ставить задачу, нужный результат будет получен без всяких усилий;
3) минимальная скорость должна быть меньше максимальной Vmin = k2 ) и ( k1 >= k3 )), то для него ((k1-k2)/k1)*100%. Для полученной выборки процентов падений находятся математическое ожидание и дисперсия. Результаты приводятся в таблице 2.7.
Далее отдельно рассмотрим случаи, когда итог дня был отрицательный и итог трех часов отрицательный, но итог дня лучше итога первых трех часов (рис.2.8).
Рис. 2.8 Случай, когда итог дня отрицательный, но после 13-00 курс акции вырос.
Если верно, что ( k1 k2 ) и ( k1 k3 ) и ( k2 k3 ), то рассчитываются ((k1-k2)/k1)*100%. Для данной выборки также находится математическое ожидание и дисперсия. Результаты приводятся в таблице 2.8.
Статистика падений курса за первые 3 часа после открытия в те дни, когда итог дня был отрицательный, но итог дня лучше итога трех часов.
- 74 Далее для каждой рассматриваемой акции каждый день вычисляется величина m - минимальное значение курса этой акции в течение первых трех часов. Затем рассматриваются дни, в которые итог оказывался положительным и для таких дней находится значение максимального падения курса в течение первых трех часов.
Отметим, что в процессе тестирования торговой системы были рассмотрены и многие другие классы траекторий, но наилучших результатов при ежедневном пересмотре портфеля удалось добиться при использовании траектории вида f (t ) = t 0.75.
Если плановый период составляет несколько дней, то наиболее простым предположением является равномерное движение системы к цели, то есть траектория вида f (t ) = t. Отдельного рассмотрения, конечно, заслуживают функции, составленные из n участков кривых вида f (t ) = t a,a > 0, где n –количество дней, составляющих плановый период.
В заключение отметим, что статистическое исследование проводилось в начале 2008 года. В связи с наступившим мировым экономическим кризисом в настоящий момент изменились некоторые характеристики рынка, задействованные в этом исследовании, в частности, резко возросла волатильность котировок. Повторное исследование на данных 2008 года не проводилось, так как аналитики ожидают, что после завершения острой фазы кризиса такие параметры, как волатильность, вернутся в свои обычные рамки.
1. С использованием аппарата D-оценок Руссмана управление портфелем ценных бумаг может рассматриваться как процесс достижения цели системой переменной структуры, а риск, в свою очередь, определяться как степень угрозы недостижения и являться функцией положения системы относительно цели.
2. Задача управления портфелем ставится следующим образом: сформировать портфель таким образом, чтобы риск, трактуемый как максимум трудности достижения цели этого портфеля, при движении системы вдоль некоторой предполагаемой траектории A = f (t ) был минимален. Целью в данном случае является получение дохода Аpl за время tpl.
3. С помощью аппарата D-оценок выводятся формулы оценки портфельного риска для произвольной непрерывной траектории в плановом периоде.
4. Анализ статистических данных позволяет указать наиболее значимые классы траекторий движения системы.
5. Для этих траекторий получены конкретные формулы оценки портфельного риска, которые позволили предложить алгоритмы формирования портфеля, приносящего запланированный доход с минимально возможным в плановом периоде риском.
6. Для реализации этих алгоритмов (в частности, оценки параметров системы в плановом периоде) необходим разработанный аппарат прогнозирования коридора значений доходности для каждой акции, которая может быть включена в портфель.
- 77 III. РАЗРАБОТКА И ПРАКТИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ СИНТЕТИЧЕСКОЙ МЕТОДИКИ УПРАВЛЕНИЯ ПОРТФЕЛЕМ
III.1 Подготовка данных для нейросетевого анализа В главе 1 уже отмечалось, что при описании рыночной ситуации необходимо переходить от рядов котировок (содержащих тренды, циклы и т.п.) к рядам приращений этих котировок. Рис. 3.1 иллюстрирует целесообразность такого перехода. На верхнем графике приведены значения котировок, на нижнем – абсолютные приращения этих значений. Как видим, диапазон изменения приращений значительно уже и не содержит ярко выраженных трендов.Рис. 3.1. Описание рыночной ситуации при помощи приращений котировок.
Но такого преобразования данных на практике, как правило, бывает недостаточно. Это связано с тем, что ряды приращений котировок зачастую бывают противоречивыми, в том смысле, что схожим наборам входных данных зачастую соответствуют совершенно разные (например, противоположные по знаку) выходные значения. Кроме того, ряды рыночных котировок часто содержат шумы или резкие всплески, которые были обусловлены определенными внешними факторами и могут никогда не повториться в дальнейшем. Все это усложняет задачу обучения нейронной сети и требует разработки специальных алгоритмов подготовки входных данных.
Обратившись к естественным обучающимся системам, можно заметить, что чаще всего обучение происходит не сразу на всем обучающем множестве (которым для естественных систем являются объекты реального мира), а на его упрощенной модели, отражающей лишь некоторые примеры и закономерности. По мере усвоения более простого материала модель становится все более подробной и адекватной. Т.е. обучение происходит как бы «от простого к сложному». По аналогии с этим, введем понятие «сложность» обучающей выборки (ОВ) для нейронной сети.
Под сложностью ОВ [12] будем подразумевать сложность ее аппроксимации нейронной сетью, которую для пары наборов ( X, Y ) i, ( X, Y ) j можно охарактеризовать следующим образом [5]:
где X и Y - соответственно входные и выходные векторы нейронной сети.
Сложность воспроизведения всей ОВ может быть получена расчетом среднего или максимального и минимального значений Lij для всех пар наборов.
Применение соотношения (3.1), в теории непрерывных функций называемого константой Липшица, с целью оценки обучающей возможности ОВ обсуждалось в литературе и показало свою практическую значимость [12].
Введенное таким образом понятие сложности интуитивно понятно. Действительно, сеть тем труднее обучить, чем больше в обучающей выборке присутствует наборов, для которых входные векторы близки друг к другу, а выходные далеки.
Одним из способов снижения сложности ОВ является искусственное сближение выходных векторов для наборов, входные вектора которых находятся близко друг к другу. При этом выходной вектор набора k упрощенной выборки ОВ' рассчитывается как среднее выходных векторов наборов исходной выборки ОВ, взвешенное по функции от расстояния до входного вектора k-ого набора:
Здесь cik ( 0 cik 1 ) - весовые коэффициенты, вычисленные с помощью специальной взвешивающей функции. Роль взвешивающей функции может выполнять функция от расстояния между входными векторами, удовлетворяющая следующим условиям:
1. Существовать и быть неотрицательной на всем множестве возможных значений расстояния.
2. Убывать с увеличением расстояния.
3. В зависимости от некоторого параметра a изменять скорость убывания. (Параметр a задает степень упрощения исходной выборки).
Одной из наиболее известных и широко применяемых функций, удовлетворяющих перечисленным условиям, является функция Гаусса, которую и предлагается использовать в качестве взвешивающей.
На рис. 3.1 приведен график этой функции.
Рис. 3.1. График функции Гаусса.
Таким образом, весовые коэффициенты в формуле (3.2) будут вычисляться следующим образом:
Здесь a > 0 параметр, задающий ширину (отклонение) функции и определяющий ее влияние. Функция Гаусса принимает свое максимальное значение, равное единице, при X = X и убывает при удалении Xi от Xk.
коэффициент), cik » 0, если X i - X k Рассмотрим пример.
(Y3’= Y3, так как X3 «не похож» на X2 и X1; значения Y2’ и Y1’ сблизились по сравнению с Y2 и Y1, так как X2 и X1 близки) Заметим, что при уменьшении значения параметра сближения a > преобразованная (упрощенная) выборка будет приближаться к исходной.
Ниже приведены примеры упрощения обучающей выборки, представляющей собой значения курсов некоторой акции (изображены исходные данные и преобразованные).
Для количественной оценки упрощения ОВ в процессе обучения НС введем следующие величины:
d (OB; OB ' ) - отклонение упрощенной выборки от исходной;
d ( HC ; OB ' ) - ошибка нейронной сети на упрощенной выборке ОВ';
d ( HC ; OB ) - ошибка нейронной сети, обученной на упрощенной выборке, рассчитанная для исходной выборки ОВ.
Пусть эти величины определены как среднее расстояние между выходными векторами в выбранной метрике. Тогда имеет место неравенство:
Это позволяет воспользоваться левой частью неравенства в качестве критерия остановки обучения, а не тратить время на дополнительный расчет Рис. 3.2. График исходной и упрощенной (при a =0,2) обучающей выборки Рис. 3.3 График исходной и упрощенной (при a =0,1) обучающей выборки Вместе с тем, нет необходимости обучаться на ОВ' с точностью, большей точности самой ОВ'. Следовательно, должно выполняться соотношение:
Учитывая (3.4) и (3.5), можно предложить следующую схему обучения НС:
1) Задается начальное значение параметра упрощения.
3) Производится обучение сети до выполнения одного из условий:
а) d (OB; OB ' ) + d ( HC ; OB ' ) d DOP, где d DOP - допустимая ошибка, определяемая требуемой точностью. Обучение оканчивается.
ход на шаг 2.
Данный алгоритм позволяет изменить процесс обучения так, что в начале НС будет обучаться основным тенденциям и закономерностям, несколько теряя в точности, но зато не повторяя присутствующий в исходной выборке шум. По мере усложнения выборка ОВ' будет приближаться к исходной и, в конечном итоге, либо повторит ее, либо обеспечит достаточную точность решения задачи, что для НС будет означать финальный этап обучения.
Таким образом, использование адаптивного упрощения ОВ позволяет снизить время и, что более важно, повысить качество обучения НС. Это достигается в основном за счет снижения избыточной подробности обучающего множества на ранних этапах обучения, что вполне характерно для естественных обучающихся систем.
Используемые в подходе преобразования относятся только к исходным данным и не затрагивают алгоритма настройки весовых коэффициентов НС. Это делает подход совместимым со многими известными методами ускоренного обучения НС, тем самым давая дополнительный выигрыш во времени и качестве обучения.
Отметим, что возможно неравномерное упрощение ОВ, когда коэффициент упрощения различен для каждого набора и определяется с учетом ошибки НС на данном наборе, а не на всей выборке в среднем.
Как отмечалось ранее, задача нейросетевого прогнозирования может решаться как задача аппроксимации (нелинейной регрессии) или как задача классификации. Во втором случае выходом нейронной сети является номер класса, к которому принадлежит прогнозируемая величина. (Например: первый класс- существенное увеличение курса акции, второй класс – существенное уменьшение курса, третий класс – незначительное увеличение или уменьшение). При использовании такого подхода введенное ранее понятие сложности ОВ не применимо. Способом повышения качества ОВ может стать предварительная (до начала процесса обучения) классификация обучающих наборов.
Вместо общей оценки сложности введем в рассмотрение две новых характеристики ОВ: показатель повторяемости ОВ, характеризующий сходство образов внутри каждого из классов ОВ, и показатель противоречивости ОВ, характеризующий сходство образов в разных классах. Очевидно, что оба этих показателя интуитивно связаны со сложностью: можно сказать, что чем ниже повторяемость и выше противоречивость, тем выше сложность ОВ.
Рассмотрим эти показатели подробнее. Учитывая, что НС являются универсальным средством аппроксимации, противоречивыми будем считать наборы, описывающие одинаковые ситуации, но принадлежащие к разным классам. Для оценки противоречивости наборов перейдем от описания входного вектора в виде значений временного ряда (ВР) к его описанию в виде номеров классов, к которым принадлежат соответствующие значения ВР.
ai, bi (i = 1..n) — значения временного ряда, c a, cb — номер класса распознаваемого образа. Для определения степени противоречивости перейдем к векторам A = a1, a 2,..., a n, c a и B ' = b1', b 2,..., bn, c b, где a i, bi (i 1; n ) — номер d ab = n c - 1, где n c — общее число классов в ОВ. Противоречивость ОВ определяется как c a = cb. Повторяемость наборов для класса c i определяется как r i = n ic, n ir — число повторяющихся наборов в классе i; nic — общее число нагде боров в классе i.
классов в ОВ.
На основе анализа повторяемости ОВ делается заключение о том, насколько удачно выбраны вид и размер описания ситуации.
На рис. 3.4 приведено 9 экспериментально полученных классов для разных вариантов сочетания повторяемости и противоречивости ОВ Рис 3.4. Варианты сочетания повторяемости и противоречивости ОВ Рассмотрим, как попадание в какой-либо из этих классов характеризует успешность обучения НС.
1 — обучение НС затруднено, задача в таком виде не может быть решена, в первую очередь необходимо применение методов повышения повторяемости ОВ (например, увеличение ОВ).
2 — обучение НС затруднено, решение задачи неустойчивое, необходимо применение методов снижения противоречивости данных ОВ (например, увеличение числа входов НС).
3 — обучение НС затруднено, необходимо применение методов снижения противоречивости данных ОВ, классы сформированы некомпактно, 4 — решение задачи неустойчиво, проявляется эффект переобучения, необходимо применение методов повышения повторяемости.
5,6 —решение задачи неустойчивое, может проявляться эффект переобучения, рекомендовано изменение способа разбиения на классы.
7 —необходимо применение методов повышения повторяемости.
8 — оптимальное сочетание значений параметров повторяемости и противоречивости ОВ для качественного обучения НС.
9 — идеальное сочетание значений параметров повторяемости и противоречивости, для реальных приложений практически нереализуемо.
Увеличение размера входов НС может гарантировать получение непротиворечивой ОВ. В то же время, такой способ снижения противоречивости ОВ имеет существенный недостаток — вместе с противоречивостью существенно снижается и повторяемость полученной ОВ. Малая повторяемость ОВ приводит к переобучению НС [12] и неспособности сети обобщать полученный опыт на будущие значения прогнозируемой величины. Описанное противоречие подтверждает существенную значимость правильного выбора размера описания ситуации для ВР.
Современные методы обучения многослойных искусственных нейронных сетей (ИНС) подразумевают случайное формирование первоначальных значений весовых (настроечных) коэффициентов. В этой связи предсказания сетей, обученных на одной и той же выборке данных, могут отличаться. Этот недостаток можно превратить в достоинство, организовав комитет нейроэкспертов, состоящий из нескольких ИНС. Разброс в предсказаниях экспертов позволяет получить представление о «качестве» получаемых прогнозов.
Среднее значений комитета дает лучшие предсказания, чем средний эксперт из этого же комитета, причем снижение ошибки может быть довольно заметным [30]. Таким образом, метод комитетов может существенно повысить качество прогнозирования.
Как уже отмечалось ранее, нейросетевое моделирование может базироваться не только на временном ряде приращений котировок, а использовать в качестве входных данных еще и различные финансовые и иные показатели, значения которых влияют на изменение курса прогнозируемой акции. Поскольку выявить все такие факторы (и степень их влияния) однозначно, как правило, сложно, это является дополнительным аргументом в пользу использования не единственной нейронной сети, а комитета нейронных сетей.
Более того, как показал анализ статистических данных в главе 2, одни и те же факторы в одни периоды рынка (например, когда наблюдается убывающий тренд) могут оказывать влияние на котировки, а в другие (когда тренд растущий) не оказывать.
Сети-эксперты, входящие в нейросетевой комитет, могут отличаться друг от друга наборами входных данных (факторов влияния), архитектурой, методами обучения, специальным образом организованными обучающими выборками. Задача подготовительного (тестового) этапа в этом случае заключается еще и в эффективной организации комитета, исключении из него заведомо «некомпетентных» (дающих неудовлетворительные прогнозы) сетей-экспертов, разработка механизма согласования прогнозов с целью получения единого решения.
Идею использования нейросетевого комитета для прогнозирования приращений котировок, предложенную в работе Ежова и Шумского [30], можно существенно развить, если отказаться от использования среднего арифметического значения прогнозов всех сетей комитета в качестве итогового. Вместо этого, можно, например, обучить еще одну нейронную сеть («руководителя комитета»), входами которой будут прогнозы всех нейроэкспертов, а выходом – итоговый прогноз комитета (рис. 3.5).
Рис. 3.5 Архитектура модели управления комитетом нейроэкспертов Другим подходом может являться введение понятия «специализации»
экспертов. С этой целью предлагается провести предварительную кластеризацию входных образов обучающего множества, то есть разбить исходную выборку на несколько (2-5) групп схожих входных наборов. Например, в некоторые группы данных могут попасть наборы, характеризующиеся растущим трендом, в другие – убывающим и т.п.
Для проведения такой предварительной кластеризации обучающего множества может быть использована специальная самоорганизующаяся нейронная сеть, называемая картой Кохонена. Далее для каждого кластера выделяется как минимум два нейроэксперта, которые обучаются только на данных, попавших в этот кластер. Таким образом, создаются подкомитеты нейроэкспертов, специализирующихся на прогнозировании в условиях той или иной сложившейся рыночной ситуации.
- 88 В режиме функционирования комитета входной образ сначала анализируется картой Кохонена, чтобы определить, к какому из имеющихся входных кластеров он относится. Затем итоговый прогноз вырабатывается подкомитетом, специализацией которого является данный кластер.
Нейросетевая карта специализированных экспертов может использоваться не только в процессе прогнозирования, но и для аналитических целей.
В частности, на основе карты по мере поступления запросов можно сделать вывод о проблемных областях комитета (например, выявить кластеры, эксперты которых отличаются худшим качеством прогноза). Это дает новую стратегию обучения и пополнения комитета новыми моделями.
Наконец, при использовании третьего подхода к формированию комитета нейроэкспертов, все нейронные сети обучаются на одних и тех же данных, но в комитет изначально включаются сети, отличающиеся принципиально разной архитектурой (многослойные персептроны, рекуррентные сети, RBF –сети и любые другие, хорошо зарекомендовавшие себя при решении задач прогнозирования). Каждая из этих сетей по-своему решает задачу нелинейной аппроксимации отображения F : X ® y, где X – входной вектор сети, y - выходное (прогнозное) значение. Поэтому разница в прогнозах, выдаваемых экспертами, будет следствием не только случайности начальных значений весовых коэффициентов сетей, но и принципиального различия этих сетей.
После завершения этапа обучения все входные данные обучающей выборки кластеризуются, как и при использовании предыдущего подхода. А затем для каждого нейроэксперта определяется коэффициент его компетентности на данных каждого кластера (например, в процессе экспериментального тестирования было замечено, что вероятностная сеть обеспечивает более высокое качество прогноза в условиях наличия растущего тренда курса акции, а сеть, обученная по алгоритму обратного распространения, наоборот, убывающего). В процессе функционирования сети коэффициенты компетентности корректируются в зависимости от величины ошибок прогноза нейроэксперта на данных этого кластера. Объединение экспертов в ансамбль при решении задачи итогового прогнозирования производится с весами, соответствующими коэффициентам компетентности нейроэкспертов для того кластера, в который попадает анализируемый входной вектор.
Предложенные подходы являются примером нелинейного объединения алгоритмов в комитет. В общем случае получение теоретических построений, описывающих точность таких моделей, затруднено. На практике используют обычные методы перекрестного оценивания и валидационные выборки.