ПРОГРАММНЫЕ СИСТЕМЫ: ТЕОРИЯ И ПРИЛОЖЕНИЯ
ISSN 2079-3316 № 2(20), 2014, c. 47–61
УДК 517.977
В. И. Гурман, О. В. Фесько, И. С. Гусева, С. Н. Насатуева
Итерационные процедуры на основе метода
глобального улучшения управления
Аннотация. Рассматриваются конструктивные методы итерационной оптимизации управления на основе минимаксного принципа В. Ф. Кротова
и родственные ему локализованные методы. В серии вычислительных экспериментов исследуются свойства улучшаемости и сходимости соответствующих алгоритмов. По результатам намечаются направления дальнейших исследований.
Ключевые слова и фразы: оптимальное управление, динамические системы, скользящий режим.
Введение Практическое использование известных классических методов математической теории управления оказалось весьма ограниченным изза сложностей реализации теоретических соотношений, описывающих искомое решение. Это послужило мотивом для разработки приближенных методов, позволяющих искать оптимальное решение напрямую, минуя условия оптимальности, посредством операций улучшения управления, повторяемых в итерационной процедуре. При этом косвенно использовались как сами основополагающие результаты теории оптимального управления, так и принципы, лежащие в их основе.
В целом представление о состоянии дел и направлениях в этой области дают обзоры в недавних монографиях [1], [2] и статье [3].
Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (проект 12-01-00256-а).
c В. И. Гурман, О. В. Фесько, И. С. Гусева, С. Н. Насатуева, c Институт программных систем имени А. К. Айламазяна РАН, c Бурятский государственный университет, c Программные системы: теория и приложения, 48 В. И. Гурман, О. В. Фесько, И. С. Гусева, С. Н. Насатуева Одно из направлений базируется на достаточных условиях оптимальности [4], [5] и принципе расширения [6], отличающихся значительным многообразием подходов и результатов. Спецификой является априорно приближенный подход, возможность оценивания получаемых приближенных решений и использование характерного свойства вырожденности прикладных задач и соответствующих специальных методов для поиска начальных приближений, что, как известно, является критическим моментом при использовании итерационных улучшающих алгоритмов.
В [7] сформулирована абстрактная задача улучшения: пусть на некотором множестве M, называемом основным, задан фукционал и элемент I из множества D M, называемого допустимым. Требуется найти элемент II D, на котором меньше: (II ) < (I ).
Решая эту задачу последовательно, можно получить улучшающую, в частности минимизирующую, последовательность { }. Введено понятие оператора улучшения (), такого, что (()) (), и неподвижного элемента: (()) = (). Представлена общая схема построения операторов улучшения и соответствующих итерационных процедур на основе локализации и упрощения глобальных условий улучшения и оптимальности в окрестности элемента, получаемого на текущей итерации, с анализом их общих свойств, в том числе монотонности и сходимости.
В этой статье приводятся результаты серии вычислительных экспериментов на представительных примерах, в которых исследуются свойства метода глобального улучшения управления [5, 8–11] и его локализованных версий, родственных другим локальным методам, в том числе известным градиентным методам. Основная цель — исследовать возможности улучшения характерных неподвижных элементов, таких как классические экстремали Эйлера–Лагранжа или Понтрягина (в частности, так называемых особых режимов), если они не оптимальны.
На основании этих результатов делаются практические выводы об их эффективности и намечаются направления дальнейших исследований.
Итерационные процедуры на основе метода глобального улучшения управления 1. Задачи улучшения управления дискретными и непрерывными динамическими системами Пусть имеется динамическая управляемая система — дискретная T = {,..., }, (1) ( + 1) = (, (), ), или непрерывная () = (,, ), [, ], (2) R, () U (, ), ( ) =, при традиционных для работ прикладного направления предположениях. В частности, для непрерывных систем предполагается кусочная непрерывность () и кусочная гладкость (). Множество решений каждой из этих систем — процессов = ((), ()) — обозначим D. Задан функционал как некоторая непрерывная функция конечного состояния = (( )) и некоторый процесс I. Требуется найти другой (лучший) процесс II, такой что (II ) (I ).
Рекурсивное повторение операции улучшения приводит к итерационной процедуре, порождающей улучшающую, в частности минимизирующую, последовательность.
Эта задача решается по принципу расширения [4] заменой исходной задачи (D, ) на ее расширение (E, ), где E получается исключением дискретной или дифференциальной связи, а — обобщенный лагранжиан Кротова.
Для дискретной системы имеем = (( )) (, (), ()), = где (,, ) = ( + 1, (,, )) (, ), () = () + (, ) (, ), (, ) — произвольная функция, определяющая функционал, которая задается так, чтобы разрешалась задача улучшения.
Следуя [11], будем искать из рекуррентных соотношений ( ) (, ) = + 1, (,, I ()), {,..., 1}, (3) 50 В. И. Гурман, О. В. Фесько, И. С. Гусева, С. Н. Насатуева Решая систему находим улучшенный допустимый процесс II (), II () = (, II ()).
Аналогично для непрерывной задачи:
где (, ) — гладкая функция, которая задается как решение задачи Коши для линейного уравнения в частных производных Решение задачи Коши для обыкновенного дифференциального уравнения выдаёт улучшенный допустимый процесс II (), II () = (, II ()).
Как видно, указанные операции улучшают или, по крайней мере, не ухудшают исходное управление. Другими словами, получается монотонная невозрастающая числовая последовательность ( ). Если функционал () ограничен снизу на множестве D, то, как известно из анализа, эта последовательность имеет предел, что означает сходимость построенного итерационного процесса по функционалу.
Для линейных относительно переменных состояния задач находится в виде (, ) = () + T (), где (), () получаются из решения задачи Коши для системы + 1 дискретных цепочек Итерационные процедуры на основе метода глобального улучшения управления или обыкновенных дифференциальных уравнений Для линейно-квадратических относительно переменных состояния задач — дискретной (8) и непрерывной глобальным соотношениям (3), (5) удовлетворяют линейно-квадратические коэффициенты которых определяются подстановкой этой формы в указанные соотношения.
В общем случае нелинейных систем операторы улучшения могут строиться путем задания функции в форме многомерных степенных полиномов и такой же полиномиальной аппроксимации в заданной области соотношений (3), (5) на некоторой сетке узлов в окрестности текущего приближения. Размеры окрестности могут регулироваться по принципу локализации во взаимосвязи с порядком аппроксимирующих полиномов. Это дает возможность строить разнообразные итерационные процедуры различных порядков, в том числе — многометодные, с учетом специфики конкретных задач и с ориентацией на параллельные вычисления.
2. Вычислительные эксперименты (ВЭ) Была проведена серия ВЭ с четырьмя алгоритмами (№ 1 № 4), реализующими метод глобального улучшения и его локализованные версии с целью изучения их поведения в окрестности неподвижных элементов.
52 В. И. Гурман, О. В. Фесько, И. С. Гусева, С. Н. Насатуева Первые два (№ 1, № 2) — алгоритмы первого и второго порядка без локализации, улучшающие управления в непрерывных системах вида (7) и (9) соответственно.
Алгоритм № 3 — дискретный 1-го порядка, локализованный путем штрафования за отклонение от текущего приближения: исходный функционал заменялся функционалом вида = (1 ) + ( I ), где — функционал типа нормы, 0 1.
Алгоритм № 4 — также дискретный 1-го порядка, локализованный путем сужения допустимого множества в окрестности текущего приближения.
Для алгоритмов 1-го порядка процессы, удовлетворяющие уравнениям принципа максимума Понтрягина (ПМП), являются неподвижными элементами.
В качестве тестовых примеров рассматривались следующие 4 задачи.
Задача 1 (Управление линейным осциллятором).
(10) В качестве неподвижного элемента рассматривался особый режим ПМП:
Оптимальное решение при = 1 получается переходом к производной системе [6]. Записывается предельная система и находится ее интеграл После удобной замены переменных 1 = cos, 2 = sin получается производная задача (1-го порядка) Итерационные процедуры на основе метода глобального улучшения управления Ее решение (почти очевидное): sin = 1, sin ( ) =. Из сопоставлений видно, что на [0, ) это решение соответствует особому режиму исходной задачи, поскольку при подстановке получается () = 0, и соответствующая траектория удовлетворяет заданному начальному условию: 1 () = 1 (0) = 0. Этот режим при = 1 дает оптимальное решение исходной задачи, поскольку 2 () = () sin () непрерывна в точке. При = 1 найденный особый режим не оптимален. Заметим, что при неограниченном на оптимальном решении производной задачи sin () в точке претерпевает скачок с -1 на +1, т.е. отличается от оптимального для случая = 1 в единственной точке.
Задача 2 (Нелинейная невыпуклая задача с особыми режимами).
Условия ПМП для этой задачи:
При 2 = 0 управление, максимизирующее, неединственно (особый режим). При этом из условия 2 = 0 получаем sin 2 = 0.
Рассмотрим возможные решения уравнений ПМП в области 2 0 при 2 0. В указанной области этим уравнениям удовлетворяют решения, обозначенные номерами 1, 2, 3 на рис. 1, причем, как нетрудно видеть, имеется континуальное семейство решений типа 3 соответственно точкам схода с особого режима 2 = в диапазоне [0, ] и такое же множество симметричных им решений соответственно точкам схода с особого режима 2 =.
Два симметричных решения типа 2 — оптимальные. Это выясняется непосредственно из решения производной задачи, которая в данном случае получается исключением уравнения 2 =. В этой задаче 2 играет роль управления, при дополнительных ограничениях 2 [, ], которые представляют собой границы решений уравнения 54 В. И. Гурман, О. В. Фесько, И. С. Гусева, С. Н. Насатуева Задача 3 (Классическая невыпуклая квадратическая задача).
В стандартной форме:
(12) В этой задаче процесс () = () = 0 оптимален при /2 и не оптимален при > /2. Действительно, из условий принципа максимума находим семейство экстремалей 2 = sin, а из условия ( ) = получаем = 0. На данном семействе экстремалей Видно, что если < /2, то минимум достигается при = 0, а если > /2, то минимума нет.
Задача 4 (Случай вырожденной 2-й вариации [12]).
Итерационные процедуры на основе метода глобального улучшения управления Применим условия принципа максимума Понтрягина:
Рассмотрим следующее решение:
Здесь, как видно, понтрягиан имеет в точке = 0 строгий глобальный максимум. Тем не менее, в отличие от регулярных решений, этот режим не оптимален ни на каком сколь угодно малом отрезке T [12].
Таким образом, в задачах рассматриваются по 2–3 варианта, один из которых оптимальный (обозначим его номером 1, другие (с номерами 2, 3) — не оптимальные). Соответственно этим вариантам проводилась серия ВЭ с различными из указанных алгоритмов. Поскольку алгоритмы 3 и 4 дискретные, то проводилась дискретизация рассматриваемых непрерывных задач: в алгоритме 3 посредством решений непрерывной системы при кусочно-постоянных управлениях, а в алгоритме 4 — полная по методу Эйлера.
Все варианты представляют собой неподвижные элементы для рассматриваемых алгоритмов 1-го порядка и непосредственно ими не улучшаются. Однако представляет интерес выяснение возможности улучшения небольших возмущений неподвижных элементов, на что и нацелена вся серия. Кроме того выяснялась возможность улучшения и невозмущенной неоптимальной экстремали Понтрягина в квадратической задаче методом второго порядка.
Сразу же отметим, что поскольку оптимальные элементы заведомо неулучшаемы, эксперименты с ними проводились лишь для проверки алгоритмов, и их результаты не приводятся.
Каждому ВЭ был присвоен свой шифр: [номер задачи][номер варианта][номер алгоритма].
Общая сводка ВЭ дана в таблице 1. В ячейках этой таблицы указано число итераций в каждом из экспериментов.
56 В. И. Гурман, О. В. Фесько, И. С. Гусева, С. Н. Насатуева 3. Результаты вычислительных экспериментов Основные результаты ВЭ представлены на рис. 2–6 и в таблицах 2–6. На рисунках в характерных координатах представлены траектории начального приближения и заключительной итерации, обеспечивающей сходимость по функционалу (13) с точностью до 1% по формуле В таблицах показано изменение функционала по итерациям.
Итерационные процедуры на основе метода глобального улучшения управления 4. Обсуждение Приведенные результаты показывают, что все рассматриваемые алгоритмы:
а) улучшают возмущенный оптимальный режим до ближайшего оптимального;
б) обеспечивают улучшение возмущенных неоптимальных неподвижных элементов.
Алгоритм 3 при малых возмущениях привел к исходному неоптиВ. И. Гурман, О. В. Фесько, И. С. Гусева, С. Н. Насатуева мальному элементу, а при больших — улучшил его до оптимального.
Это говорит об относительной оптимальности исследуемого элемента №3 (рис. 1). Дополнительный анализ показал, что функционал инвариантен на семействе аналогичных элементов с точками схода в диапазоне (, ), (2, ).
В ВЭ 1.1.1 управление, по крайней мере, на конечных итерациях получалось в виде скользящего режима, интегрально эквивалентного исходному особому, что характерно для данного алгоритма глобального улучшения в приложениях к задачам с линейным управлением.
В [10] предложена модификация, позволяющая оперировать с особыми режимами вместо скользящих. Однако для рассматриваемой проблемы улучшаемости неподвижных элементов это принципиального значения не имеет. ВЭ 1.2.1 был повторен для других ограничений вида ||, = 2; 5; 10, чтобы проследить приближение результата к найденному оптимальному разрывному решению импульсного типа при =. Результаты представлены на рис. 7. При этом обнаружилась высокая чувствительность алгоритма к изменению этого параметра, что уже при = 2 потребовало существенного повышения точности численного интегрирования соответствующих дифференциальных уравнений, но и этого оказалось недостаточно при = для его устойчивости. Выход видится в задании лучшего начального приближения посредством естественной аппроксимации разрывной траектории с последующим применением двухуровневой дискретнонепрерывной модели процесса для таких случаев [13]. В данном конкретном примере было применено более простое преобразование — Итерационные процедуры на основе метода глобального улучшения управления переход к новому «времени» по формуле 5. Заключение Любая экстремаль Понтрягина (решение уравнений ПМП) для рассматриваемого алгоритма глобального улучшения и его модификаций является неподвижным элементом соответствующего оператора улучшения. Однако неподвижность элемента не означает, что он не улучшаем тем же самым итерационным алгоритмом. Как показывает обширная вычислительная практика и наглядно демонстрируют проведенные вычислительные эксперименты, малое возмущение не оптимального (хотя бы локально) неподвижного элемента активизирует итерационный процесс улучшения вплоть до достижения глобального оптимума. С другой стороны, попытка улучшить оптимальный элемент за счет его малого возмущения возвращает к исходному.
Иными словами, оптимальность в терминах алгоритмов улучшения непосредственно связана с устойчивостью итерационного процесса.
Это относится и к таким специфическим неподвижным элементам как особые режимы экстремалей Понтрягина, где соответствующее управление в результате операции улучшения определяется неоднозначно. Более того, это обстоятельство на самом деле открывает дополнительные возможности улучшения управления. Как эти возможности могут быть использованы для повышения эффективности итерационного процесса, еще предстоит выяснить, в том числе и с использованием вычислительных экспериментов.
60 В. И. Гурман, О. В. Фесько, И. С. Гусева, С. Н. Насатуева Список литературы [1] А. С. Булдаев. Методы возмущений в задачах улучшения и оптимизации управляемых систем. Улан-Удэ: Изд-во Бурятск. гос. ун-та, 2008. – 260 c. [2] В. А. Срочко. Итерационные методы решения задач оптимального управления. М.: Физматлит, 2000. – 160 c. [3] В. И. Гурман, И. В. Расина, А. О. Блинов. Эволюция и перспективы приближенных методов оптимального управления // Программные системы: теория и приложения : электрон. научн. журн., 2011. Т. 2(6), c. 11–29.
[4] В. Ф. Кротов, В. И. Гурман. Методы и задачи оптимального управления.
М.: Наука, 1973. – 448 c. 48, [5] V. F. Krotov. Global methods in optimal control theory. New York: Marcel [6] В. И. Гурман. Принцип расширения в задачах управления. М.: Физматлит, [7] В. И. Гурман. Абстрактные задачи оптимизации и улучшения // Программные системы: теория и приложения : электрон. научн. журн., 2011.
[8] В. Ф. Кротов, В. И. Фельдман. Итерационный метод решения задач оптимального управления // Изв. АН СССР. Техн. киберн., 1983. Т. 2, c. 160– [9] В. Ф. Кротов. Об оптимизации управления квантовыми системами // Доклады РАН, 2008. Т. 3, c. 316–319. [10] В. Ф. Кротов. Управление квантовыми системами и некоторые идеи теории оптимального управления // Автоматика и телемеханика, 2009. Т. 3, [11] Е. А. Трушкова. Алгоритмы глобального поиска оптимального управления // Автоматика и телемеханика, 2011. Т. 6, c. 151–159. 48, [12] В. И. Гурман, Ни Минь Кань. Вырожденные задачи оптимального управления. I // Автоматика и телемеханика, 2011. Т. 3, c. 36–50. 54, [13] И. В. Расина. Дискретно-непрерывные модели и оптимизация управляемых процессов // Программные системы: теория и приложения : электрон.
научн. журн., 2011. Т. 5(9), c. 49–72. Рекомендовал к публикации Доктор технических наук, главный научный сотрудник ИПС Итерационные процедуры на основе метода глобального улучшения управления Кандидат технических наук, инженер ИПС им. А.К. Айламазяна РАН Ассистент кафедры прикладной математики Бурятского Государственного Университета Аспирант Бурятского Государственного Университета по направлению «Математическое моделирование, численные методы и комплексы программ»
Образец ссылки на эту публикацию:
В. И. Гурман, О. В. Фесько, И. С. Гусева, С. Н. Насатуева. Итерационные процедуры на основе метода глобального улучшения управления // Программные системы: теория и приложения: электрон. научн. журн.
2014. T. 5, № 2(20), c. 47–61.
URL: http://psta.psiras.ru/read/psta2014_2_47-61.pdf Vladimir Gurman, Oles Fesko, Irina Guseva, Soelma Nasatueva. Iterative procedures based on the method of global control improvement.
Abstract. Constructive methods of iterative control optimization on the basis of V. F. Krotov’s minimax principle and related to it the localized methods are considered. In a series of computational experiments properties of improvement and convergence of the corresponding algorithms are investigated. By results the directions of further researches are outlined. (in Russian).
Key Words and Phrases: optimal control, dynamic systems, sliding mode.