ПРОГРАММНЫЕ СИСТЕМЫ: ТЕОРИЯ И ПРИЛОЖЕНИЯ
ISSN 2079-3316 № 5(14), 2012, c. 33–44
УДК 517.977.5
С. П. Сорокин
Бипозиционные решения неравенств
Гамильтона–Якоби в неклассических
линейно-квадратичных задачах оптимального
управления
Аннотация. Исследуются неклассические линейно-квадратичные задачи
оптимального управления. Доказаны необходимые и достаточные условия глобальной оптимальности, оперирующие сильно монотонными бипозиционными решениями неравенств Гамильтона–Якоби, параметрически зависящими от начальных или конечных позиций динамических систем. Бипозиционные экстремальные управления получены в явном виде, предложенный метод иллюстрирован примером.
Ключевые слова и фразы: сильно монотонные функции типа Ляпунова, канонические условия оптимальности, линейно-квадратичные задачи оптимального управления.
1. Введение и постановка задачи Работа посвящена исследованию неклассических задач оптимального управления линейно-квадратичной структуры. Специфика таких задач состоит в наличии смешанных ограничений на траекторию в промежуточные, вообще говоря, не фиксированные моменты времени и не разделенной зависимости целевого функционала от значений траектории в эти моменты. Эти особенности приводят к новым свойствам оптимальных процессов и требуют развития методов решения таких задач, поскольку традиционный для задач построения оптимального регулятора подход — метод динамического программирования Беллмана [1] — не применим для задач указанного класса.
Работа выполнена при финансовой поддержке РФФИ (гранты № 11-01а, № 12-01-31252-мол-а, № 12-01-31391-мол-а).
c С. П. Сорокин, c Институт динамики систем и теории управления СО РАН, c Программные системы: теория и приложения, 34 С. П. Сорокин Исследование основано на применении так называемой канонической теории оптимальности Гамильтона–Якоби [2, 3], обобщающей родственные подходы В. Ф. Кротова и К. Каратеодори [1, 4, 5]. Канонические условия оптимальности основаны на внешних оценках множеств достижимости динамических систем, которые строятся с помощью сильно монотонных функций типа Ляпунова (функций) — решений неравенств Гамильтона–Якоби, не убывающих вдоль всех траекторий рассматриваемой системы [6]. В работах [7, 8] введен класс бипозиционных -функций, дополнительно зависящих от начальной или конечной позиций динамической системы. Использование этого класса функций привело к модификации канонической теории оптимальности, более эффективной для задач оптимального управления с не разделенными концевыми ограничениями и функционалами общего вида.
В статье рассматривается следующая линейно-квадратичная задача оптимального управления ( ):
() R, = () + (), 1 ( ), (), () + () min, [, ] = где, — линейно-квадратичные функции вида (,, ) = () + 2 () + () + 2 () + 2 (), ( ) +, ( ) () = = (1 ), (0 ), все матричные функции непрерывны на отрезке = [0, 1 ], причем,, симметричны и положительно определена.
От классической линейно-квадратичной задачи построения оптимального регулятора [9, 10] задача ( ) отличается общей зависимостью терминанта от 0, 1 и присутствием линейных слагаемых в,.
Неравенства Гамильтона–Якоби в неклассических ЛКЗ 2. Канонические условия оптимальности с линейно-квадратичной бипозиционной -функцией Перепишем задачу ( ) в форме Майера:
= +, () R, (1) 1 ( ) + 2 + + 2 + 2, (2) = (0 ) = 0, Здесь = (,, ) — процесс системы (1), (2), состоящий из кусочногладкой траектории (, ) и кусочно-непрерывного управления, удовлетворяющих на системе.
Будем исследовать задачу ( ) с применением одной бипозиционной линейно-квадратичной сильно возрастающей -функции вида (3) Здесь () = () — 2 2 симметричная матричная функция с блоками,, = 1, 2, -мерные вектор-функции 1, 0 и функция непрерывно дифференцируемы, функция (0 ) включена для учета краевого условия наведения (0, 0, 0 ; 0 ) 0 [7, 8].
Для конкретизации функций, 1, 0,, подставим функцию в неравенство Гамильтона–Якоби для гладких сильно возрастающих -функций (4) где Вычисляя нижний гамильтониан, найдем -экстремальное управление Неравенство Гамильтона–Якоби (4) принимает следующий вид:
Выберем искомые функции так, чтобы занулить каждое из шести слагаемых в левой части неравенства, т.е. потребуем, чтобы удовлетворяла уравнению Гамильтона–Якоби. Придем к следующей Неравенства Гамильтона–Якоби в неклассических ЛКЗ системе дифференциальных уравнений на отрезке :
(6) с граничными условиями Отметим, что уравнение (6) является матричным уравнением типа Риккати, решение которого может не существовать на всем отрезке, но мы предположим, что оно существует на ;
тогда остальные линейные уравнения имеют решения на, а функция удовлетворяет уравнению Гамильтона–Якоби и условию (0, 0, 0 ; 0 ) = 0. Следовательно, она является бипозиционной сильно возрастающей -функцией.
Установим свойства функции.
Лемма 1. а) Если процесс = (,, ) порожден -экстремальным управлением (5), т.е. удовлетворяет равенству т.е.(не удовлетворяет условию (7), то, (), (); (0 ) 0 на Доказательство. а) Утверждение следует из равенства справедливого в силу того, что функция удовлетворяет уравнению Гамильтона–Якоби, а -экстремальное управление доставляет ( ) строгий глобальный минимум по функции,, (, ; 0 ), во всех точках (,, 0 ).
б) Если процесс не порожден -экстремальным управлением, то найдется интервал (, ), на котором равенство (7) нарушается, а тогда, (), (); (0 ) > 0 на (, ).
Из леммы 1 и вида функции (см. граничные условия в (3) и определение функции (0 )) следует, что для любого процесса выполняется неравенство Отсюда вытекает, что если функция достигает своего минимума в некоторой точке 0 R, а процесс порожден -экстремальным управлением (5) и удовлетворяет начальному условию (0 ) = 0, то т.е. — глобально оптимальный процесс. Таким образом, вопрос отыскания оптимальных процессов в задаче ( ) сводится к нахождению точек минимума функции Лемма 2. а) Функция (0 ) имеет единственную точку минимума 0 )тогда и только тогда, когда квадратичная форма (0 ) 0 положительно определена, причем имеет место равенство б) Функция (0 ) имеет множество точек минимума тогда и только тогда, когда квадратичная форма положительно полуопределена и Из рассуждений, приведенных выше, и леммы 2 вытекают следующие достаточные условия оптимальности в задаче ( ).
Неравенства Гамильтона–Якоби в неклассических ЛКЗ Теорема 1. Пусть выполнены следующие условия:
а) существует симметричная матричная функция 11 (), удовлетворяющая на матричному уравнению Риккати (6) с граничным условием 11 (1 ) = 11 ;
б) квадратичная форма денный -экстремальным управлением (5) и начальным условием (0 ) = 0, где вектор 0 определен формулой (8), а значение задачи ( ) удовлетворяет равенству Теорема 2. Пусть выполнены следующие условия:
а) существует симметричная матричная функция 11 (), удовлетворяющая на матричному уравнению Риккати (6) с граничным условием 11 (1 ) = 11 ;
б) квадратичная форма Тогда существует множество оптимальных процессов, порожденных -экстремальным управлением (5) и начальным условием (0 ) = 0, где вектор 0 определяется формулой (9), а значение задачи ( ) удовлетворяет равенству Приведенные достаточные условия оптимальности теорем 1, могут показаться жесткими, однако дальнейший анализ показывает, что в предположении полной управляемости системы (1) они становятся и необходимыми. Для обоснования этого факта используются результаты из [9–11].
Сначала рассмотрим следующую линейно-квадратичную задачу оптимального управления со свободными концами траектории без ограничений на управление:
Заметим, что концевая форма здесь знакопеременная, так что нулевой процесс не обязательно оптимален. Перепишем задачу в форме Майера:
Будем искать разрешающую функцию в виде где 2 2 симметричная матричная функция () = () непрерывно дифференцируема и функция (0 ) непрерывна.
Во-первых, -экстремальное бипозиционное управление (5) определяется равенством (11) а дифференциальная система типа Риккати имеет вид Её решение приводит к бипозиционной -функции Применение теорем 1 и 2 приводит к следующим выводам:
1. Если < 2, то min( ) = 0 и глобально оптимальным является 2. Если = 2, то min( ) = 0 и существует бесконечное множество оптимальных процессов (0 ): (, 0 ) 0, (, 0 ) = 0 (1), (, 0 ) = 2, 0 R, полученных с помощью -экстремального управления (11).
Неравенства Гамильтона–Якоби в неклассических ЛКЗ 3. При > 2 inf( ) =, и оптимального процесса не существует. Для этого достаточно рассмотреть минимизирующую последовательность процессов { }: () =, () = /2, Очевидно, что нулевой экстремали соответствует сопряженная точка = 2 [12, 13], на которую (по аналогии со случаем фиксированного 0 ) указывает неограниченность значения исходной задачи при > 2. Мы получили этот вывод автоматически в процессе решения задачи, без специальных критериев проверки условия Якоби отсутствия сопряженных точек для фиксированной экстремали.
(Впрочем, для задач со свободным 0 такие критерии нам не известны.) Модифицируем пример, введя ограничение на управление |()| 1. Разберем этот вариант, используя канонические достаточные условия оптимальности с множеством сильно возрастающих функций [7, 8].
Ясно, что при < 2 процесс = 0 останется глобально оптимальным, а при = 2 оптимальными будут процессы (0 ) с 0 [1, 1] (остальные процессы серии (0 ) не допустимы).
Пусть теперь > 2. Отметим, что теперь а управление, минимизирующее функцию Понтрягина, имеет вид Во-первых, возьмем четыре линейные сильно возрастающие -функции дающие точное априорное описание множества достижимых точек каждого из уравнений управляемой системы. Далее, возьмем семейство (по ) сильно возрастающих -функций, линейных по фазам:
Поскольку все -функции линейны, то применяются достаточные условия, близкие к принципу максимума Понтрягина. Отметим, что конструкция функций использует прием нормировки -функций (см. [3, 4]).
В соответствие с достаточными условиями оптимальности канонической теории необходимо рассмотреть вспомогательную концевую задачу, допустимое множество которой определяется множествами надуровня функций и представляет собой внешнюю оценку множества точек, соединимых траекториями управляемой системы.
Чтобы не иметь в концевой задаче бесконечного числа ограничений, от семейства -функций { | || 2} перейдем к его нижней огибающей — к функции Множество функций, = 1, 5, обозначим через и рассмотрим соответствующую концевую задачу ( ()):
Эта задача имеет два решения, через которые с помощью -экстремального бипозиционного управления определяются глобально оптимальные процессы Неравенства Гамильтона–Якоби в неклассических ЛКЗ Заметим, что функции представимы в виде разности (,, ) (0, 0, 0 ), т.е. порождены традиционными, однако их нижняя огибающая * этим свойством не обладает.
При исследовании случая > 2 можно использовать и другое семейство -функций (вместо ):
дополненное априорными оценками.
Заключение Представленные в статье результаты распространимы на задачи управления дискретно-непрерывными (гибридными) системами линейно-квадратичной структуры, а также могут быть использованы для разработки численных методов решения таких задач.
Список литературы [1] Vinter R. B. Optimal Control. Boston : Birkhauser, 2000. – 520 p. [2] Дыхта В. А. Неравенство Ляпунова–Кротова и достаточные условия в оптимальном управлении // Итоги науки и техники. Совр. математика и ее приложения, 2006. Т. 110, c. 76– [3] Дыхта В. А. Неравенства Гамильтона–Якоби в оптимальном управлении:
гладкая двойственность и улучшение // Вестник Тамбовского ун-та. Сер.
Естественные и технические науки, 2010. Т. 15, № 15, c. 405–425 1, [4] Krotov V. F. Global Methods in Optimal Control Theory. Monographs and Textbooks in Pure and Applied Mathematics, Vol. 195. New York : Marcel Dekker, 1996. – 384 p. 1, [5] Гурман В. И. Принцип расширения в задачах управления. 2-е изд., перераб.
и доп. М. : Наука, Физматлит, 1997. – 288 c. [6] Clarke F. H., Ledyaev Yu.S., Stern R. J., Wolenski P. R. Nonsmooth Analysis and Control Theory. Grad. Texts in Math., Vol. 178. New York :
Springer-Verlag, 1998. – 276 p. [7] Дыхта В. А., Сорокин С. П. Позиционные решения неравенств Гамильтона-Якоби в задачах управления дискретно-непрерывными системами // Автоматика и телемеханика, 2011, № 6, c. 48– [8] Дыхта В. А., Сорокин С. П. Неравенства Гамильтона-Якоби и условия оптимальности в задачах управления с общими концевыми ограничениями // Автоматика и телемеханика, 2011, № 9, c. 13–27 1, 2, [9] Матвеев А. С., Якубович В. А. Оптимальные системы управления:
Обыкновенные дифференциальные уравнения. Специальные задачи: Учеб.
пособие. СПб. : Издательство С.-Петербургского университета, 2003. – – [10] Clements D. J., Anderson B. D. O. Singular Optimal Control: The LinearQuadratic Problem. Lecture Notes in Control and Information Sciences / ed.Balakrishan A. V., Thoma M. Berlin, Heidelberg, New York : Springer-Verlag, [11] Pachter M. Revisit of linear-quadratic optimal control // Journal of Optimization Theory and Applications, 2009. Vol. 140, p. 301– [12] Гельфанд И. М., Фомин С. В. Вариационное исчисление. М. : Физматлит, [13] Кларк Ф. Оптимизация и негладкий анализ. М. : Наука, 1988. – 280 c. Рекомендовал к публикации Программный комитет Молодёжной школы-семинара Сорокин Степан Павлович, м.н.с., Федеральное государственное бюджетное учреждение науки Институт динамики систем и теории управления Сибирского отделения Российской академии наук, 664033, Иркутск, ул. Лермонтова, Образец ссылки на эту публикацию:
С. П. Сорокин. Бипозиционные решения неравенств Гамильтона– Якоби в неклассических линейно-квадратичных задачах оптимального управления // Программные системы: теория и приложения : электрон.
научн. журн. 2012. T. 3, № 5(14), с. 33–44.
URL: http://psta.psiras.ru/read/psta2012_5_33-44.pdf S. Sorokin. Bi-positional solutions of Hamilton–Jacobi inequalities for non-classical linear-quadratic optimal control problems.
Abstract. Non-classical linear-quadratic optimal control problems are considered. New necessary and sufficient global optimality conditions are proved. These conditions use strongly monotone bi-positional solutions of Hamilton–Jacobi inequalities, which parametrically depend on initial or final data. Bi-positional control is obtained in explicit form. The method is illustrated by an example.
Key Words and Phrases: strongly monotone Lyapunov-like functions, canonical optimality conditions, linear-quadratic optimal control problems.