«Синтез управлений при двойных и разнотипных ограничениях ...»
Московский Государственный Университет им. М. В. Ломоносова
На правах рукописи
Дарьин Александр Николаевич
Синтез управлений при двойных и разнотипных
ограничениях
01.01.02 дифференциальные уравнения
Диссертация на соискание ученой степени
кандидата физико-математических наук
Научный руководитель доктор физико-математических наук, академик РАН А. Б. Куржанский Москва, 2004 г.
Оглавление Введение 4 1 Задачи управления при двойном ограничении 22 1.1 Введение.................................... 1.1.1 Сведение к системе с нулевой линейной динамикой........ 1.2 Управление при геометрическом и интегральном ограничении..... 1.2.1 Постановка задачи........................... 1.2.2 Область достижимости........................ 1.2.3 Область разрешимости........................ 1.2.4 Метод динамического программирования. Функция цены.... 1.2.5 Об эллипсоидальной аппроксимации множества достижимости. 1.2.6 Примеры................................ 1.3 Геометрическое ограничение, зависящее от интегрального........ 1.3.1 Постановка задачи........................... 1.3.2 Принцип максимума.......................... 1.3.3 Существование решения....................... 1.3.4 Единственность решения....................... 1.3.5 Нахождение оптимальной траектории и управления....... 1.3.6 Задача синтеза управлений. Функция цены............ 1.3.7 Примеры................................ 1.4 Иллюстрации.................................. 2 Синтез управлений в условиях неопределенности при двойном огра ничении на управление 2.1 Введение.................................... 2.2 Постановка задачи............................... 2.3 Сведение к задаче без фазового ограничения............... 2.4 Альтернированный интеграл......................... 2.4.1 Программные множества разрешимости.............. 2.4.2 Интегральные суммы......................... 2.4.3 Случай выпуклого целевого множества............... 2.5 Синтез управлений.............................. 2.5.1 Функция цены и уравнение Гамильтона–Якоби–Айзекса–Беллмана 2.5.2 Последовательный максимин и минимакс............. 2.5.3 Эволюционное уравнение....................... 2.5.4 Синтезирующие стратегии...................... 2.6 Примеры.................................... 2.7 Вспомогательные утверждения........................ 2.8 Иллюстрации.................................. 3 Синтез управлений в условиях неопределенности при разнотипных ограничениях на управление и помеху 3.1 Введение.................................... 3.2 Постановка задачи............................... 3.2.1 Сечения множества разрешимости и целевого множества.... 3.3 Альтернированный интеграл......................... 3.3.1 Последовательный максимин..................... 3.3.2 Последовательный минимакс..................... 3.4 Синтез управлений.............................. 3.4.1 Функция цены и уравнение динамического программирования. 3.4.2 Последовательный максимин и последовательный минимакс.. 3.4.3 Эволюционное уравнение и синтезирующие стратегии...... 3.5 Одномерный случай.............................. 3.5.1 Эволюция множества разрешимости................ 3.5.2 Функция цены и синтез управлений................. 3.6 Примеры.................................... 3.7 Иллюстрации.................................. Введение Данная работа посвящена задачам синтеза гарантирующих управлений при неопреде ленности. Подобные проблемы актуальны в математических моделях высоких техно логий. Изучаемые управляемые системы описываются линейными дифференциальны ми уравнениями, однако задача синтеза при этом нелинейна. Последнее объясняется тем, что синтезирующая стратегия является многозначным отображением, и после ее подстановки в исходные уравнения просинтезированная система принимает вид нелинейного дифференциального включения. От гарантирующего управления требу ется привести систему на заранее заданное целевое множество, невзирая на возмож ное воздействие помех, информация о которых исчерпывается указанием возможных границ изменения. Составляющими частями решения задачи при этом являются мно жество разрешимости, состоящее из всех точек, из которых цель действительно мо жет быть достигнута в любом случае; функция цены, равная минимальному гаранти рованному расстоянию до целевого множества в конечный момент; и, наконец, синтез управлений функция текущего положения, указывающая, какие управляющие воз действия должны выбираться в каждом из возможных положений системы.
К настоящему времени разработан широкий спектр методов для решения подоб ных задач.
Альтернированный интеграл, введенный Л. С. Понтрягиным в статьях [47, 48] и более подробно описанный им в работе [49], позволяет свести вычисление множества разрешимости задачи синтеза гарантирующих управлений к интегрированию много значных отображений. Этот подход нашел свое отражение в работах Е. Ф. Мищенко, М. С. Никольского, Е. С. Половинкина, Н. Х. Розова.
В теории, разработанной Н. Н. Красовским и его сотрудниками [14, 17–25, 58, 62, 72], предложена формализация дифференциальных игр и подробно исследована их структура. При этом, в частности, указано, каким образом можно построить синте зирующую стратегию управления, удерживающую траекторию системы внутри так называемого стабильного моста (то есть системы множеств, слабо инвариантной относительно просинтезированной системы) несмотря на действия второго игрока и обеспечивающую таким образом выполнение фазовых ограничений и попадание на целевое множество в требуемый момент времени.
Общим подходом является метод динамического программирования, разработан ный Р. Беллманом [4] и примененный к игровым задачам Р. Айзексом [3]. Этот ме тод заключается в погружении исходной задачи в параметризованный класс анало гичных задач. Оптимальные значения минимизируемого функционала, вычисленные для каждого сочетания параметров, образуют функцию цены. При этом набор пара метров, образующих позицию системы, должен быть достаточным для того, чтобы можно было сформулировать принцип оптимальности, выраженный в виде полу группового свойства для функции цены. Тогда последняя является решением диффе ренциального уравнения в частных производных, называемого уравнением Гамиль тона–Якоби–Беллмана–Айзекса (HJBI), а синтезирующая стратегия находится как множество управлений, на которых достигается экстремум в этом уравнении. Посколь ку функция цены очень часто бывает не всюду гладкой, используются различные понятия обобщенного решения уравнения Беллмана, например, вязкостные решения, введенные М. Г. Крэндаллом и П.-Л. Лионсом [68, 67, 79], или минимаксные решения, введенные А. И. Субботиным [55, 56]; см. также [59].
Использование соединения перечисленных подходов позволяет расширить рассмат риваемый круг задач и построить конструктивную теорию, направленную на решение задач до конца, то есть до практически реализуемого алгоритма, чему посвящены ра боты А. Б. Куржанского [28, 29, 73–77]. При построении синтезирующей стратегии в качестве слабо инвариантной системы множество может выступать, например, труб ка разрешимости, которая ищется как предел альтернированных интегральных сумм.
При этом расстояние до нее является верхним вязкостным решением уравнения Белл мана, а в отдельных случаях совпадает с функцией цены. С целью решения задачи до конца используется аппарат эллипсоидального исчисления [73]: каждая тугая внутрен няя эллипсоидальная аппроксимация трубки разрешимости является слабо инвари антной системой множеств, поэтому синтез управлений, построенный прицеливанием на нее, будет решением задачи. Этот синтез может быть выписан в явном виде через параметры эллипсоидальной аппроксимации, поэтому задача синтеза фактически сво дится к интегрированию системы обыкновенных дифференциальных уравнений для параметров эллипсоидальной аппроксимации, то есть к эффективному практически реализуемому алгоритму.
Игровым задачам механики посвящена монография Ф. Л. Черноусько и А. А. Ме ликяна [64].
В принятой теории предполагается, что управление и возмущения принадлежат однотипным классам. Например, геометрические ограничения на входные параметры (называемые также жесткими или мгновенными) означают, что соответствующая величина почти в каждый момент должна находится в заранее заданном непустом множестве. С помощью них учитываются конструктивные возможности управляемого устройства (нельзя отклонять рули более чем на определенный угол, двигатель не может развивать более заданного числа оборотов и т.п.).
Напротив, интегральные, или мягкие, ограничения позволяют в каждый момент времени выбирать произвольное управляющее воздействие при условии, что интеграл от реализовавшейся траектории управления не превысит заранее заданной величины, называемой резервом управления. В терминах мягких ограничений формулируются условия об ограниченности запаса энергии, топлива, сил у управляемого объекта.
Системы с интегральными ограничениями на помеху и управление рассматривались в работах [2, 14, 16, 38, 53, 57, 61, 66].
Однако на практике возникают ситуации, когда необходимо налагать на управле ние одновременно несколько ограничений различных типов, а также выбирать для управления и помехи различные классы ограничений. Постановка задачи с двой ным (геометрическим и интегральным) ограничением на управление позволяет учесть как конструктивные особенности системы, не позволяющие реализовать сколь угодно большие значения управления, так и конечный объем ресурсов, расходуемых управ лением. Такая постановка рассматривалась в статье [33], однако там шла речь о ре гулярной дифференциальной игре, то есть фактически предполагалось выполненным условие выметания и задача сводилась к чисто программным конструкциям. Несколь ко другая постановка задача об успокоении линейной системы при требовании од новременно наименьшей амплитуды и наименьшего расхода энергии управлением рассматривалось в работах [5, 6, 15]. Отметим, что система с двойным ограничением может быть также проинтерпретирована как система с геометрическим ограничением при стесненных фазовых координатах [27, 30–32].
Выбор разнотипных классов ограничений позволяет отказаться от предположения, что управление и помеха представляют из себя схожие по структуре объекты. Напри мер, стесняя управление двойным ограничением, совершенно необязательно делать то же самое с помехой, о которой может быть известна лишь область возможных ее зна чений в этом случае кажется более разумным использовать одно только геометриче ское ограничение. Другим примером может быть система, в которой для управления задано множество его возможных значений, а помеха может принимать произволь ные значения, но имеет ограниченный резерв: здесь можно принять геометрическое ограничение для управления и интегральное для помехи.
Целью данной работы было получение теоретического обоснование решения задач синтеза управлений при двойных и неоднотипных ограничениях, так, чтобы в даль нейшем можно было перейти к эффективным численным алгоритмам решения этих задач. При этом построение таких алгоритмов лежит вне тематики работы и будет следующим этапом.
Для достижения поставленной цели используется описанный выше конструктив ный подход, основанный на сочетании альтернированного интеграла, экстремальной конструкции и негладкого динамического программирования.
В первой главе диссертации рассматривается задача синтеза управлений для ли нейной системы без неопределенности при наличии двух ограничений на управление геометрического и интегрального. Ограничения могут задаваться как независимо друг от друга (раздел 1.2), так и с зависимостью геометрического ограничения от резерва управления по интегральному ограничению (раздел 1.3).
В разделе 1.1 описывается в общем виде задача, которой посвящены последующие два раздела.
Управляемая система задается дифференциальными уравнениями Здесь x(t) Rn положение системы, u Rnp управление, k(t) R1 текущий запас энергии управления. Матрицы A(t), B(t) и R(t) > 0 считаются известными.
Предполагается, что управление стеснено двумя ограничениями. Во-первых, оно может принимать значения только из заранее определенного множества:
Такое ограничение называется геометрическим, или жестким. В зависимости от способа выбора числа µ 0 можно рассматривать различные задачи. В данной работе анализируются два случая: когда µ когда оно зависит от текущего резерва (µ = µ(k(t))).
Во-вторых, управление обязано следить за значением резерва k(t) и не допускать его падения ниже определенного уровня. Это мягкое, или интегральное ограниче ние. Сочетание геометрического и интегрального ограничений будем называть двой ным ограничением. Чтобы обеспечить существование управлений, удовлетворяющих двойному ограничению, предполагается выполненным включение 0 P(t).
Используются два класса управлений: программные управления UOL (измеримые функции u(t)) и позиционные стратегии UCL (многозначные отображения U (t, x, k), по лунепрерывные сверху по фазовым переменным). Величина класса допустимых про граммных управлений зависит от начального резерва k, поэтому используется обозна чение UOL (k).
В данной главе преследуются следующие цели: получить необходимые и достаточ ные условия для программных управлений, приводящих на границу множества дости жимости; вычислить функцию цены и построить с ее помощью синтез управлений, гарантирующий попадание на заданное целевое множество; указать способ вычисле ния множества достижимости.
В разделе 1.2 рассматривается случай µ 1. От управления требуется соблюдать фазовое ограничение k(t) 0, эквивалентного интегральному ограничению для про граммных управлений Для соблюдения этого требования в определение позиционных стратегий добавляется условие U (t, x, k) = {0} при k < 0.
Пункт 1.2.2 посвящен исследованию множества достижимости. Основной задачей здесь является следующая:
Задача 1.1. Найти область достижимости XGI [t1 ] Rn, то есть множество точек x, достижимых системой в конечный момент времени при данном резерве k0 из начала координат или произвольного множества M0 Rn, а также для про извольного направления вывод системы в конечный момент времени на границу множества достижимости в этом направлении, то есть выполнение равенства Множество достижимости при двойном ограничении является выпуклым компак том и содержится в пересечении множеств достижимости при геометрическом ограни чении XG и при интегральном ограничении XI, свойства которых приведены в теореме 1.1. При этом указанное вложение может быть строгим (примеры 1.1 и 1.3 в пункте 1.2.6).
Теорема 1.3 дает необходимое и достаточное условие в форме принципа максиму ма для управлений, приводящих на границу множества достижимости в фиксирован ном опорном направлении. Поскольку множество достижимости является выпуклым компактом, то этого достаточно, чтобы найти все его точки. Важно отметить, что в отличие от задачи с чисто геометрическим ограничением управление здесь может принимать произвольные значения из P(t).
В пункте 1.2.3 рассматривается задача 1.1 в обратном времени, то есть задача разрешимости:
Задача 1.2. Найти область разрешимости WGI [t0 ] Rn, то есть множество то чек x Rn, стартуя из которых система может достигнуть в конечный момент заданное целевое множество M1 Rn при данном резерве k0, а также указать управление, обеспечивающее включение x(t1 ) M1.
Решение задачи 1.2 дается теоремой 1.5 в виде необходимого и достаточного усло вия оптимальности управления. При этом множество разрешимости может быть най дено по формуле Применению к рассматриваемым задачам метода динамического программирова ния посвящен пункт 1.2.4. Для этого задачи 1.1 и 1.2 переформулируются в тер минах оптимизации расстояния до начального или целевого множества и вводит ся соответствующая функция цены, которая является решением уравнения Гамиль тона–Якоби–Беллмана (теоремы 1.8 для задачи достижимости и 1.9 для разрешимо сти). Для задачи разрешимости оно имеет вид с начальным условием V (t1, x, k) = d2 (x, M1 ). Вследствие того, что имеется фазовое ограничение k(t) 0, помимо начального условия у этого уравнения есть также и краевое условие вида означающее, что при нулевом резерве управление уже не может влиять на траекторию системы.
Множество разрешимости легко найти, зная функцию цены: это ее множество уров ня [73]. Если же множество разрешимости найдено, например из (5), то можно не решая уравнение Гамильтона–Якоби–Беллмана вычислить функцию цены: она равна квадрату расстояния до множества разрешимости (теорема 1.9). То же самое относит ся и ко множеству достижимости и соответствующей функции цены (теорема 1.6).
В пункте 1.2.5 описывается способ вычисления множества достижимости при двой ном ограничении, основанный на методах эллипсоидальной аппроксимации [73]. По строено параметризованное семейство эллипсоидов, дающее в пересечении в точности множество достижимости.
В разделе 1.3 рассматривается задача, в которой управление стеснено геометриче ским ограничением, нелинейно зависящим от текущего резерва:
Интегральное ограничение при этом задается неявно. А именно, если существует ко нечная точка k = sup {k | µ(k) 0, k < k(t0 )}, то автоматически выполнено фазовое k, эквивалентное, в свою очередь, интегральному. (Добавление ограничение k(t) явного интегрального ограничения ничего существенно не изменяет, приводя лишь к появлению дополнительного условия трансверсальности).
При ограничении (6) система (1) фактически становится нелинейной, поскольку Уравнение не содержит матрицы A(t): линейным преобразованием специального вида можно привести исходную систему к такому виду, что A(t) 0 (см. пункт 1.1.1). То же самое относится и к другим рассматриваемым задачам.
после замены u µ(k)u принимает вид В связи с возможностью такой замены удобно кроме классов управлений U OL и UCL с ограничением (6) использовать классы управлений UOL и UCL, заданные с геометри ческим ограничением вида u P(t).
Задача 1.7 о нахождении множества достижимости XG(I) [t1 ] дословно повторяет за дачу 1.1 (с той лишь разницей, что множество допустимых программных управлений UOL (k) теперь определено с учетом ограничения (6)). Впрочем, более удобным ока зывается вместо нее рассматривать задачу о максимизации произвольного линейного непрерывного функционала:
Задача 1.8. Найти допустимое управление u(·) UOL, доставляющее максимум интегральному функционалу Для решения этой задачи вначале применяется принцип максимума Л. С. Понтря гина (теорема 1.15). Далее в теореме 1.17 полученные соотношения конкретизируются для случая эллипсоидального множества P(t).
В пункте 1.3.3 доказывается существование решения задачи 1.8 (теорема 1.23).
Доказательство основывается на трех леммах, в которых утверждается соответствен но выпуклость, ограниченность и замкнутость множества допустимых управлений UOL (k).
Если в случае выполнения теоремы о существовании решения принципу макси мума удовлетворяет только одно управление, то это управление очевидно является оптимальным. Таким образом, в условиях этой теоремы принцип максимума в со вокупности с единственностью решения прямой и двойственной системы является достаточным условием оптимальности. Если существует несколько пар {u(t), (t)}, удовлетворяющих принципу максимума, то в силу существования решения и необхо димости принципа максимума среди этих пар будет оптимальное управление. Следова тельно, при выполнении условий теоремы о существовании решения для нахождения оптимального управления достаточно перебрать все решения системы из принципа максимума.
В пункте 1.3.4 доказана теорема о единственности решения задачи 1.8 при некото рых предположениях на функцию µ(·) и при выполнении условия общности положе ния, заключающегося в том, что для всех чисел > 0 выполнено Пункт 1.3.5 посвящен отысканию оптимального управления. Для этого отрезок времени T = [t0, t1 ] разделяется на два подмножества: в первом геометрическое огра ничение неактивно, и соответствующий множитель Лагранжа = 0; во втором, на против, геометрическое ограничение активно, и > 0.
В случае автономной управляемой системы с монотонной функцией µ(k) в начале траектории = 0, а затем, начиная с некоторого момента и до конечного момента > 0. Для эллипсоидального геометрического ограничения P можно аналитически найти момент, и, следовательно, оптимальную траекторию управления.
В общем случае таких моментов переключения может быть сколь угодно много, и найти их аналитически не представляется возможным, однако задачу нахождения оп тимальной траектории можно свести к решению одномерного нелинейного уравнения для начального значения сопряженной переменной. После решения этого уравнения каким-либо численным методом мы получаем полные начальные условия задачи Ко ши для прямой и двойственной системы, и, следовательно, можем найти оптимальную траекторию.
В пункте 1.3.6 решается задача 1.9 о синтезе управлений, в которой требуется указать позиционную стратегию U UCL, при которой решения дифференциального включения выпущенные из произвольной точки (x(t0 ), k(t0 )) = (x0, k0 ), оказываются в конечный момент на минимально возможном расстоянии от целевого множества M(k(t 1 )), а также найти это расстояние V (t, x, k) для каждой точки (t, x, k) T Rn R.
Функция цены V (t, x, k) является вязкостным решением уравнения Гамильтона–Якоби–Белл мана с начальным условием V (t1, x, k) = d(x, M(k)) и равна расстоянию от текущей пози ции до множества разрешимости.
Во второй главе диссертации рассматривается задача синтеза гарантирующих управлений при двойном ограничении в случае наличия в системе неопределенности, стесненной геометрическим ограничением.
Рассматривается линейная управляемая система В отличие от (1), здесь присутствует заранее неизвестная помеха v, на которую на ложено геометрическое ограничение v Q(t). Управление, как и раньше, стеснено двойным ограничением: геометрическим (2) и интегральным (3). Здесь матрицу A(t) также можно считать нулевой, а матрицу C(t) на C(t)Q(t)).
Как и в первой главе, рассматриваются два класса управлений: программные управления UOL (k) и позиционные стратегии UCL. Поскольку в системе есть неиз вестная помеха, то использование позиционных стратегий дает существенно больше возможностей, чем применение программных управлений.
Состояние системы (9) описывается парой (x, k) Rn+1, что позволяет сформули ровать принцип оптимальности [4] для данной задачи. Следовательно, целевое мно жество и множество разрешимости должны рассматриваться как подмножества R n+1 ;
однако по ряду причин удобнее работать со множествами в пространстве R n, для чего вводится понятие сечения.
Пусть в пространстве Rn+1 переменных (x, k) задано множество N. Будем на зывать сечениями множества N значения следующего многозначного отображения:
N (k) = {x Rn | (x, k) N }. Само множество N однозначно восстанавливается по своим сечениям, поскольку является графиком многозначного отображения N (k).
При этом выпуклость всех множеств N (k) не означает выпуклости множества N.
Этот факт позволяет в некоторых случаях ослабить требование выпуклости целевого множества (и, следовательно, множества разрешимости) до требования выпуклости всех его сечений.
Пусть задано такое непустое целевое множество M Rn, что 1) M(k1 ) M(k2 ), если k ; 4) множества M(k) являются выпуклыми компактами. Класс отображений R conv Rn, обладающих свойствами 1)–4), обозначим через M. Часть результатов будет приведена для более узкого класса множеств M, получаемого заменой свойства 4) на более сильное: 4’) множество M является выпуклым.
В разделе 2.2 ставится основная задача второй главы:
Задача 2.1. Указать множество разрешимости W[t0 ] Rn+1, а также позицион ную стратегию управления U (t, x, k) UCL, такие, что все траектории дифферен циального включения начинающиеся в точке (t, x(t), k(t)), t0 t мент удовлетворяют включению x(t1 ) M(k(t1 )).
Взятие выпуклой оболочки в (10) не увеличивает возможностей управлению, по скольку оно добавляет исключительно точки, неэффективные с точки зрения управ ления (в них расходуется большее количество ресурсов). Отметим, что, в отличие от исходной системы (9), дифференциальное включение (10) нелинейно из-за наличия функции U (t, x, k). Таким образом, рассматривается задача нелинейного синтеза для системы с исходно линейной структурой.
Раздел 2.3 показывает, как в случае выпуклого множества M можно получить одно из возможных решений задачи 2.1, вообще не учитывая интегрального ограничения. В самом деле, если конечная точка траектории принадлежит целевому множеству M M, то ограничение k(t) 0 выполнено автоматически в силу свойства 2) класса M.
Это позволяет рассматривать задачу 2.1 как задачу о синтезе управлений в условиях неопределенности при геометрических ограничениях [73, 29]. Если U (t, x, k) синтез управлений, построенный таким способом, то управление является решением задачи 2.1.
Однако у такого подхода есть существенные недостатки. В частности, если син тез U (t, x, k) обладает экстремальными свойствами, например, минимизирует рассто яние до целевого множества, то синтез U (t, x, k) уже не будет экстремальным в таком смысле. Кроме того, при этом предполагается выпуклость целевого множества M, а не только его сечений M(k). Поэтому последующие разделы посвящены решению задачи 2.1 с учетом ее специфики, то есть наличия интегрального ограничения.
Раздел 2.4 посвящен построению аналога альтернированного интеграла Л. С. Понт рягина для данной задачи, следуя работам [48, 1, 40]. Для этой цели вначале опреде ляются множества программной разрешимости W. Эти множества представляют собой грубые оценки множества разрешимости W решаемой задачи сверху и снизу соответственно, поскольку они состоят из тех состо яний систему, из которых целевое множество достижимо при заранее известной или, соответственно, неизвестной помехе.
Лемма 2.3 дает явные выражения для множеств программной разрешимости через сечения целевого множества и множество достижимости при двойном ограничении, изученное, в разделе 1.2. Используя эти формулы, строятся альтернированные инте гральные суммы. Для этого на отрезке [t, t1 ] вводится разбиение T = {i }m. Точки этого разбиения можно интерпретировать как моменты коррекции. В конечный мо мент интегральные суммы совпадают с целевым множеством. На каждом шаге выби рается ближайший слева момент коррекции и строятся для него программные мно жества разрешимости. Затем каждое из этих множеств принимается за новое целевое множество, выбирается предыдущий момент коррекции, снова строятся программные множества разрешимости, и так продолжается до тех пор, пока мы не оказываемся в самой левой точке разбиения со множествами, обозначаемыми IT [k, t] и IT [k, t] это интегральные суммы, соответствующие разбиению T. (Отметим, что это подмно жества Rn, то есть их можно рассматривать как сечения множеств IT [t] и IT [t]).
Если при стремлении диаметра разбиения T к нулю существуют хаусдорфовы пре делы интегральных сумм I + [k, t] и I [k, t], то последние называются соответственно верхним и нижним альтернированным интегралом. Если они к тому же совпадают между собой и равны I[k, t], то это множество называется альтернированным инте гралом и совпадает со множеством разрешимости.
В случае выпуклого целевого множества (пункт 2.4.3) классические теоремы о существовании альтернированного интеграла гарантируют существование I[k, t] при определенных предположениях о непустоте внутренности сечений интегральных сумм (теорема 2.6).
В разделе 2.5 рассматривается задача синтеза гарантирующих управлений. Вна чале исследуется вопрос о построении такого управления, которое минимизировало бы в конечный момент расстояние от конца траектории до сечения целевого множе ства, то есть d(x(t1 ), M(k(t1 ))). В связи с этим вводится соответствующая функция цены, которая является вязкостным решением уравнения Гамильтона–Якоби–Белл мана–Айзекса Как и в первой главе, помимо начального условия V (t1, x, k) = d(x, M(k)) у этого уравнения имеется также и краевое условие означающее невозможность для управления принимать какие-либо действия при ис черпании резерва. Если найдена функция цены, то управление может быть найдено как множество элементов, на которых достигается минимум в уравнении HJBI. Од нако в отличие от задачи без неопределенности, здесь функция цены не обязательно равна расстоянию до сечения множества разрешимости, а только лишь не превосходит последнее (теорема 2.7).
Чтобы избежать необходимости вычислять функцию цены, применена модифи цированная экстремальная конструкция. В теореме 2.9 доказано, что множество до стижимости при двойном ограничении отличается от пересечения множеств дости жимости при интегральном и при геометрическом ограничениях на величину второго порядка малости относительно длины отрезка времени, поэтому многозначное отобра жение Z[k, t], слабо инвариантное относительно дифференциального включения (10), будет удовлетворять уравнению эволюционного типа [65] в которое не входит операция вычисления множества достижимости при двойном ограничении.
Теорема 2.12 утверждает, что если слабо инвариантное отображение достаточно гладкое, то квадрат расстояния до него удовлетворяет дифференциальному неравен ству Стратегией UZ (t, x, k), экстремальной к Z[k, t], называется позиционная стратегия, состоящая из элементов, на которых здесь достигается минимум. Из (11) следует, что если начальная точка принадлежит Z[k, t0 ], то и все траектории системы останутся в этом слабо инвариантном множестве. Поскольку множество разрешимости является слабо инвариантным, то стратегия UW (t, x, k) представляет собой решение задачи 2.1.
Третья глава диссертации посвящена задаче об управлении системой с неодно типными ограничениями: управление здесь стеснено геометрическим, а помеха ин тегральным ограничением.
Рассматривается линейная управляемая система вида На управление наложено только геометрическое ограничение u P(t), а помеха долж на обеспечивать выполнение фазового ограничения k(t) 0, эквивалентного инте гральному ограничению В разделе 3.1 показывается, что, если управлению недоступна информация о теку щем значении k(t), то система может быть преобразована так, что ее вид аналогичен (12), но при этом уже известно значения k(t), а матрица C(t) I. Кроме того, как и в предыдущих главах, матрицу A(t) можно считать нулевой.
В разделе 3.2 приводится постановка основной задачи:
Задача 3.1. Для данного целевого множества M Rn R+ найти множество разрешимости W[t] и позиционную стратегию управления U (t, x, k) UCL, такую, что все его траектории дифференциального включения выпущенные из любой начальной позиции (t, x, k), t T, (x, k) W[t], достигали бы целевое множество M в момент времени t1, какова бы ни была измеримая помеха v(t), удовлетворяющая ограничению (13).
Поскольку множество разрешимости здесь как правило является невыпуклым, то как и в предыдущей главе мы будем работать с его сечениями, обозначаемыми W[k, t], и сечениями целевого множества M(k).
Решение задачи 3.1 ведется по той же схеме, что и во второй главе. В разделе 3.3 производится построение альтернированного интеграла. Непосредственному при менению стандартной схемы мешает то, что помеха не содержится ни в каком множе стве и, соответственно, непонятно, какое множество должно участвовать в операции геометрической разности, входящей в выражение для программных множеств разре шимости. В диссертации указанная трудность преодолевается, вычислив множество разрешимости при каждом возможном значении переменной k в конечный момент (при этом множество возможных значений интеграла от помехи является эллипсои дом k S(t, t1 )) и взяв затем пересечение этих множеств (поскольку помеха имеет возможность выбрать наихудшее для управления значение k(t1 )):
В разделе 3.4 вводится функция цены для экстремальной переформулировки зада чи 3.1 и доказывается, что при предположении о ее гладкости она является решением уравнения Гамильтона–Якоби–Беллмана–Айзекса V (t1, x, k) = d (x, M(k)), и не превосходит квадрата расстояния до сечения множества разрешимости (теорема 3.17).
Если Z[k, t] слабо инвариантное многозначное отображение, то экстремальной стратегией к нему будет Эта стратегия гарантирует, что траектории системы, начинающиеся в трубке Z, в последующие моменты не выходят за ее пределы (теорема 3.19).
В разделе 3.5 подробно рассматривается случай одномерного пространства пере менной x (фазовое пространство системы (12) при этом двухмерное, потому что кроме x имеется переменная k). Получены явное выражение для альтернированного интегра ла (теорема 3.22). Доказано, что функция цены принадлежит классу функций вида (d(x, [a, b]) + h)2, т.е. определяется всего тремя параметрами (при этом [a, b] = W[k, t], если h = 0).
Чтобы проиллюстрировать полученные теоретические результаты, в разделах 1.2.6, 1.3.7, 2.6 и 3.6 собраны примеры к соответствующим главам.
В заключении сформулированы основные результаты, полученные в диссертации.
Основные результаты диссертации опубликованы в работах [8–10, 69].
Автор приносит искреннюю благодарность своему научному руководителю Алек сандру Борисовичу Куржанскому за постановку задач, постоянное внимание к работе и ценные советы. Особо следует отметить, что для автора первым источником знаний по используемым в диссертации подходам были лекции А. Б. Куржанского по курсу Динамическое программирование и процессы управления.
Работа выполнена при частичной финансовой поддержке программы Универси теты России Фундаментальные исследования (грант № УР.3.3.07), РФФИ (грант № 03-01-00663) и гранта Президента России по поддержке ведущих научных школ (№ НШ-1889.2003.1).
Основные обозначения В этом разделе собраны обозначения, используемые в работе.
Rn n-мерное евклидово пространство (полу)норма вектора x, равная x, Ax 2 для положительно (неотрицательно) определенной матрицы A единичная матрица, размерность которой ясна из контекста Br n-мерный шар радиуса r с центром в начале координат, рав E (q, Q) эллипсоид с центром в точке q и матрицей конфигурации Q:
f (·) сопряженная (по Фенхелю) функция к f (·):
выпуклая замкнутая оболочка функции f (x), равная f (x) conv f (·) ( | A) опорная функция множества A в направлении :
относительная внутренность выпуклого множества A AB геометрическая разность (Минковского) множеств A и B:
хаусдорфово полурасстояние между компактами X и Y :
h+ (X, Y ) хаусдорфово расстояние между компактами X и Y :
h(X, Y ) евклидово расстояние от точки x до множества A:
d(x, A) x(t) x[1, 2 ] Глава Задачи управления при двойном ограничении 1.1 Введение В этой главе мы рассмотрим задачу об управлении линейной системой без неопреде ленности в условиях двойного ограничения на управляющие воздействия. Управляе мая система имеет вид Здесь x(t) Rn положение системы, u Rnp управление, k(t) R1 текущий запас энергии управления. Матрицы A(t), B(t) и R(t) являются известными парамет рами системы и обладают достаточной гладкостью, кроме того матрица R(t) положи тельно определена.
Считается, что управление стеснено геометрическим, или жестким ограничени ем, то есть способно принимать значение только из определенного множества:
где µ некоторое неотрицательное число. Мы будем изучать два основных способа выбора µ: как постоянное значение и как функцию от резерва k(t).
Кроме геометрического, управление подчиняется также интегральному, или мяг кому ограничению, смысл которого заключается в том, что управление обладает конечным запасом энергии, и управляющие воздействия должны быть выбраны так, чтобы уложиться в этот запас. Более четкая формулировка интегрального ограниче ния будет дана чуть ниже, вместе со способами выбора значений µ.
Для того, чтобы гарантировать существование допустимых управлений, удовле творяющих и геометрическому, и интегральному ограничениям, мы предположим, что множество P(t) содержит начало координат. Важным частным случаем геомет рического ограничения (1.2) является эллипсоидальное ограничение вида Управление u может принадлежать одному из следующих двух классов:
1. программные управления UOL рующие существование, единственность и продолжаемость на весь отрезок T решения системы дифференциальных уравнений а также обеспечивающие выполнение геометрического ограничения (1.2) и соот ветствующего интегрального ограничения;
2. позиционные стратегии UCL R conv Rnp, гарантирующие существование и продолжаемость на отрезок T решений дифференциального включения а также удовлетворяющие геометрическому ограничению U (t, x, k) µP(t) и соответствующему интегральному ограничению.
В данном случае, в отсутствие неопределенности, возможность решения задачи не зависит от того, какие стратегии управления используются программные или пози ционные, то есть множества достижимости и разрешимости для обоих этих классов управлений совпадают [73].
В данной главе преследуются следующие цели:
Операция взятия выпуклой оболочки в правой части (1.5) появляется их чисто технических соображений и не увеличивает возможностей управления, так как добавляет только такие точки, которые не являются оптимальными.
1. вычислить функцию цены и построить с ее помощью синтез управлений, гаран тирующий попадание на заданное целевое множество;
2. получить необходимые и достаточные условиям для программных управлений, приводящих на границу множества достижимости;
3. указать способ вычисления множества достижимости.
Постоянное значение µ (раздел 1.2). Пусть значение µ зафиксировано, положи тельно и не меняется с течением времени. Поскольку можно переобозначить µP(t) P(t), то можно считать, что µ = 1.
В этом случае будем требовать от программных управлений соблюдения фазового ограничения эквивалентного интегральному ограничению а позиционные стратегии будем определять таким образом, что U (t, x, k) = {0} при это обеспечивает выполнение фазового ограничения (1.6).
k k (см. лемму 1.19).
3. Матрица (, t) также является решением системы 5. Матрица (t, ) всегда невырожденная, и (t, )1 = (, t).
Введем новую переменную где [t0, t1 ] некоторый фиксированный момент времени (обычно бывает удобно выбрать = t0 или = t1 ). В силу свойства 5 обратный переход будет осуществляться по формуле x(t) = (t, )x0 (t).
Геометрический смысл подобной замены состоит в том, чтобы для каждого момен та t заменить состояние системы x(t) на соответствующее ему состояние в момент.
Поскольку после такой замены все значения переменной x0 (t) соответствуют одному и тому же моменту, то естественно ожидать, что линейная часть динамики систе мы станет нулевой. В самом деле, легко проверить, что после замены система (1.1) приобретает вид Опустив здесь нулевые индексы у x0 и B0, мы получаем в точности систему (1.8).
Поскольку преобразование (1.10) невырожденное, то rank B0 (t) rank B(t).
Необходимо учесть, что в результате замены (1.10) изменяются также начальное и целевое множества. Именно здесь удобно распорядиться свободой в выборе момента : если решается задача достижимости, то взяв = t0, мы не изменим начальное множество в силу свойства 2. Напротив, выбор = t1 не меняет целевое множество.
Итак, без ограничения общности можно считать, что A(t) 0. Для применения излагаемых результатов к системам с ненулевой динамикой необходимо вначале вы полнить замену (1.10), затем произвести все необходимые вычисления и произвести об ратную замену. Например, если для системы с нулевой динамикой найдено множество достижимости X0 (t0, t) и позиционная стратегия управления U0 (t, x, k), то обратный переход будет производиться по формулам Отметим, что все выкладки можно было бы проделать и непосредственно для системы с ненулевой матрицей A(t).
1.2 Управление при геометрическом и интегральном 1.2.1 Постановка задачи Рассматривается система текущий запас энергии управления.
Управление u при почти всех t T стеснено геометрическим ограничением Кроме того должно выполняться фазовое ограничение эквивалентное интегральному ограничению на управление Многозначное отображение P(t) является непрерывным по Хаусдорфу, а все его значения P(t) содержат нулевой вектор: это предположение сделано с целью обеспе чить существование управлений, удовлетворяющих обоим ограничениям.
Матрицы B(t) и R(t) являются заранее известными параметрами системы, кото рые мы будем считать непрерывно дифференцируемыми. Матрица R(t) положительно определена, а относительно B(t) потребуем, чтобы система была вполне управляемой на отрезках [t0, t] и [t, t1 ] при любых t из интервала (t0, t1 ), то есть матрицы являются невырожденными при t (t0, t1 ). Отсюда следует, что и матрицы также будут будут обратимы при t (t0, t1 ), поскольку умножение матрицы B(t) на невырожденную матрицу R 2 (t) не повлияет на управляемость системы.
Будем рассматривать следующие классы управлений:
1. программные управления UOL = UOL (k0 ) удовлетворяющие геометрическому ограничению (1.13) и интегральному ограни чению (1.15). Такие управления гарантируют существование и единственность решений траекторий системы (1.12).
2. позиционные стратегии UCL conv Rnp, полунепрерывные сверху по переменным (x, k) и измеримые по t, удо влетворяющие вложению U (t, x, k) P(t) и условию U (t, x, k) = {0} при k < 0.
Такие стратегии гарантируют существование и продолжаемость решений диф ференциального включения и выполнение фазового ограничения (1.14).
Помимо указанных основных классов будет удобно ввести еще два вспомогательных класса программных управлений:
3. управления с геометрическим ограничением UG измеримые функции u(·):
T Rnp, удовлетворяющие геометрическому ограничению (1.13).
4. управления с интегральным ограничением UI = UI (k0 ) суммируемые функции u(·): T Rnp, удовлетворяющие интегральному ограничению (1.15).
Данный раздел посвящен решению следующих задач:
Задача 1.1. Найти область достижимости XGI [t1 ] Rn, то есть множество то чек x, достижимых системой в конечный момент времени при данном резерве k из начала координат или произвольного множества M0 Rn, а также для про извольного направления вывод системы в конечный момент времени на границу множества достижимости в этом направлении:
Задача 1.2. Найти область разрешимости WGI [k0, t0 ] Rn, то есть множество точек x Rn, стартуя из которых система может достигнуть в конечный мо мент заданное целевое множество M1 Rn при данном резерве k0, а также ука зать управление, обеспечивающее включение x(t1 ) M1.
Задача 1.3. Найти область разрешимости WGI [k0, t0 ] Rn и позиционную стра тегию U UCL, такие, что все траектории дифференциального включения (1.17), выпущенные из точки x(t0 ) WGI [k0, t0 ], k(t0 ) = k0, в конечный момент попадают на множество M1.
Еще раз подчеркнем, что в отсутствии неопределенности области разрешимости в задачах 1.2 и 1.3 совпадают.
1.2.2 Область достижимости Целью этого параграфа является нахождение области достижимости системы из начала координат а именно, всех точек x, достижимых в момент t1 за счет выбора управлений при указанных выше ограничениях. Обозначим указанную область дости жимости как Приведем вначале основные свойства множеств достижимости при отдельных огра ничениях и выводящих на их границу управлений3.
Отмеченные факты, рассмотренные подробно в монографии [17], здесь приведены в несколько иной форме, полезной для дальнейших выкладок.
Теорема 1.1.
жеств XG [t1 ] и XI [t1 ], а именно, где XG [t1 ] область достижимости только при геометрическом ограничении:
XI [t1 ] область достижимости только при интегральном ограничении:
2. Пусть (x (·), k (·)) траектория системы, соответствующая управлению u (·).
Для того, чтобы при геометрическом ограничении для заданного R n выпол нялось равенство необходимо и достаточно, чтобы в каждый момент времени выполнялся по точечный принцип максимума 3. Для того, чтобы при интегральном ограничении для заданного нялось равенство необходимо и достаточно, чтобы в ограничении (1.15) достигалось равенство и существовало число > 0, при котором в каждый момент выполнялось следующее условие максимума для интегрального ограничения:
Замечание 1.1. Вложение (1.20) в общем случае выполняется в строгом смысле (см.
примеры в конце раздела). Вместе с тем, как мы увидим в следующей главе, различие между левой и правой частью в смысле метрики Хаусдорфа мало по сравнению с дли ной интервала времени T. Это позволяет в определенных случаях, например, при вы вода эволюционных уравнений, пренебрегать этим различием и заменять множество достижимости при двойном ограничении XGI на пересечение множеств достижимости при отдельных ограничениях, XG и XI.
Доказательство. Из (1.19) следует, что множество XGI [t1 ] содержится в каждом из множеств XG [t1 ] и XI [t1 ], из чего сразу вытекает вложение (1.20).
Докажем формулы (1.21) и (1.23). По определению опорной функции [51] имеем причем равенство достигается тогда и только тогда, когда выполняется принцип мак симума (1.23).
Докажем формулы (1.22) и (1.24). По неравенству Коши–Буняковского для про странства L2 (Rnp ) получаем причем равенство в (A) достигается, когда функции t R(t)u(t) и t B T (t) сона правлены, то есть а константа > 0 в (1.25) выбирается так, чтобы достигалось равенство в (B). Непо средственно проверяется, что такое управление удовлетворяет условию (1.24).
Следствие 1.1.1. При геометрическом ограничении оптимальное управление u (t) лежит в опорном множестве к P(t) в направлении B T (t), а при интегральном имеет следующий вид:
Следствие 1.1.2. Множество достижимости при интегральном ограничении яв ляется невырожденным эллипсоидом с центром в начале координат:
Лемма 1.2. Множества UI (k), UG и UOL (k) являются выпуклыми, замкнутыми и ограниченными в пространстве L2 (T ).
Доказательство. Для классов UI (k) и UG утверждение очевидно, а для UOL (k) оно следует из того, что UOL (k) = UI (k) UG.
Следствие 1.2.1. Множества достижимости XI [t1 ], XG [t1 ] и XGI [t1 ] являются вы пуклыми компактами.
Принцип максимума для системы с двойным ограничением как бы совмещает в себе формулы (1.23) и (1.24):
Теорема 1.3. Пусть (x (·), k (·)) траектория системы, соответствующая управ лению u (·). Тогда 1. Для того, чтобы в исходной задаче с двумя ограничениями для заданного R n в конечный момент достигалось равенство каждый момент времени выполняется принцип максимума и условие дополняющей нежесткости менное выполнение (1.27) и (1.28).
3. Управление, доставляющее равенство (1.26), существует, а при > 0 оно единственно.
Доказательство. Управление, обеспечивающее равенство (1.26), переводит систему из начала координат в точку x (t1 ) с наименьшими затратами энергии. Применяя метод принцип максимума Л. С. Понтрягина [50] к задаче оптимального управления получаем соотношение (1.27).
Чтобы показать достаточность принципа максимума, заметим, что множество управ лений UOL является слабо компактным в силу леммы 1.2, а функционал J(u(·)) слабо полунепрерывен снизу (как выпуклый и полунепрерывный снизу). Следовательно [7], оптимальное управление существует.
При = 0 интегральное ограничение неактивно, поэтому принцип максимума (1.27) превращается в (1.23), и его достаточность очевидна. В случае > 0 существу ет ровно одно управление, удовлетворяющее принципу максимума, поскольку под зна ком максимума стоит сильно вогнутая функция. Поскольку оптимальное управление существует, то оно совпадает с управлением, найденным из принципа максимума.
Поскольку при увеличении управление u (t), удовлетворяющее принципу макси мума (1.27) сдвигается к началу координат, то выражение ет по. Следовательно, существует ровно одно значение, при котором достигается равенство (1.26).
Пусть теперь задано начальное множество M0 Rn (будем считать, что это непу стой выпуклый компакт). Найдем множество достижимости в момент t1 из начального положения {t0, x(t0 )}, где x(t0 ) M0. Очевидно, что Теорема 1.4. Для того, чтобы для заданного необходимо и достаточно, чтобы в каждый момент выполнялся принцип максиму ма (1.27), выполнялось условие дополняющей нежесткости (1.28) и условие транс версальности в начальный момент:
1.2.3 Область разрешимости Рассмотрим теперь ту же задачу в обратном времени: опишем множество начальных состояний x(t0 ), из которых можно попасть в конечный момент в начало координат при имеющихся ограничениях на управление. Указанное множество принято называть областью разрешимости или попятной областью достижимости. Обозначим это множество как Заметим, что из определения WGI [t0 ] следует равенство Если вместо начала координат задано целевое множество M1, то множество разре шимости можно найти как После выкладок, аналогичным проделанным для множества достижимости, полу чаем следующее утверждение:
Теорема 1.5. 1. Область разрешимости содержится в пересечении множеств где WG [t0 ] множество разрешимости только при геометрическом ограниче а WI [k0, t0 ] множество разрешимости только при интегральном ограниче 2. Пусть (x (·), k (·)) траектория системы, соответствующая управлению u (·).
Для того, чтобы при геометрическом ограничении выполнялось равенство необходимо и достаточно, чтобы существовало управление, для которого в каждый момент времени выполняется равенство (принцип максимума для гео метрического ограничения) и в конечный момент x (t1 ) = 0.
3. Для того, чтобы при интегральном ограничении выполнялось равенство необходимо и достаточно, чтобы существовало управление u (·), для которого x (t1 ) = 0 и интегральное ограничение (1.15) выполняется в виде равенства, и число > 0, для которых в каждый момент времени выполняется условие максимума для интегрального ограничения 4. Для того, чтобы при совместных ограничениях достигалось равенство такие, что в каждый момент времени выполняется принцип максимума в форме выполняется условие дополняющей нежесткости а в конечный момент выполняется условие трансверсальности 1.2.4 Метод динамического программирования. Функция цены Найденные выше формулы для областей достижимости и разрешимости были получе ны в статической форме, на основе неравенств выпуклого анализа. Далее приведены соотношения динамического программирования для этих задач, открывающий путь к построению синтезирующих стратегий управления.
Задача достижимости Введем следующую функцию цены:
означающую минимальное расстояние, на которое управление может приблизить си стему к точке x в момент времени t, израсходовав не более чем k единиц энергии. Воз ведение в квадрат здесь произведено для обеспечения необходимой гладкости функ ции V.
Указанная функция цены допускает и другую интерпретацию: это минимальное расстояние до начального множества M0, при котором возможно попадание в точку x в момент t при запасе энергии k:
Очевидно, что искомая область достижимости XGI (t1 ; t0, k0, M0 ) будет множеством уровня указанной выше функции цены:
Можно перейти и в обратную сторону, от множества достижимости к функции цены, используя следующее утверждение:
Теорема 1.6. Функция цены равна квадрату расстояния до множества достижи мости:
Доказательство. Воспользуемся формулой тогда конечности при перестановочны [78], и можно продолжить равенство:
Лемма 1.7. Опорная функция множества достижимости ( | XGI (t1 ; t0, k)) явля ется вогнутой по переменной k для всех направлений Доказательство. Пусть xi XGI (t1 ; t0, ki ), i = 1, 2, и (0, 1). Покажем, что точка x = x1 + (1 )x2 XGI (t1 ; t0, k ), где k = k1 + (1 )k2. Для этого возьмем управления u1 UOL (k1 ) и u2 UOL (k2 ), соответствующие точкам x1 и x2, и составим новое управление u (t) = u1 (t)+(1)u2 (t). Очевидно, что это управление приводит систему в точку x, нужно лишь показать, что при этом расходуется не более k единиц энергии. Последнее можно доказать, проинтегрировав неравенство где k (t), k 1 (t) и k 2 (t) траектории резерва, соответствующие управлениям u (t), u1 (t) и u2 (t).
Следствие 1.7.1. Функция цены является выпуклой по переменным (x, k).
Доказательство. Функция k ( | XGI (t; t0, k)) является вогнутой, поэтому в (1.36) под знаком максимума по стоит выпуклая по переменным (x, k) функция, а значит, и V (t, x, k) является выпуклой по (x, k).
Покажем, что функцию цены можно искать независимо от множества достижимо сти как решение дифференциального уравнения в частных производных типа Гамильтона–Якоби–Беллмана.
Теорема 1.8. Функция цены в задаче достижимости является классическим реше нием уравнения Гамильтона–Якоби–Беллмана с граничным условием и с начальным условием Доказательство. Вычислим вначале опорную функцию множества достижимости из начала координат:
где UI и UG множества управлений, удовлетворяющих геометрическому и интеграль ному ограничению соответственно. Составим функцию Лагранжа:
Тогда опорная функция множества достижимости допускает следующее представле ние [51, 7]:
( | XGI [t1 ]) = min max = L(u(·), ) = max L(u(·), 0 ( )) = Здесь 0 ( ) единственный множитель Лагранжа, на котором достигается минимум в предыдущей форме (единственность доказывается также, как в теореме 1.3).
Как уже было показано ранее, симума сильно вогнута по. По теореме о дифференцировании функции максимума [11] частные производные функции цены равны что эквивалентно (1.37).
Таким образом, функция V (t, x, k) является непрерывно дифференцируемой по совокупности переменных. Следовательно, она будет классическим решением уравне ния (1.37). Справедливость краевого условия (1.38) вытекает из равенства V (t, x, 0) = V (t1, x, 0), которое можно вывести непосредственно из определения функции цены (1.35).
Замечание 1.2. Если функция цены равна минимальному расстоянию до начального множества, а не его квадрату, то она будет менее гладкой, чем ранее, однако, в силу выпуклости по переменным (x, k) она будет вязкостным решением [68] уравнения Гамильтона–Якоби–Беллмана [71].
Разрешимость Для того, чтобы применить метод динамического программирования к задаче 1.3 о попадании на целевое множество, сведем ее к следующей оптимизационной задаче:
Задача 1.4. Указать позиционную стратегию U UCL, при которой решения диф ференциального включения (1.17), выпущенные из произвольной точки (x(t 0 ), k(t0 )) = (x0, k0 ), оказываются в конечный момент на минимально возможном расстоянии от целевого множества M1. Найти это расстояние для каждой точки (t, x, k) С этой задачей связана функция цены где z(t) = (x(t), k(t)), ZU (·) ансамбль решений дифференциального включения (1.17). Однако, как уже отмечалось, в отсутствие неопределенности использование позиционных стратегий не добавляет возможностей управлению, поэтому для упро щения при вычислении функции цены можно воспользоваться и программными стра тегиями:
Это минимальное расстояние, на которое можно приблизиться к целевому множеству в конечный момент, если в момент t система находится в точке x и имеет неизрасходо ванный запас энергии k. Эта функция цены также допускает вторую интерпретацию расстояние до ближайшей точки, из которой можно попасть в целевое множество разрешимости, использовав не более k единиц энергии:
Очевидно, что множество разрешимости является множеством уровня функции цены: WGI [k0, t0 ] = {x Rn | V (t, x, k0 ) 0}, а управление, решающее задачу 1.4, бу дем решением и для задачи 1.3. Таким образом, решив задачу 1.4, мы автоматически получаем решение задачи 1.3 (обратное, вообще говоря, не верно: управление может гарантировать попадание на целевое множество и при этом не обладать какими-либо экстремальными свойствами).
Теорема 1.9. Функция цены в задаче разрешимости 1.4 равна Она является решением уравнения Гамильтона–Якоби–Беллмана с граничным условием и с начальным условием Следствие 1.9.1. Оптимальный синтез управления U (t, x, k) в задаче 1.4 находит ся по формуле Функция U (t, x, k) является полунепрерывной сверху в силу непрерывности функ ции V (t, x, k), и, следовательно, принадлежит классу стратегий UCL.
В данном случае оптимальный синтез совпадает со стратегией экстремального при целивания на множество разрешимости, поскольку может быть представлено в виде выражении 1.2.5 Об эллипсоидальной аппроксимации множества достижи Целью данного параграфа является построение внешней эллипсоидальной аппрок симации множества достижимости при двойном ограничении. Для этого мы внача ле приблизим непрерывную систему дискретной и получим формулы аппроксимации для нее, а затем, совершив предельный переход, вернемся к непрерывной системе и по лучим дифференциальные уравнения, описывающие параметры аппроксимирующих эллипсоидов.
Дискретный случай Задача 1.5. Пусть даны n невырожденных эллипсоидов а также фиксировано число K 0. Требуется построить параметризованное се мейство эллипсоидов, в пересечении дающее множество В дальнейшем будем считать, что матрицы Bi невырожденные.
Замечание 1.3. Множество XGI [n] есть область достижимости дискретной системы Лемма 1.10. Множество XGI [n] представимо в виде Введем обозначения тогда выражение для Xn (, ) примет следующий вид:
Лемма 1.11. Множество Xn (, ) является эллипсоидом:
Доказательство. Опорная функция множества Xn является решением следующей задачи на условный экстремум:
Составим функцию Лагранжа:
Необходимым условием экстремума является Ограничение здесь всегда активно, и, следовательно, > 0. Домножая условие экс тремума слева на матрицу BiT 1, имеем BiT 1 Si (u ci ) = B1 1 S1 (u c1 ). Подставляя ui = Si1 BiT B1 1 S1 (u c1 ) + ci в ограничение, получаем Множество Xn (, ) состоит из элементов вида поэтому Непрерывный случай Система с нулевой динамикой Рассмотрим теперь непрерывную систему с геометрическим ограничением и интегральным ограничением Задача 1.6. Построить параметрическое семейство эллипсоидов, в пересечении да ющее множество достижимости XGI [t1 ] указанной системы.
Выберем произвольное разбиение T = {i | i = 0,..., n} отрезка [t0, t1 ] и сопоста вим непрерывной системе ее дискретное приближение:
Лемма 1.12. Если XGI множество достижимости дискретной системы при раз биении T, то Лемма следует из теоремы 2.9 о приближении множества достижимости при двой ном ограничении, которую мы докажем в следующей главе.
Переходя к пределу при 0 в формулах для эллипсоидальной аппроксимации множества достижимости дискретной системы, получаем следующее:
Теорема 1.13.
2. Множество X, [t1 ] является эллипсоидом Введем нормированные коэффициенты тогда функции X, (t), x+ (t) и h, (t) удовлетворяют следующим дифференциаль ным уравнениям:
Система с ненулевой линейной динамикой Для системы с прежними ограничениями (интегральным и геометрическим) формулы для внешней эллипсоидальной аппроксимации получаются путем замены (1.10).
X, (t) = A(t)X, (t) + X, (t)AT (t) + (t)X, (t) + B(t)S 1 (t, (t), (t))B T (t), Начальные значения Если начальная траектория системы лежит во множестве M0 = E (m0, M0 ), то уравнения для параметров аппроксимации следует решать со следующими начальными условиями:
Частные случаи 1. Только геометрическое ограничение. Интегральное ограничение не будет учитываться, если положить = 0. Получаем обычные формулы для внешней эллип соидальной аппроксимации для системы с геометрическими ограничениями [73]:
X, (t) = A(t)X, (t) + X, (t)AT (t) + (t)X, (t) + 1 (t)B(t)P 1 (t)B T (t), 2. Только интегральное ограничение. Аналогично, если положить (t) 0, то не будет учитываться геометрическое ограничение:
Поскольку аппроксимация не зависит ни от каких параметров, то она совпадает с множеством достижимости.
3. Одношаговая задача. Рассмотрим дискретную систему при n = 1, K = 1, B1 = 0. Тогда при + = 1 формула для аппроксимации имеет вид то есть совпадает с формулой для внешней аппроксимации пересечения эллипсоидов с матрицами Q1 = P 1, Q2 = R1 и центрами a и b соответственно [73].
4. Подобные матрицы R и P. Пусть R = P (если R = P, то достаточно поделить обе части интегрального ограничения на ). Тогда Если к тому же p(t) = r(t), то Множество разрешимости Рассмотрим теперь ту же задачу в обратном времени, то есть построим внешнюю эл липсоидальную аппроксимацию множества разрешимости WGI [t1 ] из множества M1 = E (m1, M1 ).
Теорема 1.14. Множество разрешимости WGI [t0 ] представимо в виде где множества W, [t0 ] являются эллипсоидами с параметрами, удовлетворяющими дифференциальным уравнениям W, (t) = A(t)W, (t) + W, (t)AT (t) (t)W, (t) B(t)S 1 (t, (t), (t))B T (t), с начальными условиями Эволюция сечений множеств достижимости и разрешимости Достижимость Множество достижимости XGI [t] неявно зависит от резерва управ ления K, при котором оно вычисляется. Сделаем эту зависимость явной и проследим, как она отразится на формулах для эллипсоидальной аппроксимации.
Функция будет теперь зависеть от переменной k:
или, что эквивалентно, Нормированные коэффициенты и примут вид Матричная функция X, также будет зависеть от k:
откуда получаем выражения для частных производных X, :
Это может быть записано в виде дифференциального уравнения в частных производ ных X, (k, t) (k, t) X, (k, t) Аналогичным образом получаем и уравнения для функции h, (k, t):
или, в форме уравнения в частных производных, Центр эллипсоидальной аппроксимации от значения k не зависит, поэтому он удо влетворяет тому же самому уравнению, что и раньше.
Разрешимость Параметры внешней эллипсоидальной аппроксимации сечений об ласти разрешимости WGI [k, t] являются решением следующих уравнений:
1.2.6 Примеры Пример 1.1. Этот пример демонстрирует возможность строгого вложения в (1.20), то есть несовпадения множества достижимости при двойном ограничении (XGI ) и пере сечения множеств достижимости при отдельных ограничениях (XG и XI ). Рассмотрим при одномерную систему с геометрическим ограничением и начальным запасом энергии k0 = 9.
По теореме 1.1 имеем, что множества XG [t1 ] и XI [t1 ] совпадают и равны Пусть = 1. В случае геометрических ограничений оптимальная траектория а для интегральных ограничений Видно (рис. 1.2), что траектория u не удовлетворяет интегральному ограничению, а u геометрическому, поэтому множество XGI [t1 ] не может совпадать со множествами XI [t1 ] или XG [t1 ]. Покажем теперь это более строго.
Из принципа максимума получаем, что оптимальное управление имеет вид Константа t выбирается из условия и равна t = 9. Используя это управление, получаем XGI [t1 ] = 2187, 2187, что почти на 7% меньше множеств XG и XGI. Это относительное различие множеств XGI и XG XI можно увеличить, взяв в правой части системы B(t) = tm вместо t2 ; с увеличением m оно растет, оставаясь, однако, в пределах 12%.
Пример 1.2. Траектория системы, обеспечивающая попадание на границу области достижимости XGI [t1 ], в промежуточные моменты времени не обязательно будет нахо диться на границе XGI [t]. На рисунке 1.3 представлена траектория системы из примера 1.1 (сплошная линия) и граница множества достижимости в соответствующие момен ты времени (пунктирная линия). Видно, что на интервале (t0, t1 ) система все время находится внутри множества достижимости.
Пример 1.3. Рассмотрим двухшаговую дискретную систему со следующими пара метрами:
На рисунке 1.4 представлены все три множество достижимости: XGI, XG и XI. Множе ство достижимости при двойном ограничении XGI здесь вычислено как пересечение большого количества внешних эллипсоидальных аппроксимаций (рис. 1.5).
Пример 1.4. На рисунке 1.6 показана эллипсоидальная аппроксимация множества достижимости для непрерывной задачи со следующими параметрами:
На рисунке 1.7 представлена трубка достижимости, вычисленная с помощью внешних эллипсоидальных аппроксимаций.
1.3 Двойное ограничение с зависимостью геометри ческого ограничения от текущего резерва В данном разделе рассматривается задача управления дифференциальным уравне нием, когда управление стеснено геометрическим и интегральным ограничением, и кроме того геометрическое ограничение зависит от текущего резерва по интегрально му ограничению, причем эта зависимость нелинейная. Это более общая постановка по сравнению с задачей об управлении при двойном ограничении, рассмотренной в разделе 1.2. Она позволяет, например, учитывать не только ограниченность запаса топлива у транспортного средства, но и изменения в его реакции на управляющие воздействия, связанные с уменьшением массы топлива.
1.3.1 Постановка задачи Рассмотрим систему, движения которой описываются дифференциальными уравнени ями Здесь x(t) Rn текущее положение системы, u(t) Rnp вектор управления, k(t) текущий запас энергии управления.
Управление стеснено геометрическим ограничением то есть возможности управления зависят от текущего запаса энергии. Здесь P(·) непрерывное многозначное отображение, принимающее непустые выпуклые ком µ(k(t)) = 0 управление может принимать лишь нулевое значение, так что если зна чение k = sup {k | µ(k) 0, k < k(t0 )} конечно, то управление будет автоматически удовлетворять и интегральному ограничению Управления u(·) L2 (t), почти всюду удовлетворяющие ограничению (1.40), будет называть допустимыми, а множество всех допустимых управлений будет обозначать через UOL. Очевидно, что одно и то же управление управление может быть допусти мым при одном начальном значении k(t0 ) и не быть допустимым при другом значении, поэтому множество UOL зависит от k(t0 ) чем больше k(t0 ), тем больше управле ний включает UOL. Далее мы будет считать, что значение k(t0 ) фиксировано, причем µ(k(t0 )) > 0.
Предполагается, что матричные функции A(t), B(t) и R(t) непрерывно дифферен цируемы. Кроме того R(t) положительно определена в каждый момент времени, то есть при любой активности управления значение переменной k уменьшается. Будем предполагать, что функция µ(·) ограничена на полупрямых вида (, k). Последние два требования гарантируют продолжаемость решений системы (1.39).
Нас будет интересовать решение следующей задачи:
Задача 1.7. Найти допустимое управление u(·) UOL, приводящее систему в конеч ный момент времени t1 на границу множества достижимости в заранее заданном направлении, то есть управление, доставляющее максимум функционалу Однако, вместо того, чтобы решать задачу 1.7, мы сведем ее к более общей:
Задача 1.8. Найти допустимое управление u(·) UOL, доставляющее максимум интегральному функционалу Задача 1.7 становится частным случаем задачи 1.8, если положить h(t) = B T (t)s(t), решение сопряженной системы s(t) = AT (t)s(t), s(t1 ) =.
1.3.2 Принцип максимума Произведем вначале замену u(t) µ(k(t))u(t), чтобы геометрическое ограничение не зависело от фазовой координаты k. После этой замены получаем задачу об отыскании оптимального управления для нелинейного дифференциального уравнения:
Используя принцип максимума для систем с закреплённым временем и свободным правым концом [50, Теорема 7], получаем следующее утверждение:
Теорема 1.15. Пусть функции µ(k) и h(t) непрерывно дифференцируемы4. Для то го, чтобы допустимое управление u(t) и соответствующая ему траектория k(t) доставляли максимум функционалу (1.41) на отрезке [t0, t1 ], необходимо существо вание такой ненулевой непрерывно дифференцируемой функции (t), удовлетворяю щей дифференциальному уравнению Здесь и далее подразумевается, что непрерывная дифференцируемость функции µ(k) требуется на множестве { k | µ(k) > 0} что для всех t [t0, t1 ] функция переменной u P(t) достигает в точке u = u(t) максимума Следствия из принципа максимума Лемма 1.16. Пусть функция µ(k) неубывающая (невозрастающая). Тогда перемен ная неотрицательна и не возрастает (соответственно, неположительна и не убывает).
Доказательство. Запишем уравнение (1.43) в виде Скалярное произведение в правой части неотрицательно это необходимое условия для достижения максимума в (1.44) [7, теорема 1.2.5]. Следовательно, производная функции (t) неположительна (соответственно, неотрицательна), откуда и следует утверждение леммы.
Важным частным случаем выбора множества P(t) является эллипсоид с центром в начале координат: P(t) = E (0, P 1 (t)). Для такого ограничения можно получить бо лее удобное выражение для оптимального управления. Записав функцию Лагранжа для задачи максимизации (1.44), получаем следующее описание оптимального управ ления:
Теорема 1.17. Оптимальное управление, определяемое принципом максимума (1.44), выражается формулой где = (t, k, ) множитель Лагранжа, отвечающий ограничению u(t) 1. Оптимальное управление и соответствующий ему множитель Лагранжа одно В случае одновременного равенства нулю h(t) и (t) управление может принимать любое значение из U.
Отметим, что управление, удовлетворяющее принципу максимума, будет непре рывным, функция (t) = 0 на [t0, t1 ), и кусочно непрерывным, если (t) обращается в нуль в конечном числе точек.
Изучим отдельно случаи = 0 и > 0, то есть когда геометрическое ограничение активно или неактивно в данный момент времени.
1. Случай = 0 (ограничение неактивно). Из (1.46) получаем и при подстановке в (1.43) имеем (t) = 0.
2. Случай > 0. В этом случае из условия дополняющей нежёсткости выводим равенство u(t) = 1, однозначно определяющее выбор.
Лемма 1.18. Множитель Лагранжа = (t, k, ) связан с функцией (·) следую щим соотношением:
Доказательство. Представим выражение для оптимального управления в виде (для краткости опустим зависимость от t):
Пусть s1,..., sm мулу для управления:
Заметим, что соотношение (1.48) верно и при = 0. Сравнивая (1.45) и (1.48), находим выражение для при известном управлении:
В случае наличия нескольких различных собственных значений i аналитическое решение уравнения (1.50) относительно сводится к поиску корня многочлена высо кой степени. Если же собственное значение только одно, то есть P 2 RP 2 = I, то значение находится в явном виде:
Приведенные выше рассуждения предполагают, что функция µ(k(t)) всюду поло жительна. Следующая лемма дает условие, при котором это действительно так.
Лемма 1.19. Пусть функция µ(k) дифференцируема, в правой окрестности точки O (k k ). Тогда её значение вдоль любой траектории системы положительно:
µ(k(t)) > 0.
Доказательство. Если функция µ(k) всюду положительна, то утверждение тривиаль но. Пусть теперь это не так, то есть число k конечно. В начальный момент значение µ(k0 ) положительно. Запишем производную функции µ в силу системы:
Это уравнение должно иметь единственное решение при начальном условии µ(k()) = 0 для произвольного [t0, t1 ]. Считая управление и матрицу R(t) достаточно глад кими функциями, для единственности решения будет достаточно потребовать, чтобы функция f (µ) = µ (k(t))µ2 (k(t)) была непрерывной по Липшицу. По теореме об обрат ной функции существует функция (µ), определенная и дифференцируемая в правой окрестности точки µ = 0. Если функция µ(k) имеет порядок малости r, то (µ) может быть представлена в виде (µ) = µ r g(µ), где функция g(µ) > 0 дифференцируема функция f (µ) будет иметь порядок малости не менее 3 1, то есть условие Липшица будет выполняться при r, что как раз присутствует в предположениях о функции Замечание 1.4. Требование порядка малости щественно. Чтобы продемонстрировать это, выберем µ(k) = k и предположим, что управление выбирается так, чтобы u(t) R(t) справедливо дифференциальное уравнение решение которого (при = 1 ) при < обращается в нуль в точке 1.3.3 Существование решения Опишем вначале свойства множества допустимых программных управлений (таких, которые не нарушают геометрического ограничения):
Напомним, что функция k(·) определяется здесь уравнением (1.42) и, вообще говоря, зависит от управления u(·).
Лемма 1.20. Пусть функция µ(k) вогнута и монотонно не убывает. Тогда множе ство допустимых управлений UOL является выпуклым.
Доказательство. Пусть некоторое управление u(·) является выпуклой комбинацией двух допустимых управлений: u = u1 + (1 )u2, [0, 1], ui UOL. Покажем, что в этом случае и управление u(·) является допустимым.
Обозначим через ki (·) траектории переменной k, отвечающие управлением ui (·).
Тогда откуда легко видеть, что Последнее означает, что функция u(·) k(t) является вогнутой. В силу вогнутости и монотонности функции µ(k) имеем Поскольку ui (t) µ(ki (t))P(t), i = 1, 2, то u(t) = u1 (t) + (1 )u2 (t) (µ(k1 (t)) + (1 )µ(k2 (t)))P(t) µ(k(t))P(t).
Последнее верно для всех t [t0, t1 ], поэтому u(·) UOL. Здесь мы неявно воспользо вались тем, что 0 P(t).
Следствие 1.20.1. При выполнении условий леммы множество достижимости в задаче 1.7 является выпуклым.
Условия неубывания и вогнутости функции µ(k) существенны; невыполнение хо тя бы одного из них может привести к невыпуклости множества достижимости (см.
пример 1.5 в конце раздела).
Лемма 1.21. Пусть функция µ(k) имеет не более счетного числа разрывов. Тогда множество UOL замкнуто в топологии L2 (T ).
Доказательство. Пусть ui (·) последовательность допустимых управлений, сходя щаяся к функции u(·) в пространстве L2 (T ). Из последовательности {ui (·)} можно выделить подпоследовательность {uik (·)}, сходящуюся к u(·) почти всюду [13], поэто соответствующие управлениям ui (·). Тогда так как I1 0 по условию сходимости ui (·) к u(·), а для I2 справедлива оценка Если значение k(t) является точкой непрерывности функции µ(·), то в пределе получаем Таким образом, нарушение геометрического ограничения возможно только на множе стве {i } точек разрыва функции µ(·). Введем обозначение Ti = { T | k() = i }, геометрическое ограничение. Если meas T = 0, то управление u(·) является допусти мым, так как удовлетворяет геометрическому ограничению почти всюду. Иначе в си лу -аддитивности меры Лебега найдется такое i, что meas Ti > 0. Из монотонности функции k(t) следует, что Ti иначе значение k(t) немедленно уменьшилось бы. Поскольку мы считаем 0 P(t), то геометрическое ограничение в данном случае также выполнено и управление u(t) является допустимым.
Доказательство. Обозначим через Mµ верхнюю грань функции µ(·) на полупрямой (, k) и через MP Следствие 1.22.1. Множество достижимости в задаче 1.7 ограничено.
Теорема 1.23 (о существовании решения). Пусть функция µ(k) вогнута и не убывает на множестве {k | µ(k) доставляющее максимум линейному непрерывному функционалу J(u(·)).
Доказательство. Множество UOL слабо компактно [7, теорема 1.3.4], так как оно яв ляется выпуклым (лемма 1.20), замкнутым (лемма 1.21) и ограниченным (лемма 1.22) в пространстве L2 (T ). Функционал J(u(·)) слабо полунепрерывен сверху (как вогну тый и полунепрерывный сверху). Слабо полунепрерывный сверху функционал дости гает верхней грани на слабо компактном множестве [7, теорема 1.3.2], следовательно множество оптимальных управлений UOL непусто и выпукло.
Следствие 1.23.1. При выполнении условий теоремы существует управление u(·), приводящее систему на границу множества достижимости задачи задаче 1.7 в за данном направлении. Множество достижимости при этом является непустым выпуклым компактом.
О достаточности принципа максимума Если выполнены условия теоремы о существовании решения и u (·) единствен ное управление, удовлетворяющее принципу максимума вместе с некоторой функци ей (·), то u (·) оптимальное управление. В самом деле, поскольку оптимальное управление удовлетворяет принципу максимума, а такое управление всего одно, то оно совпадает с u(·).
Таким образом, в условиях применимости теоремы о существовании решения прин цип максимума в совокупности с единственностью решения прямой и двойственной системы является достаточным условием оптимальности. Очевидно, что при этом сто ит учитывать и условия теоремы о единственности решения, приведенной в следую щем параграфе ведь если оптимальных управлений много, то решение системы из принципа максимума тоже будет не единственным.
Если существует несколько пар {u(t), (t)}, удовлетворяющих принципу максиму ма, то в силу существования решения и необходимости принципа максимума среди этих пар будет оптимальное управление. Таким образом, при выполнении условий теоремы о существовании решения для нахождения оптимального управления доста точно перебрать все решения системы из принципа максимума.
1.3.4 Единственность решения Для доказательства единственности решения предположим, что два различных управ ления являются оптимальными. Следующая лемма позволяет построить управление, которое, как будет показано позже, является более оптимальным. По сути дела это усиленный вариант леммы про выпуклость множества допустимых управлений, поскольку гарантируется допустимость не только тех управлений которые лежат на отрезке от u1 (·) до u2 (·), но и допустимость управлений вблизи этого отрезка.
Лемма 1.24. Пусть 1. функция µ(k) вогнута и возрастает;
2. 0 int P(t);
3. u1 (·) и u2 (·) допустимые кусочно-непрерывные управления, непрерывные сле 4. ограниченная кусочно-непрерывная функция w(·) обладает тем свойством, что w(t) = 0, когда u1 (t) = u2 (t).
Тогда управление u(t) = u1 (t) + (1 )u2 (t) + (t)w(t) также будет допустимым для всех (0, 1) и некоторой положительной кусочно-непрерывной функции (·) (вообще говоря, зависящей от ).
Доказательство. Докажем вначале неравенство При u1 (t) = u2 (t) имеет место w(t) = 0, u(t) = u1 (t) = u2 (t) и (1.53) очевидно выпол няется в виде равенства. Если же u1 (t) = u2 (t), то в силу строгой выпуклости функции u u R(t). Из непрерывности этой функции следует, что при малых значениях (t) будет выполняться и неравенство (1.53) в строгой форме, причем функцию (·) можно выбрать кусочно-непрерывной.
Пусть теперь k(t), k1 (t), k2 (t) траектории переменной k, соответствующие управ лениям u(t), u1 (t), u2 (t). Тогда интегрирование неравенства (1.53) дает k(t) k1 (t) + (1 )k2 (t). Более того, поскольку при u1 (t) = u2 (t) неравенство (1.53) становится строгим, то начиная с первого момента, в который управления различны. Без ограничения общ ности можно отбросить начальный участок, на котором управления совпадают, и счи тать, что (1.54) выполнено везде. Тогда в силу вогнутости и строгого возрастания µ(k) имеем Поскольку ui (t) µ(ki (t))P(t), i = 1, 2, то u1 (t) + (1 )u2 (t) (µ(k1 (t)) + (1 )µ(k2 (t)))P(t) int µ(k(t))P(t), где мы воспользовались требованием 0 int P(t). Таким образом, точка u1 (t) + ( )u2 (t) лежит во внутренности множества µ(k(t))P(t), поэтому при малых значени ях (t) точка u(t) также будет принадлежать множеству допустимых управлений.
Следовательно, u(·) UOL.
Определение 1.1. Будем говорить, что задача максимизации интегрального функ ционала удовлетворяет условию общности положения, если для всех > 0 выполнено В задаче 1.7 выполнение условия общности положения для всех направлений из единичной сферы эквивалентна полной управляемости системы на любом отрезке [t1, t1 ].
Лемма 1.25. Если выполнено условие общности положения, функции µ(k) и h(t) непрерывно дифференцируемы и производная функции µ(k) всюду положительна, то (t) > 0, t [t0, t1 ).
Доказательство. Ранее было доказано, что функция (t) невозрастающая. Покажем, что она положительна в левой окрестности точки t1. Пусть это не так, то есть найдется число > 0, такое, что (t) = 0, t T = [t1, t1 ]. Поскольку выполнено условие общности положения, то h(t) > 0 на подмножестве T ненулевой меры. Поскольку на T принцип максимума превращается в то производная функции (t) отрицательна:
Интегрируя это неравенство на T, получаем (t1 ) > 0, что противоречит сделан ному предположению. Следовательно, (t) > 0 при всех t < t1.
Теорема 1.26 (о единственности решения). Пусть 1. выполнено условие общности положения;
2. функция h(·) непрерывно дифференцируема;
3. функция µ(·) вогнута, возрастает, непрерывно дифференцируема и в точке k имеет порядок малости не менее 1.
Тогда существует ровно одно управление, доставляющее максимум функционалу (1.41).
Доказательство. Условия теоремы гарантируют существование решения. По лемме 1.19 получаем µ(k(t)) > 0, t [t0, t1 ], а условие общности положения в силу леммы 1.25 и принципа максимума дает u(t) = 0 при h(t) = 0. Следовательно, существует множество ненулевой меры T0 T, на котором h(t) = 0 и u1 (t) = u2 (t).
Пусть u1 (t) и u2 (t) различные оптимальные управления. Они удовлетворяют принципу максимума и, как отмечалось ранее, непрерывны (так как (t) > 0, t [t0, t1 )). Выберем произвольное число (0, 1) и рассмотрим управление По лемме 1.24 такое управление допустимо при малой положительной функции (·).
Покажем, что на этом управлении значение функционала больше, чем на ui (·):
Следовательно, управления ui (·) не являются оптимальными. Получено противоречие с предположением о существовании двух оптимальных управлений, следовательно, оптимальное управление единственно.
В условиях вогнутости и строгого возрастания точка k всегда существует.
Ясно, что если условие общности положения не выполнено, то в конце траектории (t) = 0, h(t) = 0 и оптимальное управление может принимать любые значения, укла дывающиеся в геометрическое ограничение (так как эти значения уже не влияют на значение функционала), то есть оптимальное управление заведомо не единственное.
Однако если условие общности положения не выполняется в точке t1, но все-таки оно выполнено в другой точке [t0, t1 ), то управление будет единственно с точно стью до хвоста на отрезке [, t1 ].
1.3.5 Нахождение оптимальной траектории и управления Целью данного параграфа является нахождение оптимальных траекторий при гео метрическом ограничении вида (1.3), когда множество P(t) является невырожденным эллипсоидом.
Точки переключения между = 0 и > Так как уравнения системы существенно отличаются в случаях = 0 и > 0, то для аналитического решения задачи желательно каким-либо найти те точки, в кото рых значение меняется с нулевого на положительное и обратно. Из формулы (1.47) видно, что = 0 тогда и только тогда, когда Правая часть полностью определяется параметрами задачи, поэтому для определения положения точек переключения необходимо исследовать поведение левой части.
Если в некоторый момент времени (t) < 0, то заведомо > 0, поскольку правая часть (1.55) неотрицательна. Например, если функция µ(k) невозрастающая, то (t) < 0 всюду, и, следовательно, геометрическое ограничение всегда активно.
Лемма 1.27. Пусть функция µ(k) является неубывающей. Тогда левая часть (1.55), то есть функция (t) = (t)µ(k(t)), является невозрастающей, (t 1 ) = 0.
Доказательство. Пусть функция µ(k) неубывающая. Тогда функция (t) невозрас тающая и неотрицательная; поскольку k(t) монотонно убывает, то µ(k(t)) не возраста ет. Функция (t) является невозрастающей как произведение двух неотрицательных невозрастающих функций.
Решение задачи для автономной системы Рассмотрим автономную систему (h(t) h, P (t) P, R(t) R) с неубывающей функцией µ(k). В этом случае правая часть (1.55) постоянна, а левая не возрастает.
Следовательно, в начале траектории = 0, а затем > 0 до конца временнго ин тервала, то есть существует только одна точка переключения с = 0 на > 0, а обратного переключения произойти не может.
Обозначим этот момент переключения через. Неизвестное начальное значение обозначим 0. Запишем на отрезке [t0, ] уравнения (1.42) и (1.43) при условии = 0, а на отрезке [, t1 ] при > 0.
Пусть найдены траектории k(t) и (t) для всех и 0. Тогда из условия (t1 ) = находим 0 (это значение будет в общем случае зависеть от ), а затем из условия переключения в точке сам момент.
Поскольку в начале траектории = 0, то (t) = (t0 ) = 0, и производная не зависит от времени, то момент переключения может быть выражен через 0 :
где µ1 функция, обратная к µ(k). Если получается < t0, то всюду > 0, а в случае > t1 всюду = 0.
Численное отыскание траекторий Дифференциальные уравнения для k(t) и (t) достаточно сложны, так как в каждый момент необходимо определять значение множителя Лагранжа и по нему управле ние, после чего подставлять в уравнения (1.42) и (1.43). При наличии двух и более собственных чисел матрицы P 2 RP 2 аналитическое нахождение значения не пред ставляется возможным, так как оно будет корнем многочлена степени 2m, где m количество собственных значений.
Однако основной трудностью является одновременный учёт начальных условий для k и, задаваемых на разных концах временнго интервала. В связи с этим пред лагается следующий алгоритм численного решения задачи:
1. Выбрать начальное приближение 0 = (t0 ).
2. Численно решить дифференциальные уравнения (1.42) и (1.43) (используя про извольный метод для численного решения ОДУ, например, метод Эйлера или Рунге–Кутты). При этом на каждом шаге значение множителя Лагранжа ищется как приближённое решение уравнения (1.50). В результате получится некоторое значение 1 (0 ) = (t1 ).
3. Повторяя первые эти шаги необходимое число раз, найти все решения уравнения 4. Из управлений, соответствующих начальным значениям 0, выбрать то, на ко тором значение функционала (1.41) наибольшее.
Теорема 1.28. Пусть выполнены условия теоремы о существовании решения. Тогда указанный алгоритм находит оптимальное управление.
Доказательство. Пусть (t) траектория переменной, соответствующая опти мальному управлению u(·). Тогда число (t0 ) является решением уравнения 1 (0 ) = 0 в силу того, что принцип максимума требует (t1 ) = 0. Следовательно, значение (t0 ) и соответствующие ему траектории (t) и управления будут найдены алгорит мом.
1.3.6 Задача синтеза управлений. Функция цены Рассмотрим задачу попадания траекторий системы линейных дифференциальных уравнений на целевое множество M = {(x, k) | x M(k), k R}. Для этого нам по требуется определить класс позиционных стратегий UCL, состоящий из многозначных отображений U : T Rn R Rnp, полунепрерывных сверху по переменным (x, k) и измеримых по t, удовлетворяющих вложению U (t, x, k) µ(k)P(t).
Впрочем, вместо класса UCL нам будет удобнее использовать класс UCL, отличаю щийся от UCL геометрическим ограничением U (t, x, k) P(t). Очевидно, что между стратегиями U UCL и U UCL существует взаимно-однозначное соответствие, за даваемое равенством U (t, x, k) = µ(k)U (t, x, k). Управления U UCL гарантируют существование и продолжаемость решений дифференциального включения (Взятие выпуклой оболочки здесь носит чисто технический характер и в сделанных предположениях не прибавляет возможностей управлению.) Задача 1.9. Найти область разрешимости WG(I) [k0, t0 ] Rn и позиционную стра тегию U UCL, такие, что все траектории дифференциального включения (1.57), выпущенные из точки x(t0 ) WGI [k0, t0 ], k(t0 ) = k0, в конечный момент попадают на целевое множество множество M.
С целью применения метода динамического программирования, мы сведем задачу 1.9 к следующей экстремальной задаче:
Задача 1.10. Указать позиционную стратегию U UCL, при которой решения диф ференциального включения (1.57), выпущенные из произвольной точки (x(t 0 ), k(t0 ) = (x0, k0 ), оказываются в конечный момент на минимально возможном расстоянии от целевого множества M(k(t1 )). Найти это расстояние V (t, x, k) для каждой точ Очевидно, что решив задачу 1.10, можно автоматически получить и решение за дачи 1.9: множество разрешимости является множеством уровня функции цены, а соответствующее управление гарантируется попадание на целевое множество из мно жества разрешимости.
Поскольку использование позиционных стратегий не увеличивает возможностей управления в отсутствие помехи, то минимальное расстояние, которое необходимо отыскать в задаче 1.10, может быть выражено через программные стратегии и равно Вычислим функцию цены, используя сопряженную задачу:
Функция u(·) k(t1 ) вогнута (см. лемму 1.20). Если множество M выпукло, то функ ция k ( | M(k)) вогнута (это можно видеть из леммы 2.15) и монотонна, если M(k1 ) M(k2 ). Следовательно, функция u(·) ( | M(k(t1 ))) также вогнута. По лучаем, что выражение под знаком минимакса вогнуто по и выпукло по u(·), поэтому минимакс можно заменить на максимин [78], откуда Здесь множество разрешимости может быть найдено следующим образом:
Поскольку под знаком максимума в (1.58) стоит функция, выпуклая по (x, k), то и сама функция цены будет выпуклой по фазовым переменным. Следовательно [55], функция цены является минимаксным (вязкостным) решением уравнения Гамильтона–Якоби–Беллмана с начальным условием V (t1, x, k) = d(x, M(k)) и краевым условием V (t, x, k)|µ(k)=0 = d(x, M(k)).
Таким образом, оптимальный синтез управления может быть найден исходя из (1.59) и (1.58):
на котором достигается максимум в выражении = 0, если x WG(I) [k, t]. В силу непрерывности многозначного отображения WG(I) [k, t] синтез является полунепрерывным сверху, следовательно, U UCL.
1.3.7 Примеры Пример 1.5 (Невыпуклое множество разрешимости). Возможность невыпукло го множества достижимости при нарушении хотя бы одного из условий монотонности или вогнутости функции µ(k) мы продемонстрируем на следующей дискретной версии системы (1.39):
Здесь положение системы x R2, управление u R1, геометрическое ограничение u(i) 1. Функцию µ(k) будем выбирать так, чтобы µ(1) = 1, µ(0) = 0, а матрицы B (i) возьмем следующие:
Такой выбор означает, что на первом шаге управление может влиять на изменение лишь первой координаты, а во второй момент лишь на вторую координату (рис. 1.1).
Если нас интересует граница множества достижимости, то во второй момент следу ет выбирать u(2) = ±1. Тогда, перебрав все возможные значения u(1), мы получим все точки границы (ясно, что сечение множества достижимости вдоль оси Ox2 является отрезками, т.е. выпуклыми множествами).
Итак, граница множества достижимости образована точками вида Приведем вид множества достижимости при различных функциях µ(·) (рис. 1.8):
1. µ(k) = tan 3 k tan1 3, нарушено условие вогнутости;
2. µ(k) = 7k 2 + 8k нарушено условие монотонности;
Пример 1.6 (Одномерная автономная система). Приведём формулировку зада чи в этом примере. Требуется отыскать максимум интеграла при условии |u(t)| 1, а также функцию u(·), на которой этот максимум реализуется.
Здесь k(t) решение дифференциального уравнения Для определенности выберем µ(k) = k, что соответствует в исходной задаче (1.39) ограничению |u(t)| k(t).
Воспользуемся изложенной выше схемой решения задачи для автономной системы.
Пусть начальное значение равно 0, тогда переключение с = 0 на > 0 происходит в момент а если 20 k0 < 1, то с самого начала > 0, и тогда мы полагаем = 0.
Найдём функцию k(t). До момента она удовлетворяет уравнению (1.56), а после уравнению k(t) = k 2 (t), поэтому После момента функция (t) поэтому Исходя из требования (T ) = 0, получаем значение Решая уравнения (1.61) и (1.62), находим и 0 :
Оптимальное управление и значение функционала (1.60):
На рисунке 1.9 представлено управление в исходных координатах, то есть функция k(t)u(t) (пунктиром показан график k(t)). В одномерном случае эта функция всегда будет иметь такой вид: константа на тех участках, где = 0, и в точности µ(k(t)) в противном случае.
Пример 1.7 (Одномерная неавтономная система). Для иллюстрации работы численного алгоритма решения задачи была выбрана система На рисунке 1.10 приведен график управления в исходных координатах при выборе параметров T = 6, k0 = /12.
Пример 1.8 (Двухмерная система). На рисунке 1.11 представлена трубка дости жимости следующей двухмерной системы: