«Д.А. НОВИКОВ, А.Г. ЧХАРТИШВИЛИ РЕФЛЕКСИВНЫЕ ИГРЫ СИНТЕГ Москва – 2003 УДК 519 ББК 22.18 Н 73 Новиков Д.А., Чхартишвили А.Г. Рефлексивные Н 73 игры. М.: СИНТЕГ, 2003. – 149 с. ISBN 5-89638-63-1 Монография посвящена ...»
Российская Академия Наук
Институт проблем управления
им. В.А. Трапезникова
Д.А. НОВИКОВ, А.Г. ЧХАРТИШВИЛИ
РЕФЛЕКСИВНЫЕ
ИГРЫ
СИНТЕГ
Москва – 2003
УДК 519
ББК 22.18
Н 73
Новиков Д.А., Чхартишвили А.Г. Рефлексивные
Н 73 игры. М.: СИНТЕГ, 2003. – 149 с.
ISBN 5-89638-63-1 Монография посвящена обсуждению современных подходов к математическому моделированию рефлексии. Авторы вводят в рассмотрение новый класс теоретико-игровых моделей – рефлексивные игры, описывающие взаимодействие субъектов (агентов), принимающих решения на основании иерархии представлений о существенных параметрах, представлений о представлениях и т.д.
Анализ поведения фантомных агентов, существующих в представлениях других реальных или фантомных агентов, и свойств информационной структуры, отражающей взаимную информированность реальных и фантомных агентов, позволяет предложить в качестве решения рефлексивной игры информационное равновесие, которое является обобщением ряда известных концепций равновесия в некооперативных играх.
Рефлексивные игры дают возможность:
- моделировать поведение рефлексирующих субъектов;
- исследовать зависимость выигрышей агентов от рангов их рефлексии;
- ставить и решать задачи рефлексивного управления;
- единообразно описывать многие явления, связанные с рефлексией:
скрытое управление, информационное управление через СМИ, рефлексию в психологии, художественных произведениях и др.
Книга адресована специалистам в области математического моделирования и управления социально-экономическими системами, а также студентам вузов и аспирантам.
Рецензенты: д.т.н., проф. В.Н. Бурков, д.т.н., проф. А.В. Щепкин УДК ББК 22. Н ISBN 5-89638-63- Д.А.Новиков, А.Г. Чхартишвили,
СОДЕРЖАНИЕ
ВВЕДЕНИЕГЛАВА 1. Информация в принятии решений
1.1. Индивидуальное принятие решений: модель рационального поведения
1.2. Интерактивное принятие решений: игры и равновесия
1.3. Общие подходы к описанию информированности
ГЛАВА 2. Стратегическая рефлексия
2.1. Стратегическая рефлексия в играх двух лиц
2.2. Рефлексия в биматричных играх
2.3. Ограниченность ранга рефлексии
ГЛАВА 3. Информационная рефлексия
3.1. Информационная рефлексия в играх двух лиц
3.2. Информационная структура игры
3.3. Информационное равновесие
3.4. Граф рефлексивной игры
3.5. Регулярные структуры информированности
3.6. Ранг рефлексии и информационное равновесие
3.7. Рефлексивное управление
ГЛАВА 4. Прикладные модели рефлексивных игр
4.1. Скрытое управление
4.2. СМИ и информационное управление
4.3. Рефлексия в психологии
4.3.1. Психология шахматного творчества
4.3.2. Трансакционный анализ
4.3.3. Окно Джохари
4.3.4. Модель этического выбора
4.4. Рефлексия в художественных произведениях
ЗАКЛЮЧЕНИЕ
ЛИТЕРАТУРА
– Пескари привольно резвятся, в этом их радость!
– Ты же не рыба, откуда тебе знать, в чем ее радость?
– Ты же не я, откуда тебе знать, что я знаю, а чего не знаю?
Из даосской притчи – Дело, разумеется, в том, достопочтенный архиепископ, что Вы верите в то, во что Вы верите, потому что Вы были так воспитаны.
– Может быть, и так. Но остается фактом, что и Вы верите в то, что я верю в то, во что я верю, потому что я был так воспитан, по той причине, что Вы были так воспитаны.
ВВЕДЕНИЕ
Настоящая работа посвящена обсуждению современных подходов к математическому моделированию рефлексии и, в первую очередь, введению в рассмотрение нового класса теоретико-игровых моделей – рефлексивных игр, описывающих взаимодействие субъектов, принимающих решения на основании иерархии представлений о существенных параметрах, представлений о представлениях и т.д.Рефлексия. Одним из фундаментальных свойств бытия человека является то, что наряду с природной («объективной») реальностью существует ее отражение в сознании. При этом между природной реальностью и ее образом в сознании (будем считать этот образ частью особой – рефлексивной реальности) существует неизбежный зазор, несовпадение.
Целенаправленное изучение этого феномена традиционно связано с термином «рефлексия», которому «Философский словарь»
[84] дает следующее определение: «РЕФЛЕКСИЯ (лат. reflexio – обращение назад). Термин, означающий отражение, а также исследование познавательного акта».
Термин «рефлексия» введен Дж. Локком; в различных философских системах (у Дж. Локка, Г. Лейбница, Д. Юма, Г. Гегеля и др.) он имел различное содержание. Систематическое описание рефлексии с точки зрения психологии началось в 60-е годы XX века (школа В.А. Лефевра). Кроме того, следует отметить, что существует понимание рефлексии в другом значении, имеющем отношение к рефлексу – «реакции организма на возбуждение рецепторов» [78; С. 1122].
В настоящей работе используется первое (философское) определение рефлексии.
Для прояснения понимания сути рефлексии рассмотрим сначала ситуацию с одним субъектом. У него есть представления о природной реальности, но он может и осознавать (отражать, рефлексировать) эти представления, а также осознавать осознание этих представлений и т.д. Так формируется рефлексивная реальность.
Рефлексия субъекта относительно своих собственных представлений о реальности, принципах своей деятельности и т.д. называется авторефлексией или рефлексией первого рода. Отметим, что в большинстве гуманитарных исследований речь идет, в первую очередь, об авторефлексии, под которой в философии понимается процесс размышления индивида о происходящем в его сознании [55].
Рефлексия второго рода имеет место относительно представлений о реальности, принципах принятия решений, авторефлексии и т.д. других субъектов.
Приведем примеры рефлексии второго рода, иллюстрирующие, что во многих случаях правильные собственные умозаключения можно сделать, лишь если занять позицию других субъектов и проанализировать их возможные рассуждения.
Первым примером является классическая «задача о грязных лицах» (Dirty Face Game) [110], иногда ее называют «задачей о мудрецах и колпаках» [22] или «о мужьях и неверных женах» [132]. Опишем ее, следуя [22, С. 46].
«Представим себе, что в купе вагона Викторианской эпохи находятся Боб и его племянница Алиса. У каждого испачкано лицо.
Однако никто не краснеет от стыда, хотя любой Викторианский пассажир покраснел бы, зная, что другой человек видит его грязным.
Отсюда мы делаем вывод, что никто из пассажиров не знает, что его лицо грязное, хотя каждый видит грязное лицо своего компаньона.
В это время в купе заглядывает Проводник и объявляет, что в купе находится человек с грязным лицом. После этого Алиса покраснела. Она поняла, что лицо у нее испачкано. Но почему она поняла это? Разве Проводник не сообщил то, что она уже знала?
Проследим цепочку рассуждений Алисы. Алиса: Предположим, мое лицо чистое. Тогда Боб, зная, что кто-то из нас грязный, должен сделать вывод, что грязный он, и покраснеть. Раз он не краснеет, значит, моя посылка про мое чистое лицо ложная, мое лицо грязное и я должна покраснеть.
Проводник добавил к информации, известной Алисе, информацию о знаниях Боба. До этого она не знала, что Боб знает, что кто-то из них испачкан. Короче, сообщение проводника превратило знание о том, что в купе есть человек с грязным лицом, в общее знание».
Второй хрестоматийный пример – «задача о скоординированной атаке» (Coordinated Attack Problem) [112]; существуют близкие к ней задачи об оптимальном протоколе обмена информацией – Electronic Mail Game [138] и др. (см. обзоры в [105, 113]).
Ситуация выглядит следующим образом. На вершинах двух холмов расположены две дивизии, а в долине расположился противник. Одержать победу можно, только если обе дивизии нападут на противника одновременно. Генерал – командир первой дивизии – посылает генералу – командиру второй дивизии – гонца с сообщением: «Атакуем на рассвете». Так как гонец может быть перехвачен противником, то первому генералу необходимо дождаться от второго генерала сообщения о том, что первое сообщение получено. Но так как второе сообщение также может быть перехвачено противником, то второму генералу необходимо получить от первого подтверждение, что тот получил подтверждение. И так далее до бесконечности. Задача заключается в том, чтобы определить, после какого числа сообщений (подтверждений) генералам имеет смысл атаковать противника. Вывод следующий – в описанных условиях скоординированная атака невозможна, а выходом является использование вероятностных моделей [130, 131].
Третья классическая задача – «задача о двух брокерах» [94] (см.
также модели спекуляций в [66]). Предположим, что у двух брокеров, играющих на фондовой бирже, имеются собственные экспертные системы, которые используются для поддержки принятия решений. Случается так, что сетевой администратор нелегально копирует обе экспертные системы и продает каждому брокеру экспертную систему своего оппонента. После этого администратор пытается продать каждому из них следующую информацию – «Ваш оппонент имеет Вашу экспертную систему». Потом администратор пытается продать информацию – «Ваш оппонент знает, что Вы имеете его экспертную систему», и т.д. Вопрос заключается в том, как брокерам следует использовать информацию, получаемую от администратора, а также какая информация на какой итерации является существенной?
Завершив рассмотрение примеров рефлексии второго рода, обсудим в каких ситуациях рефлексия является существенной. Если единственный рефлексирующий субъект является экономическим агентом, который стремится максимизировать свою целевую функцию, выбирая одно из этически допустимых действий, то природная реальность входит в целевую функцию как некий параметр, а результаты рефлексии (представления о представлениях и пр.) аргументами целевой функции не являются. Тогда можно сказать, что авторефлексия «не нужна», так как она не изменяет действия, выбираемого агентом.
Заметим, что зависимость действий субъекта от рефлексии может иметь место в ситуации, когда действия этически неравноценны, то есть наряду с утилитарным аспектом существует деонтологический (этический) – см. [92, 120-122]. Однако экономические решения, как правило, этически нейтральны, поэтому рассмотрим взаимодействие нескольких субъектов.
Если субъектов несколько (ситуация принятия решения является интерактивной), то в целевую функцию каждого субъекта входят действия других субъектов, то есть эти действия являются частью природной реальности (хотя сами они, разумеется, обусловлены рефлексивной реальностью). При этом рефлексия (и, следовательно, исследование рефлексивной реальности) становится необходимой.
Рассмотрим основные подходы к математическому моделированию эффектов рефлексии.
Теория игр. Формальные (математические) модели поведения человека создаются и изучаются уже более полутора веков (см.
обзор в [1]) и находят все большее применение как в теории управления, экономике, психологии, социологии и т.д., так и при решении конкретных прикладных задач. Наиболее интенсивное развитие наблюдается начиная с 40-х годов XX века – момента появления теории игр, который обычно датируют 1944 годом (выход первого издания книги Джона фон Неймана и Оскара Моргенштерна «Теория игр и экономическое поведение» [53]).
Под игрой в данной работе будем понимать взаимодействие сторон, интересы которых не совпадают (отметим, что возможно и другое понимание игры – как «вида непродуктивной деятельности, мотив которой заключается не в ее результатах, а в самом процессе»
[78, С. 475] – см. также [87], где понятие игры трактуется гораздо более широко).
Теория игр – раздел прикладной математики, исследующий модели принятия решений в условиях несовпадения интересов сторон (игроков), когда каждая сторона стремится воздействовать на развитие ситуации в собственных интересах [21]. Далее для обозначения субъекта, принимающего решения (игрока), используется термин «агент». В настоящей работе рассматриваются некооперативные статические игры в нормальной форме, то есть игры, в которых агенты однократно, одновременно и независимо выбирают свои действия.
Таким образом, основная задача теории игр заключается в описании взаимодействия нескольких агентов, интересы которых не совпадают, а результаты деятельности (выигрыш, полезность и т.д.) каждого зависят в общем случае от действий всех [21, 132]. Итогом подобного описания является прогноз разумного исхода игры – так называемого решения игры (равновесия).
Описание игры заключается в задании следующих параметров:
- множества агентов;
- предпочтений агентов (зависимостей выигрышей от действий): при этом предполагается (и этим отражается целенаправленность поведения), что каждый агент заинтересован в максимизации своего выигрыша;
- множеств допустимых действий агентов;
- информированности агентов (той информации, которой они обладают на момент принятия решений о выбираемых действиях);
- порядка функционирования (порядок ходов – последовательность выбора действий).
Условно говоря, множество агентов определяет, кто участвует в игре. Предпочтения отражают, что хотят агенты, множества допустимых действий – что они могут, информированность – что они знают, а порядок функционирования – когда они выбирают действия.
Перечисленные параметры задают игру, но они недостаточны для того, чтобы предсказать ее исход – решение игры (или равновесие игры), то есть множество рациональных и устойчивых с той или иной точки зрения действий агентов [15, 21, 22]. На сегодняшний день в теории игр не существует универсальной концепции равновесия – принимая те или иные предположения о принципах принятия агентами решений, можно получать различные решения. Поэтому основной задачей любого теоретико-игрового исследования (включая настоящую работу) является построение равновесия. Так как рефлексивные игры определяются как такое интерактивное взаимодействие агентов, в котором они принимают решения на основе иерархии своих представлений, то существенной является информированность агентов. Поэтому остановимся на ее качественном обсуждении более подробно.
Роль информированности. Общее знание. В теории игр, философии, психологии, распределенных системах и других областях науки (см. обзор в [111, 131]) существенны не только представления (beliefs) агентов о существенных параметрах, но и их представления о представлениях других агентов и т.д. Совокупность этих представлений называется иерархией представлений (hierarchy of beliefs) и в настоящей работе моделируется деревом информационной структуры рефлексивной игры (см. раздел 3.2). Другими словами, в ситуациях интерактивного принятия решений (моделируемых в теории игр) каждый агент перед выбором своего действия должен предсказать поведение оппонентов. Для этого у него должны быть определенные представления о видении игры оппонентами. Но оппоненты должны проделать то же самое, поэтому неопределенность относительно той игры, которая будет разыграна, порождает бесконечную иерархию представлений участников игры.
Приведем пример иерархии представлений. Предположим, что имеются два агента – А и Б. Каждый из них может иметь собственные нерефлексивные представления о неопределенном параметре q, который мы будем в дальнейшем называть состоянием природы (state of nature, state of the world). Обозначим эти представления qА и qБ соответственно. Но каждый из агентов в рамках процесса рефлексии первого ранга может задуматься о представлениях оппонента.
Эти представления (представления второго порядка) обозначим qАБ и qБА, где qАБ – представления агента А о представлениях агента Б, qБА – представления агента Б о представлениях агента А. Но этим дело не ограничивается – каждый из агентов в рамках процесса дальнейшей рефлексии (рефлексии второго ранга) может задуматься над тем, каковы представления оппонента о его представлениях. Так порождаются представления третьего порядка – qАБА и qБАБ. Процесс порождения представлений более высоких порядков может продолжаться до бесконечности (никаких логических ограничений увеличению ранга рефлексии не существует). Совокупность всех представлений – qА, qБ, qАБ, qБА, qАБА, qБАБ и т.д. – образует иерархию представлений.
Частным случаем информированности – когда все представления, представления о представлениях и т.д. до бесконечности совпадают – является общее знание. Более корректно, термин «общее знание» (common knowledge), введен в [123] для обозначения факта, удовлетворяющего следующим требованиям:
1) о нем известно всем агентам;
2) всем агентам известно 1;
3) всем агентам известно 2 и т.д. до бесконечности Формальная модель общего знания предложена в [96] и получила развитие во множестве работ – см. [97, 99, 106, 107, 108, 113, 116, 130, 140 и др.].
Моделям информированности агентов – иерархии представлений и общему знанию – в теории игр посвящена, фактически целиком, настоящая работа, поэтому приведем примеры, иллюстрирующие роль общего знания в других областях науки – философии, психологии и др. (см. также обзор [105]).
С точки зрения философии общее знание анализировалось при изучении соглашений [123, 142]. Рассмотрим следующий пример. В Правилах Дорожного Движения записано, что каждый участник дорожного движения должен соблюдать эти правила, а также вправе рассчитывать на то, что их соблюдают другие участники дорожного движения. Но другие участники дорожного движения также должны быть уверены в том, что остальные соблюдают правила, и т.д. до бесконечности. Следовательно, соглашение «соблюдать ПДД»
должно быть общим знанием.
В психологии существует понятие дискурса – «(от лат. discursus – рассуждение, довод) – опосредованное прошлым опытом речевое мышление человека; выступает как процесс связанного логического рассуждения, в котором каждая последующая мысль обусловлена предыдущей» [76, С. 99)]. Роль общего знания в понимании дискурса иллюстрируется в [104, 105] следующим примером.
Два человека выходят из кинотеатра. Один спрашивает другого:
«Как тебе фильм?». Для того чтобы второй человек понял вопрос, он должен понять, что его спрашивают о том фильме, который они только что вместе посмотрели. Кроме того, он должен понимать, что это понимает первый. Задающий вопрос, в свою очередь, должен быть уверен, что второй поймет, что речь идет о том фильме, который они посмотрели, и т.д. То есть для адекватного взаимодействия (общения) «фильм» должен быть общим знанием (люди должны достичь соглашения об использовании языка [123]).
Взаимная информированность агентов является существенной также в распределенных вычислительных системах [106, 108, 113], в искусственном интеллекте [112, 127] и других областях.
В теории игр, как правило, предполагается, что все1 параметры игры являются общим знанием, то есть каждому агенту известны все параметры игры, а также то, что это известно всем агентам, и т.д. до бесконечности. Такое предположение соответствует объективному описанию игры и дает возможность использовать концепцию равновесия Нэша2 [134] как прогнозируемого исхода некооперативной игры (то есть игры, в которой невозможны переговоры между агентами с целью создания коалиций, обмена информацией, совместных действий, перераспределения выигрышей и т.д.). Таким образом, предположение об общем знании позволяет утверждать, что все агенты знают, в какую игру они играют, и их представления об игре совпадают.
Вместо действия агента можно рассматривать нечто более сложное – его стратегию, то есть отображение имеющейся у агента информации во множество его допустимых действий. Примерами могут служить: стратегии в многошаговой игре, смешанные стратегии, стратегии в метаиграх Ховарда [117, 118] (см. также информаЕсли в исходной модели присутствуют неопределенные факторы, то используются процедуры устранения неопределенности, которые позволяют получить детерминированную модель.
Вектор действий агентов является равновесием Нэша, если никому из них не выгодно одностороннее (то есть при условии, что остальные агенты выбирают соответствующие компоненты равновесия) отклонение от равновесия – см.
корректное определение ниже.
ционные расширения игр [18, 39, 40]). Однако и в этих случаях правила игры являются общим знанием. Наконец, можно считать, что игра выбирается случайным образом в соответствии с некоторым распределением, которое является общим знанием – так называемые Байесовы игры [109, 114, 132].
В общем случае каждый из агентов может иметь собственные представления о параметрах игры, каждому из которых соответствует некоторое субъективное описание игры [18]. При этом оказывается, что агенты участвуют в игре, но объективно не знают в какой, или по-разному представляют разыгрываемую игру – ее правила, цели, роли и информированность оппонентов и т.д. Универсальных подходов к построению равновесий при недостаточном общем знании на сегодняшний день в теории игр не существует.
С другой стороны, в рамках «рефлексивной традиции» гуманитарных наук для каждого агента окружающий его мир содержит (включает) остальных агентов, и представления о других агентах отражаются в процессе рефлексии (различия представлений могут быть обусловлены, в частности, неодинаковой информированностью). Однако до настоящего момента конструктивных формальных результатов в этой области получено не было.
Следовательно, возникает необходимость разработки и исследования математических моделей игр, в которых информированность агентов не является общим знанием и агенты принимают решения на основе иерархии своих представлений. Этот класс игр назовем рефлексивными играми (формальное определение приведено в разделе 3.2 настоящей работы).
Следует признать, что термин «рефлексивные игры» был введен В.А. Лефевром в 1965 г. в [42]. Однако в этой работе, а также в работах [43-47, 122] того же автора содержится, в основном, качественное обсуждение эффектов рефлексии во взаимодействии субъектов, и никакой общей концепции решения для этого класса игр предложено не было. То же замечание справедливо и для [19, 24в которых рассматривался ряд частных случаев информированности участников игры.
Таким образом, актуальным является изучение рефлексивных игр и построение для них единой концепции равновесия, что и мотивирует настоящее исследование.
Прежде чем переходить к изложению основного содержания работы, обсудим на качественном уровне основные используемые ниже подходы.
Основные подходы и структура работы. В первой главе «Информация в принятии решений», носящей, в основном, обзорный и вводный характер, приводятся модели индивидуального и интерактивного принятия решений, проводится анализ информированности, необходимой для реализации тех или иных известных концепций равновесия, а также обсуждаются известные модели общего знания и иерархии представлений.
Как определено выше, рефлексивной является игра, в которой информированность агентов не является общим знанием3 и агенты принимают решения на основе иерархии своих представлений. С точки зрения теории игр и рефлексивных моделей принятия решений целесообразно разделять стратегическую и информационную рефлексию.
Информационная рефлексия – процесс и результат размышлений агента о том, каковы значения неопределенных параметров, что об этих значениях знают и думают его оппоненты (другие агенты).
При этом собственно «игровая» компонента отсутствует, так как никаких решений агент не принимает.
Стратегическая рефлексия – процесс и результат размышлений агента о том, какие принципы принятия решений используют его оппоненты (другие агенты) в рамках той информированности, которую он им приписывает в результате информационной рефлексии.
Таким образом, информационная рефлексия обычно связана с недостаточной взаимной информированностью, и ее результат используется при принятии решений (в том числе – при стратегической рефлексии). Стратегическая рефлексия имеет место даже в случае полной информированности, предваряя принятие агентом решения о выбранном действии. Другими словами, информационная и стратегическая рефлексии могут изучаться независимо, однако в условиях неполной и недостаточной информированности обе они имеют место.
Если в рассматриваемой модели информированность является общим знанием, то все результаты исследования рефлексивных игр переходят в соответствующие классические результаты теории игр – см. ниже.
Стратегическая рефлексия рассматривается во второй главе настоящей работы. Оказывается, что если предположить, что агент, моделируя поведение оппонентов, приписывает им и себе определенные ранги рефлексии, то исходная игра превращается в новую игру, в которой стратегией агента является выбор ранга рефлексии.
Если рассмотреть процесс рефлексии в новой игре, то получим новую игру и т.д. При этом, даже если в исходной игре множество возможных действий было конечно, то в новой игре множество возможных действий – число различных рангов рефлексии – бесконечно. Следовательно, основной задачей, решаемой при исследовании стратегической рефлексии, является определение максимального целесообразного ранга рефлексии. Ответ на этот вопрос получен во второй главе для биматричных игр (раздел 2.2) и моделей, учитывающих ограниченность возможностей человека по переработке информации (раздел 2.3).
Приведем пример стратегической рефлексии – «Пенальти» (см.
также примеры «Игра в прятки» и «Снос на мизере» в разделе 2.2).
Агентами являются игрок, бьющий по воротам, и вратарь. Предположим для простоты, что у игрока есть два действия – «бить в левый угол ворот» и «бить в правый угол ворот». У вратаря также есть два действия – «ловить мяч в левом углу» и «ловить мяч в правом углу».
Если вратарь угадывает, в какой угол бьет игрок, то он ловит мяч.
Промоделируем рассуждения агентов. Пусть вратарю известно, что данный игрок обычно бьет в правый угол. Следовательно, ему нужно ловить мяч в правом углу. Но, если вратарь знает, что игроку известно, что вратарь знает, как обычно поступает игрок, то вратарю следует моделировать рассуждения игрока. Он может думать так:
«Игроку известно, что я знаю его обычную тактику. Поэтому он ожидает, что я буду ловить мяч в правом углу и может ударить в левый угол. В этом случае мне надо ловить мяч в левом углу». Если игрок обладает достаточной глубиной рефлексии, то он может догадаться о рассуждениях вратаря и попытаться его перехитрить, ударив в правый угол. Эту же цепочку рассуждений может провести и вратарь и на этом основании ловить мяч в правом углу.
И игрок, и вратарь, могут увеличивать глубину рефлексии до бесконечности, проводя рассуждения друг за друга, и ни один из них не имеет рациональных оснований остановиться на некотором конечном шаге. Следовательно, в рамках моделирования взаимных рассуждений нельзя априори определить исход рассматриваемой игры. Сама игра, в которой у каждого из агентов есть по два возможных действия, может быть заменена на другую игру, в которой агенты выбирают ранги рефлексии, приписываемые оппоненту. Но и в этой игре нет разумного решения, так как каждый агент может моделировать поведение оппонента, рассматривая «дважды рефлексивную» игру, и т.д. до бесконечности.
Единственно, чем можно помочь в рассматриваемой ситуации агентам, так это ограничить глубину их рефлексии, подметив, что начиная со второго ранга рефлексии (в силу конечности исходного множества возможных действий) ситуация начинает повторяться – находясь как на нулевом, так и на втором (и, вообще, на любом четном) уровне рефлексии, игрок будет бить в правый угол. Следовательно, вратарю остается угадать четность уровня рефлексии игрока.
Максимальный ранг рефлексии, который следует иметь агенту для того, чтобы охватить все многообразие исходов игры (упуская из виду некоторые стратегии оппонента, агент рискует уменьшить свой выигрыш), назовем максимальным целесообразным рангом рефлексии. Оказывается, что во многих случаях этот ранг конечен – соответствующие формальные результаты приводятся в разделах 2.2 и 3.6). В примере «Пенальти» максимальный целесообразный ранг рефлексии агентов равен двум.
В случае отсутствия у вратаря информации о том, куда обычно бьет нападающий, действия последнего симметричны (левый и правый углы «равноценны»). Однако остаются возможности искусственно внести асимметрию, чтобы попытаться ею воспользоваться в своих целях. Например, вратарь может сдвинуться в сторону одного из углов, как бы приглашая нападающего ударить в другой (и бросается именно в тот, «дальний» угол). Более сложная стратегия состоит в следующем. Игрок команды вратаря подходит к нему и показывает, куда собирается бить нападающий, причем делает это так, что нападающий это видит (после чего в момент удара вратарь ловит мяч не в том углу, на который демонстративно показал ему товарищ по команде, а в противоположном). Заметим, что оба описанных приема взяты «из жизни» и оказались успешными. Первый имел место в международном матче сборной СССР, второй – в финале Кубка СССР по футболу в серии послематчевых пенальти.
Третья глава посвящена исследованию формальных моделей информационной рефлексии. Так как ключевым фактором в рефлексивных играх является информированность агентов – иерархия представлений, то для ее формального описания вводится понятие информационной структуры – дерева (в общем случае – бесконечного), вершинам которого соответствует информация (представления) агентов о существенных параметрах, представлениях других агентов и т.д. (см. пример иерархии представлений выше).
Понятие структуры информированности (информационной структуры) позволяет дать формальное определение некоторых интуитивно ясных понятий, таких как: адекватная информированность одного агента о другом, взаимная информированность, одинаковая информированность и др.
Одним из ключевых понятий, применяемых в данной работе для анализа рефлексивных игр, является понятие фантомного агента.
Обсудим его на качественном уровне (отложив строгое математическое определение до раздела 3.2).
Пусть в некоторой ситуации взаимодействуют два агента – А и Б. Вполне естественно, что в сознании каждого из них имеется некий образ другого: у А имеется образ Б (назовем его АБ), а у Б – образ А (назовем его БА). Этот образы могут совпадать с реальностью, а могут отличаться от нее. Иными словами, агент, например, А может иметь адекватное представление о Б (этот факт можно записать в виде тождества АБ = Б), а может и не иметь.
Тут сразу возникает вопрос – а может ли в принципе выполняться тождество АБ = Б, ведь Б – это реальный агент, а АБ – лишь его образ? Не вдаваясь в обсуждение этого философского, по сути, вопроса, отметим следующие два обстоятельства. Во-первых, речь идет не о всецелом понимании личности во всей ее полноте, а о ее моделировании в данной конкретной ситуации. На обыденном, житейском уровне человеческого общения мы постоянно сталкиваемся с ситуациями как адекватного, так и неадекватного восприятия одним человеком другого.
Во вторых, в рамках формального (теоретико-игрового) моделирования человеческого поведения агент – участник ситуации – описывается относительно небольшим набором характеристик. И эти характеристики могут быть полностью известны другому агенту в той же мере, в какой они известны исследователю.
Рассмотрим подробнее случай, когда между Б и АБ имеется различие (это различие может проистекать, говоря формально, из неполноты информации А о Б, либо из доверия к ложной информации). Тогда А, принимая решение о каких-либо своих действиях, имеет в виду не Б, а тот его образ, который у него имеется, то есть АБ. Можно сказать, что субъективно А взаимодействует с АБ. Поэтому АБ можно назвать фантомным агентом. Его нет в реальности, но он присутствует в сознании реального агента А и, соответственно, влияет на его действия, то есть на реальность.
Приведем простейший пример. Пусть А считает, что они с Б друзья, а Б, зная об этом, является врагом А (эту ситуацию можно описать словом «предательство»). Тогда, очевидно, в ситуации имеется фантомный агент АБ, которого можно описать так: «Б, являющийся другом А»; в реальности такой субъект отсутствует.
Отметим, что при этом Б адекватно информирован об А, то есть БА = А.
Таким образом, помимо реальных агентов, фактически участвующих в игре, предлагается рассматривать фантомных агентов, то есть агентов, которые существуют в сознании реальных и других фантомных агентов. Реальные и фантомные агенты в рамках своей рефлексии наделяют фантомных агентов определенной информированностью, которая отражается в информационной структуре.
Участвующих в игре реальных и фантомных агентов может быть бесконечно много, что означает потенциальную бесконечность осуществления актов рефлексивного отражения (бесконечную глубину дерева структуры информированности). Действительно, даже в простейшей ситуации возможно бесконечное развертывание рассуждений вида «я знаю…», «я знаю, что ты знаешь…», «я знаю, что ты знаешь, что я знаю…», «я знаю, что ты знаешь, что я знаю, что ты знаешь…» и т. д. Однако на практике такая «дурная бесконечность»
не имеет места, поскольку начиная с некоторого момента представления «стабилизируются», и увеличение ранга рефлексии не дает ничего нового. Таким образом, в реальных ситуациях структура информированности имеет конечную сложность: у соответствующего дерева имеется конечное число попарно различных поддеревьев. Иными словами, в игре участвует конечное число реальных и фантомных агентов4.
Введение понятия фантомных агентов позволяет определить рефлексивную игру как игру реальных и фантомных агентов, а также определить информационное равновесие как обобщение равновесия Нэша на случай рефлексивной игры, в рамках которого предполагается, что каждый агент (реальный и фантомный) при вычислении своего субъективного равновесия (равновесия в той игре, в которую он со своей точки зрения играет) использует имеющуюся у него иерархию представлений об объективной и рефлексивной реальности [89].
Удобным инструментом исследования информационного равновесия является граф рефлексивной игры, в котором вершины соответствуют реальным и фантомным агентам, и в каждую вершинуагента входят дуги (их число на единицу меньше числа реальных агентов), идущие из вершин-агентов, от действий которых в субъективном равновесии зависит выигрыш данного агента. Граф рефлексивной игры может быть построен и без конкретизации целевых функций агентов. При этом он отражает если не количественное соотношение интересов, то качественное соотношение информированности рефлексирующих агентов, и является удобным и выразительным средством описания эффектов рефлексии (см. раздел 3.4).
Для описанного выше примера двух агентов граф рефлексивной игры имеет вид: Б ¬ А « АБ – реальный агент Б (предатель) адекватно информирован об агенте А, который взаимодействует с фантомным агентом АБ (Б, являющимся другом А).
Приведем еще один пример графа, который отражает рефлексивное взаимодействие (хотя и не является формально графом рефлексивной игры в смысле введенного выше определения). На обложку настоящей книги вынесена картина Э. Берн-Джонса «Смертоносная голова», написанная в 1886-1887 гг. по мотивам мифа о Персее и Андромеде.
В ситуации участвуют три реальных агента: Персей (обозначим его буквой П), Андромеда (А) и горгона Медуза (М). Кроме того, В предельном случае – когда присутствует общее знание – фантомный агент первого уровня совпадает со своим реальным прообразом и дерево имеет единичную глубину (точнее, все остальные поддеревья повторяют деревья более высокого уровня).
имеются следующие «фантомные» агенты: отражение Персея (ОП), отражение Андромеды (ОА) и отражение Медузы (ОМ). Граф приведен на рисунке 1.
«Смертоносная голова» (см. обложку) Информированность реальных агентов в рассматриваемом примере следующая: Персей видит Андромеду; Андромеда не видит Персея, но видит его отражение, свое отражение и отражение горгоны Медузы; отражение Персея видит отражение Андромеды; отражение Андромеды видит всех реальных агентов. К счастью, саму горгону Медузу никто из реальных агентов не видит.
Введение информационной структуры, информационного равновесия и графа рефлексивной игры, во-первых, позволяет с единых методологических позиций и с помощью единого математического аппарата описывать и анализировать разнообразные ситуации коллективного принятия решений агентами, обладающими различной информированностью, исследовать влияние рангов рефлексии на выигрыши агентов, изучать условия существования и реализуемости информационных равновесий и т.д. Многочисленные примеры прикладных моделей приведены ниже.
Во-вторых, предложенная модель рефлексивной игры дает возможность изучать влияние рангов рефлексии (глубины информационной структуры) на выигрыши агентов. Полученные в разделах 2.2, 3.5 и 3.6 настоящей работы результаты свидетельствуют, что при минимальных предположениях можно показать ограниченность максимального целесообразного ранга рефлексии. Другими словами, во многих случаях неограниченное увеличение ранга рефлексии нецелесообразно с точки зрения выигрышей агентов.
В-третьих, наличие модели рефлексивной игры позволяет определить условия существования и свойства информационного равновесия, а также конструктивно и корректно сформулировать задачу рефлексивного управления, заключающуюся в поиске управляющим органом такой информационной структуры, что реализующееся в ней информационное равновесие наиболее выгодно с его точки зрения. Задача рефлексивного управления ставится и решается для ряда случаев в разделе 3.7. Теоретические результаты ее решения используются в ряде приводимых в четвертой главе прикладных моделей – скрытое управление, информационное управление через СМИ и др.
И, наконец, в-четвертых, язык рефлексивных игр (информационные структуры, графы рефлексивной игры и др.) является удобным для описания эффектов рефлексии как в психологии (что иллюстрируется на примере шахматной игры, трансакционного анализа, моделей этического выбора и др.), так и в художественных произведениях – см. четвертую главу настоящей работы.
Завершив качественный обзор содержания работы, отметим, что можно предложить несколько подходов к ознакомлению с материалом настоящей книги. Первый – линейный, заключающийся в последовательном прочтении всех четырех глав. Второй рассчитан на читателя, интересующегося в большей степени формальными моделями, и заключается в прочтении второй и третьей глав и беглом ознакомлении с примерами в четвертой главе. Третий ориентирован на читателя, не желающего вникать в математические тонкости, и заключается в прочтении введения, четвертой главы и заключения.
ГЛАВА 1. ИНФОРМАЦИЯ В ПРИНЯТИИ РЕШЕНИЙ
В первой главе настоящей работы приводится модель индивидуального принятия решений (раздел 1.1), проводится обзор основных концепций решения некооперативных игр, обсуждаются используемые в этих концепциях предположения об информированности и взаимной информированности агентов (раздел 1.2), анализируются известные модели информированности и общего знания (раздел 1.3).
1.1. ИНДИВИДУАЛЬНОЕ ПРИНЯТИЕ РЕШЕНИЙ: МОДЕЛЬ
РАЦИОНАЛЬНОГО ПОВЕДЕНИЯ
Опишем, следуя [21, 58, 62], модель принятия решений единственным агентом. Пусть агент способен выбирать некоторое действие x из множества X допустимых действий. В результате выбора действия x X агент получает выигрыш f(x), где f: X ® 1 – действительнозначная целевая функция, отражающая предпочтения агента.Примем гипотезу рационального поведения, заключающуюся в том, что агент с учетом всей имеющейся у него информации выбирает действия, которые наиболее предпочтительны с точки зрения значений своей целевой функции (данная гипотеза не является единственно возможной – см., например, концепцию ограниченной рациональности [77]). В соответствии с гипотезой рационального поведения агент выбирает альтернативу из множества «лучших»
альтернатив. В рассматриваемом случае это множество является множеством альтернатив, на которых достигается максимум целевой функции.
Следовательно, выбор действия агентом определяется правилом индивидуального рационального выбора P(f, X) X, которое выделяет множество наиболее предпочтительных с точки зрения агента действий5:
Усложним модель, а именно предположим, что выигрыш агента определяется не только его собственными действиями, но и значением неопределенного параметра q W – состояния природы. То есть в результате выбора действия x X и реализации состояния природы q W агент получает выигрыш f(q, x), где f: W X ® 1.
Если выигрыш агента зависит, помимо его действий, от неопределенного параметра – состояния природы, то в общем случае не существует однозначно «лучшего» действия – принимая решение о выбираемом действии, агент должен «предсказывать» состояние природы.
Поэтому введем гипотезу детерминизма, заключающуюся в том, что агент стремится устранить с учетом всей имеющейся у него информации существующую неопределенность и принимать решения в условиях полной информированности [21, 33] (другими словами, окончательный критерий, которым руководствуется агент, принимающий решения, не должен содержать неопределенных параметров). То есть агент должен в соответствии с гипотезой детерминизма устранить неопределенность относительно независящих от него параметров (быть может, путем введения определенных предположений об их значениях).
В зависимости от той информации I, которой обладает агент о неопределенных параметрах, различают [21, 59]:
- интервальную неопределенность (когда известно только множество W возможных значений неопределенных параметров);
При использовании максимумов и минимумов подразумевается, что они достигаются.
- вероятностную неопределенность (когда, помимо множества W возможных значений неопределенных параметров, известно их вероятностное распределение p(q));
- нечеткую неопределенность (когда, помимо множества W возможных значений неопределенных параметров, известна функция принадлежности их значений).
В настоящей работе рассматривается простейший – «точечный»
– случай, когда агенты имеют представления о конкретном значении состоянии природы. Возможность обобщения полученных результатов на случай интервальной или вероятностной неопределенности обсуждается в заключении.
Введем следующее предположение относительно используемых агентом процедур устранения неопределенности: интервальная неопределенность устраняется вычислением максимального гарантированного результата (МГР), вероятностная – ожидаемого значения целевой функции, нечеткая – множества максимально недоминируемых альтернатив6.
Обозначим f f – процедуру устранения неопределенности, то есть процесс перехода от целевой функции f(q, x) к целевой функции f (x), которая не зависит от неопределенных параметров. В соответствии с введенным предположением в случае интервальной неопределенности f (x) = min f(q, x), в случае вероятностной неопq W Устранив неопределенность, получаем детерминированную модель, то есть правило индивидуального рационального выбора имеет вид:
Введенные предположения не являются единственно возможными. Использование других предположений (например, гипотезу об использовании МГР можно заменить гипотезой оптимизма, или гипотезой «взвешенного оптимизма-пессимизма»
и т.д.) приведет к другим концепциям решения, однако процесс их получения будет следовать реализуемой ниже общей схеме.
где I – информация, используемая агентом при устранении неопределенности f f.
До сих пор мы рассматривали индивидуальное принятие решений. Рассмотрим теперь игровую неопределенность, в рамках которой существенными являются предположения агента о множестве возможных значений обстановки игры (действий других агентов, выбираемых ими в рамках тех или иных неточно известных рассматриваемому агенту принципов поведения).
1.2. ИНТЕРАКТИВНОЕ ПРИНЯТИЕ РЕШЕНИЙ: ИГРЫ И
РАВНОВЕСИЯ
Модель игры. Для описания коллективного поведения агентов недостаточно определить их предпочтения и правила индивидуального рационального выбора по отдельности. Как отмечалось выше, в случае, когда в системе имеется единственный агент, гипотеза его рационального (индивидуального) поведения предполагает, что агент ведет себя таким образом, чтобы выбором действия максимизировать значение своей целевой функции. В случае, когда агентов несколько, необходимо учитывать их взаимное влияние: в этом случае возникает игра – взаимодействие, в котором выигрыш каждого агента зависит как от его собственного действия, так и от действий других агентов. Если в силу гипотезы рационального поведения каждый из агентов стремится выбором действия максимизировать свою целевую функцию, то понятно, что в случае нескольких агентов индивидуально рациональное действие каждого из них зависит от действий других агентов7.Рассмотрим теоретико-игровую модель взаимодействия между n агентами. Каждый агент осуществляет выбор действия xi, принадлежащего допустимому множеству Xi, i N = {1, 2, …, n} – множеству агентов. Выбор действий агентами осуществляется однократно, одновременно и независимо.
В теоретико-игровых моделях предполагается, что рациональность игроков, то есть следование их гипотезе рационального поведения, является общим знанием. В настоящей работе это предположение также принимается.
Выигрыш i-го агента зависит от его собственного действия xi Xi, от вектора действий x-i = (x1, x2, …, xi-1, xi+1, …, xn) XX j оппонентов N\{i} и от состояния природы8 q W, и описывается действительнозначной функцией выигрыша fi = fi(q, x), где x = (xi, x-i) = (x1, x2, …, xn) X' = X j – вектор действий всех агентов. При фиксированном значении состояния природы совокупность Г = (N, {Xi}i N, {fi()}i N) множества агентов, множеств их допустимых действий и целевых функций называется игрой в нормальной форме. Решением игры (равновесием) называется множество устойчивых в том или ином смысле векторов действий агентов [15, 21, 65, 68, 86, 109, 126, 132].
В силу гипотезы рационального поведения каждый агент будет стремиться выбрать наилучшие для него (с точки зрения значения его целевой функции) действия при заданной обстановке. Обстановкой для него будет совокупность обстановки игры x-i X-i и состояния природы q W. Следовательно, принцип принятия им решения о выбираемом действии можно записать следующим образом (BR обозначает наилучший ответ – best response):
(1) BRi(q, x-i) = Arg max fi(q, xi, x-i), i N.
Рассмотрим возможные принципы принятия решений агентами, каждый из которых порождает соответствующую концепцию равновесия, то есть определяет, в каком смысле устойчивым должен быть прогнозируемый исход игры. Параллельно будем обсуждать ту информированность, которая необходима для реализации равновесия.
Равновесие в доминантных стратегиях. Если для некоторого агента множество (1) не зависит от обстановки, то оно составляет множество его доминантных стратегий (совокупность доминантных стратегий агентов называется равновесием в доминантных стратегиях – РДС) [21]. Если у каждого из агентов существует доминантная стратегия, то они могут принимать решения независимо, то есть выбирать действия, не имея никакой информации и не делая никаких Состояние природы может быть, в том числе, вектором, компоненты которого отражают индивидуальные характеристики агентов.
предположений об обстановке. К сожалению, РДС существует далеко не во всех играх.
Для реализации агентами равновесия в доминантных стратегиях, если последнее существует, достаточно знания каждым из них только своей целевой функции и допустимых множеств X' и W.
Гарантирующее равновесие. Той же информированностью должны обладать агенты для реализации гарантирующего (максиминного) равновесия, которое существует почти во всех играх:
(2) xiг Arg max min min fi(q, xi, x-i), i N.
Если хотя бы для одного из агентов множество (1) зависит от обстановки (то есть не существует РДС), то дело обстоит более сложным образом. Исследуем соответствующие случаи.
Равновесие Нэша. Определим многозначное отображение (3) BR(q, x) = (BR1(q, x-1); BR2(q, x-2), …, BRn(q, x-n)).
Равновесием Нэша [21, 68, 132] при состоянии природы q (точнее – параметрическим равновесием Нэша) называется точка x*(q) X', удовлетворяющая следующему условию:
(4) x*(q) BR(q, x*(q)).
Вложение (4) можно также записать в виде:
Множество EN(q) всех точек вида (4) можно описать следующим образом:
(5) EN(q) = {x X’ | xi BRi(q, x-i), i N}.
Для случая двух агентов альтернативным эквивалентным способом определения множества EN(q) является его задание в виде множества пар точек ( x1 (q), x2 (q)), одновременно удовлетворяющих следующим условным соотношениям [17, 109, 132]:
(6) x1 (q) BR1(q, BR2(q, BR1(q,...BR2(q, x2 (q))...))), (7) x2 (q) BR2(q, BR1(q, BR2(q,...BR1(q, x1 (q))...))).
Рассмотрим, какой информированностью должны обладать агенты, чтобы реализовать равновесие Нэша путем одновременного и независимого выбора своих действий.
По определению равновесие Нэша является той точкой, одностороннее отклонение от которой невыгодно ни для одного из агентов (при условии, что остальные агенты выбирают соответствующие компоненты равновесного по Нэшу вектора действий). Если агенты многократно осуществляют выбор действий, то точка Нэша является в определенном смысле (см. подробности в [63]) устойчивой и может считаться реализуемой в рамках знания, как и в случае с РДС, каждым агентом только своей целевой функции и допустимых множеств X' и W (при этом, правда, необходимо введение дополнительных предположений о принципах принятия агентами решений о выборе действий в зависимости от истории игры [34, 56, 109]).
В настоящей работе рассмотрение ограничивается одношаговыми играми, поэтому в случае однократного выбора агентами своих действий знания ими только своих целевых функций и множеств X' и W для реализации равновесия Нэша уже недостаточно. Поэтому введем следующее предположение, которое будем считать выполненным в ходе всего последующего изложения: информация об игре Г, множестве W и рациональности агентов является общим знанием.
Содержательно введенное предположение означает, что каждый из агентов рационален, знает множество участников игры, целевые функции и допустимые множества всех агентов, а также знает множество возможных значений состояний природы. Кроме того, он знает, что другие агенты знают это, а также то, что они знают, что он это знает и т.д. до бесконечности (см. выше). Такая информированность может, в частности, достигаться публичным (то есть одновременно всем агентам собранным вместе) сообщением соответствующей информации, что обеспечивает возможное достижение всеми агентами бесконечного ранга информационной рефлексии. Отметим, что введенное предположение ничего не говорит об информированности агентов относительно конкретного значения состояния природы.
Если значение состояния природы является общим знанием, то этого оказывается достаточно для реализации равновесия Нэша. В качестве обоснования этого утверждения промоделируем на примере игры двух лиц ход рассуждений первого агента (второй агент рассуждает полностью аналогично, и его рассуждения будут рассматриваться отдельно только в том случае, если они отличаются от рассуждений первого агента). Он рассуждает следующим образом (см.
выражение (6)): "Мое действие, в силу (1), должно быть наилучшим ответом на действие второго агента при заданном состоянии природы. Следовательно, мне надо промоделировать его поведение. Про него (в силу предположения о том, что целевые функции и допустимые множества являются общим знанием) мне известно, что он будет действовать в рамках (1), то есть будет искать наилучший ответ на мои действия при заданном состоянии природы (см. (7)).
Для этого ему необходимо промоделировать мои действия. При этом он будет (опять же, в силу введенных предположений о том, что целевые функции и допустимые множества являются общим знанием) рассуждать так же, как и я, и т.д. до бесконечности (см. (6))." В теории игр для подобных рассуждений используется удачная физическая аналогия отражения в зеркалах – см., например, [48].
Таким образом, для реализации равновесия Нэша достаточно, чтобы все параметры игры, а также значение состояния природы были общим знанием (ослабление этого предположения рассмотрено в [97]). Рассматриваемые в настоящей работе рефлексивные игры характеризуются тем, что значение состояния природы не является общим знанием, и каждый агент в общем случае имеет собственные представления об этом значении, представлениях других агентов и т.д.
Субъективное равновесие. Рассмотренные виды равновесия являются частными случаями субъективного равновесия, которое определяется как вектор действий агентов, каждая компонента которого является наилучшим ответом соответствующего агента на ту обстановку игры, которая может реализоваться с его субъективной точки зрения. Рассмотрим возможные случаи.
Предположим, что i-ый агент рассчитывает на реализацию обB становки игры x- i ("B" обозначает beliefs; иногда используются термины «предположение», «догадка» – conjecture) и состояния природы q i, тогда он выберет (8) xiB BRi( q i, x- i ), i N.
Вектор xB является точечным субъективным равновесием.
Отметим, что при таком определении «равновесия» не требуется обоснованности предположений агентов о действиях оппонентов, то есть может оказаться, что $ i N: x- i x- i. Обоснованное субъекB B тивное равновесие, то есть такое, что x- i = x- i, i N, является равновесием Нэша (для этого, в частности, достаточно, чтобы все параметры игры были общим знанием, и чтобы каждый агент при построении x- i моделировал рациональное поведение оппонентов).
В частном случае, если наилучший ответ каждого агента не зависит от предположений об обстановке, то субъективное равновесие является равновесием в доминантных стратегиях.
В более общем случае i-ый агент может рассчитывать на выбор оппонентами действий из множества X - i X-i и реализацию состояния природы из множества Wi W i N. Тогда наилучшим ответом будет гарантирующее субъективное равновесие:
(9) xi( X - i, Wi ) Arg max minB min fi(q, xi, x-i), i N.
рантирующее субъективное равновесие является «классическим»
гарантирующим равновесием. Разновидностью гарантирующего субъективного равновесия является П-равновесие, подробно описанное в [9].
В еще более общем случае в качестве наилучшего ответа i-го агента можно рассматривать распределение вероятностей pi(xi), где pi() D(Xi) – множеству всевозможных распределений на Xi, которое максимизирует ожидаемый выигрыш агента с учетом его представлений о распределении вероятностей mi(x-i) D(X-i) действий, выбираемых другими агентами, и распределении вероятностей qi(q) D(W) состояния природы (получим Байесов принцип принятия решений):
(10) pi(mi(), qi(), ) = Таким образом, для реализации субъективного равновесия требуется минимальная информированность агентов – каждый из них должен знать свою целевую функцию fi() и допустимые множества W и X’. Однако при такой информированности совокупность предположений агентов о состоянии природы и о поведении оппонентов могут быть несогласованными. Для достижения согласованности, то есть для того, чтобы предположения оправдывались, необходимы дополнительные предположения о взаимной информированности агентов. Наиболее сильным является предположение об общем знании, которое превращает субъективное точечное равновесие в равновесие Нэша, а совокупность Баейсовых принципов принятия решений – в равновесие Байеса–Нэша.
Равновесие Байеса–Нэша. Если в игре имеется неполная информация (см. [114]), то Байесова игра описывается следующим набором:
- множеством N агентов;
- множеством K возможных типов агентов, где тип i-го агента ki Ki, i N, вектор типов k = (k1, k2, …, kn) K’ = K i ;
тов;
- набором функций полезности ui: K’ X’ ® 1;
- представлениями mi(|ki) D(K-i), i N, агентов.
Равновесие Байеса-Нэша в игре с неполной информацией определяется как набор стратегий агентов вида si: Ki ® Xi, i N, которые максимизируют соответствующие ожидаемые полезности (11) Ui(ki, si(), s-i()) = ui(k, si(ki), s-i(k-i)) mi(k-i| ki) dk-i, i N.
В Байесовых играх, как правило, предполагается, что представления {mi(|)}i N являются общим знанием. Для этого, в частности, достаточно, чтобы они были согласованы, то есть выводились каждым из агентов по формуле Байеса из распределения m(k) D(K’), которое является общим знанием.
Для Баейсовых игр, в которых {mi(|)}i N является общим знанием, в [100, 135] введено понятие рационализируемых стратегий (rationalizable strategies) Di D(Xi), i N, таких что Di BRi(D-i), i N. В играх двух лиц множество рационализируемых стратегий совпадает с множеством стратегий, полученным в результате итеративного исключения строго доминируемых стратегий9 [132]. Обобщение рационализируемых стратегий на случай максиминного Напомним, что строго доминируемой (strongly dominated) называется такая стратегия агента, что найдется другая его стратегия, которая при любой обстановке обеспечивает этому агенту строго больший выигрыш. Итеративное исключение (iterative elimination) строго доминируемых стратегий заключается в последовательном (в общем случае бесконечном) их исключении из множества рассматриваемых стратегий агентов, что приводит к нахождению «слабейшего»
решения игры – множества недоминируемых стратегий.
(гарантирующего) равновесия осуществлено в [94]. Возможно усложнение конструкций субъективного равновесия за счет введения запретов на определенные комбинации действий агентов и т.д.
Таким образом, реализация РДС, гарантирующего и субъективного равновесия (если они существуют) требует, чтобы каждый агент обладал, как минимум, информацией о своей целевой функции и всех допустимых множествах, а реализация равновесия Нэша, если оно существует, дополнительно требует, чтобы значения всех существенных параметров являлись общим знанием.
Еще раз отметим, что реализуемость равновесия Нэша подразумевает возможность агентов (и управляющего органа – центра, или исследователя операций, если они обладают соответствующей информацией) априори и независимо рассчитать равновесие Нэша и в одношаговой игре сразу выбрать равновесные по Нэшу действия (при этом отдельный вопрос заключается в том, какое из равновесий выберут агенты и центр, если равновесий Нэша несколько [86]).
Качественно, общее знание необходимо для того, чтобы каждый из агентов (и центр) мог промоделировать принципы принятия решений другими агентами, в том числе учитывающими его собственные принципы принятия решений и т.д.
Следовательно, можно сделать вывод о том, что концепция решения игры тесно связана с информированностью агентов.
Такие концепции решения, как РДС и равновесие Нэша, являются в некотором смысле предельными случаями – первая требует минимальной информированности, вторая – бесконечности ранга информационной рефлексии всех агентов. Поэтому ниже мы опишем другие («промежуточные») случаи информированности агентов – иерархии представлений – и построим соответствующие им решения игры. Прежде чем реализовывать эту программу, проведем обзор известных моделей общего знания и иерархии представлений.
1.3. ОБЩИЕ ПОДХОДЫ К ОПИСАНИЮ ИНФОРМИРОВАННОСТИ
Рефлексия имеет место в случае, когда агент имеет и использует при принятии решений иерархию представлений – свои представления о представлениях других агентов, их представлениях о его представлениях и представлениях друг друга и т.д. Анализ представлений о неопределенных факторах соответствует информационной рефлексии, а представлений о принципах принятия решений – стратегической рефлексии. В терминах субъективного равновесия стратегической рефлексии соответствуют предположения агента о том, что оппонент будет вычислять то или иное конкретное, например субъективное гарантирующее, равновесие, а информационной рефлексии – какие конкретные предположения об обстановке будет использовать оппонент.
Рассмотрим известные на сегодняшний день10 подходы к описанию иерархии представлений и общего знания.
Как отмечается в [97, 99, 115], различают два подхода к описанию информированности – синтаксический и семантический (напомним, что «синтактика – синтаксис знаковых систем, то есть структура сочетания знаков и правил их образования и преобразования безотносительно к их значениям и функциям знаковых систем», «семантика – изучает знаковые систем как средства выражения смысла, основной ее предмет представляют интерпретации знаков и знакосочетаний» [84, С. 601]). Основы этих подходов были заложены в математической логике [116, 119].
При синтаксическом подходе иерархия представлений описывается в явном виде. Если представления задаются распределением вероятностей, то иерархии представлений на некотором уровне иерархии соответствуют распределения на произведении множества состояний природы и распределений, отражающих представления предыдущих уровней [128]. Альтернативой является использование «формул» (в логическом смысле), то есть правил преобразования элементов исходного множества на основе применения логических Следует отметить, что иерархии представлений и общее знание стали предметом исследований в теории игр совсем недавно – пионерскими являются упомянутые выше книга D. Lewis (1969) и статья R. Aumann (1976). Анализ хронологии публикаций (см. библиографию) свидетельствует о растущем интересе к этой проблемной области.
операций и операторов вида «игрок i считает, что вероятность события … не меньше a» [115, 144]. При этом знание моделируется предложениями (формулами), конструируемыми в соответствии с определенными синтаксическими правилами.
В рамках семантического подхода представления агентов задаются распределениями вероятностей на множестве состояний природы. Иерархия представлений при этом порождается исходя только из этих распределений. В простейшем детерминированном случае знание представляется множеством W возможных значений неопределенного параметра и разбиениями {Ri}i N этого множества. Элемент разбиения Ri, включающий q W, представляет собой знание iго агента – множество значений неопределенного параметра, неразличимых с его точки зрения при известном факте q [96, 99].
Соответствие (условно говоря, «эквивалентность») между синтаксическим и семантическими подходами установлено в [97, 140 и др.].
Особо следует отметить экспериментальные исследования иерархий представлений в [103, 133, 141 и др.] – см. обзор в [143].
Проведенный краткий обзор свидетельствует, что существуют две «крайности». Первая «крайность» – общее знание (заслугой Дж. Харшаньи [114] является то, что он свел всю информацию об агенте, влияющую на его поведение, к единственной его характеристике – типу – и построил равновесие (Байеса-Нэша) в рамках гипотезы о том, что распределение вероятностей типов является общим знанием). Вторая «крайность» – бесконечная иерархия согласованных или несогласованных представлений. Примером последней служит конструкция, приведенная в [128], которая, с одной стороны, описывает все возможные Баейсовы игры и все возможные иерархии представлений, а, с другой стороны, (в силу своей общности) настолько громоздка, что не позволяет конструктивно ставить и решать конкретные задачи.
Большинство исследований информированности посвящено ответу на вопрос: в каких случаях иерархия представлений агентов описывает общее знание и/или адекватно отражает информированность агентов [102, 105 и др.]. Зависимость решения игры от конечной иерархии согласованных или несогласованных представлений агентов (то есть весь диапазон между двумя отмеченными выше «крайностями») практически не исследовалась. Исключения составляют, во-первых, работа [139], в которой равновесия Байеса–Нэша для трехуровневых иерархий несогласованных вероятностных представлений двух агентов строились в предположении, что на нижнем уровне иерархии представления совпадают с представлениями предыдущего уровня – см. также предположения типа Пm и соответствующие равновесия в [62]. Во-вторых – третья глава настоящей работы, в которой описываются произвольные (конечные или бесконечные, согласованные или несогласованные) иерархии «точечных»
представлений, для которых строится и исследуется информационное равновесие – равновесие рефлексивной игры (возможность и целесообразность обобщения полученных результатов на случай интервальных или вероятностных представлений агентов обсуждается в заключении).
Таким образом, актуальным является как исследование стратегической рефлексии (глава 2 настоящей работы), так и построение решения рефлексивной игры, и изучение зависимости этого равновесия от иерархии представлений агентов (глава 3 настоящей работы).
ГЛАВА 2. СТРАТЕГИЧЕСКАЯ РЕФЛЕКСИЯ
В настоящей главе исследуются теоретико-игровые модели стратегической рефлексии. В разделе 2.1 изучается модель стратегической рефлексии в игре двух лиц, что в разделе 2.2 позволяет решить задачу о максимальном целесообразном ранге стратегической рефлексии в биматричных играх. Раздел 2.3 посвящен обсуждению конечности ранга рефлексии, порождаемой ограниченностью способностей человека по переработке информации.
2.1. СТРАТЕГИЧЕСКАЯ РЕФЛЕКСИЯ В ИГРАХ ДВУХ ЛИЦ
Рассмотрим последовательно, в порядке возрастания информированности, рефлексивные модели принятия решений в играх двух лиц.Нулевой ранг рефлексии. Рассмотрим проблему принятия агентом решения в случае полного отсутствия информации о состоянии природы (напомним, что предположение о том, что целевые функции и допустимые множества являются общим знанием, считается выполненным). Представляется разумным, с одной стороны, принцип принятия решений на основе максимального гарантированного результата, в соответствии с которым i-ый агент выберет гарантирующую (по состоянии природы и действию оппонента) стратегию (12) 1 xiг = arg max min min fi(q, xi, x-i).
С другой стороны, гипотетически принцип (12) принятия решений не является единственно возможным – агент может рассчитывать, что его оппонент выберет не наихудшее действие, а собственную гарантирующую стратегию (отметим, что каждый агент может вычислить гарантирующую стратегию оппонента). Тогда наилучшим ответом будет (13) 2 xiг = arg max min fi(q, xi, 1 x- i ).
Но аналогичным образом может рассуждать оппонент рассматриваемого агента. Если рассматриваемый агент допускает такую возможность, тогда его гарантирующей стратегией будет (14) 3 xiг = arg max min fi(q, xi, 2 x- i ), где 2 x вычисляется в соответствии с (13) заменой индекса «i» на «i i» и наоборот.
Цепочку наращивания «ранга рефлексии» (предположений агента о ранге рефлексии оппонента) можно продолжать и далее (см.
аналогии в динамических моделях, рассматриваемых в [66]), определив рекуррентно (15) k xiг = arg max min fi(q, xi, k -1 x- i ), k = 2, 3,..., где x, i = 1, 2, определяются (12). Набор действий типа (15) будем называть множеством рефлексивных гарантирующих стратегий.
Рассмотрим иллюстративный пример.
Пример 1. Пусть целевые функции агентов имеют вид:
f1(x1, x2) = x1 – x1 /2x2, f2(x1, x2) = x2 – x2 /2(x1 + d), где d > 0. Относительно допустимых множеств предположим, что X1 = X2 = [e; 1], 0 < e < 1. Будем считать, что каждая из констант e и d много меньше единицы. Гарантирующие стратегии агентов приведены в таблице 1.
Видно, что, во-первых, значения гарантирующих действий увеличиваются с ростом «ранга рефлексии». Во-вторых, различным «рангам рефлексии» агентов соответствуют в общем случае различные гарантирующие действия (отметим, что равновесием11 Нэша в данном примере является вектор (1; 1)) ·12.
Вопрос о том, какое действие следует выбирать агенту, остается открытым. Единственно, можно констатировать, что, обладая информацией только о множестве возможных значений состояния природы, i-ый агент может выбирать одно из действий k xiг, i = 1, 2;
k = 1, 2,..., определяемых выражениями (12) и (15).
Доопределить рациональный выбор агента в рассматриваемой модели можно следующим образом. Если агенту неизвестна целевая функция оппонента (что исключено в рамках предположения о том, что целевые функции и допустимые множества являются общим знанием), то единственным его рациональным действием является выбор (12), то есть классический МГР. В рамках введенных предположений агенту известна целевая функция оппонента, а также известно, что оппоненту известен этот факт и т.д. Поэтому с точки зрения агента нерационально использование классического МГР, и ему следует рассчитывать, как минимум, что оппонент будет исВ качестве отступления заметим, что, если в рассматриваемом примере целевая функция второго агента имеет вид f2(x1, x2) = x2 + x2 /2x1, то у него существует доминантная стратегия (равная единице), и последовательность гарантирующих стратегий первого агента стабилизируется уже на втором члене: 1i x = 1/2. Если первый агент может вычислить доминантную стратегию своего оппонента, то представляется рациональным выбор им действия Символ «·» здесь и далее обозначает окончание примера или доказательства.
пользовать МГР, что приведет к выбору 2 xiг. Но, опять же, в силу того, что целевые функции являются общим знанием, агент может предположить, что такой ход его рассуждений может быть восстановлен оппонентом, что сделает целесообразным выбор 3 xiг и т.д. до бесконечности. Следовательно, с точки зрения агента остается неопределенность относительно «ранга рефлексии» оппонента13. Относительно этого параметра он не имеет никакой информации (если у агента имеются некоторые убеждения по этому поводу, то может реализоваться соответствующее субъективное равновесие), что делает рациональным использование гарантированного результата по «рангу рефлексии» оппонента:
(16) x’i = arg max min min fi(q, xi, j x- i ).
Отметим, что, во-первых, x’i может отличаться от классической гарантирующей стратегии 1 xiг, определяемой выражением (12). Вовторых, при использовании стратегии (16) факт наличия доминантной стратегии оппонента будет учтен агентом (см. сноску в примере 1).
В таблице 2 приведены значения целевой функции первого агента в примере 1 в зависимости от «ранга рефлексии» оппонента и соответствующие действия оппонента. Видно, что при использовании стратегии (16) выигрыш i-го агента равен e + d, что превышает выигрыш e, получаемый при использовании классического МГР.
Другими словами, исходная игра может быть заменена на игру, в которой агенты выбирают ранги своей рефлексии. Для новой игры могут быть также построены рефлексивные аналоги и т.д. до бесконечности (см. примеры: «Пенальти» – во введении, «Игра в прятки» и «Снос на мизере» – в разделе 2.2). Одним из возможных способов борьбы с подобной «бесконечностью» является использование гарантированного результата по рангу рефлексии оппонента. Другим возможным способом, эффективным для конечных игр, является определение максимального целесообразного ранга рефлексии агентов – см. раздел 2.2.
Таким образом, рациональным в рассматриваемой модели можно считать использование агентом стратегии (15) или (16).
Первый ранг рефлексии. Предположим теперь, что агент обладает определенной информацией о состоянии природы, которую считает истинной, и больше ему ничего достоверно не известно.
В рамках существующей неопределенности в силу принципа детерминизма у агента, осуществляющего стратегическую рефлексию, имеются две альтернативы – либо предположить, что его оппонент не обладает никакой информацией, либо считать, что последний обладает той же информацией, что и он сам14.
Если агент не вводит никаких предположений об информированности и принципах поведения оппонента, то он вынужден применять принцип максимального гарантированного результата (МГР) – никакой дополнительной (по сравнению с рассмотренной выше моделью нулевого ранга рефлексии) информации об оппоненте у агента не добавилось15 – то есть рассчитывать на наихудший для него выбор второго агента из множества стратегий типа (16). Гарантирующей стратегией будет:
(17) xiг (qi) = arg max min fi(qi, xi, j x- i ).
Отметим, что, находясь в информационной ситуации, соответствующей рассматриваемой модели, вычисляя (17), агент рассматривает оппонента как находящегося в информационной ситуации, соответствующей предыдущей модели. Этот общий принцип – обладая некоторой информацией, агент может рассматривать оппонента как имеющего либо тот же, либо на единицу меньший ранг рефлексии – будет использован и в ряде других рефлексивных моделей принятия решений.
Если первый агент считает, что его оппонент обладает той же информацией, что и он сам (аналогично может рассуждать и второй агент – см. предположение П1 в [62]), то он вычисляет субъективное Данный принцип (и его обобщения) будет широко использоваться ниже при определении конечных информационных структур – действительно, обладая информацией Ii, i-ый агент может в случае неопределенности приписывать другим агентам только информированность, согласованную с Ii.
Конечно, агент может предполагать, что оппонент обладает некоторой информацией, но, так как эта информация не фигурирует в модели, то рассматривать подобные предположения мы не будем.
равновесие (то есть «равновесие Нэша» для соответствующего субъективного описания игры) EN(q1) = {( x11 (q1), x12 (q1))} следующего вида:
(18) " x1 X1 f1(q1, x11 (q1), x12 (q1)) f1(q1, x1, x12 (q1)), " x2 X2 f2(q1, x11 (q1), x12 (q1)) f1(q1, x11 (q1), x2).
Содержательно, приведенные системы неравенств отражают вычисление первым агентом «своего» равновесия Нэша и выбор соответствующей координаты этого равновесия. В общем случае агент и его оппонент вычислят разные равновесия – совпадение возможно, если информированность такова, что xij (qi) = x* (qj), i, j = 1, 2.
Таким образом, рациональным в модели первого ранга рефлексии можно считать выбор агентом либо рефлексивной гарантирующей стратегии (17), либо субъективного равновесия (18).
Субъективное равновесие (18), определяемое первым агентом, может быть условно изображено в виде графа с двумя верши- x нами x1 и x12, соответствующими первому агенту и его представлениям о втором агенте16 (см. рисуРис. 1. Субъективное нок 1). Входящие стрелки при этом отражают ту информацию, которую использует каждый из агентов об оппоненте.
Второй ранг рефлексии. В модели второго ранга рефлексии iый агент обладает информацией о представлениях qij оппонента о состоянии природы и о собственных представлениях qii о состоянии природы (будем считать, что qi = qii – см. аксиому автоинформированности ниже).
Агент может рассчитывать, что его оппонент выберет гарантирующую (в рамках знания qij) стратегию. Тогда наилучшим ответом будет Подобные агенты, существующие в представлениях других агентов, называются фантомными агентами.
(19) 2 xiг = arg max fi(qi, xi, x- i (qij)), где x (qi,-i) определяется (17).
Помимо гарантирующей стратегии (19), первый агент может вычислить субъективное равновесие следующего вида:
(20) " x1 X1 f1(q1, x11 (q1,q12), x12 (q1,q12)) f1(q1, x1, x12 (q1,q12)), " x2 X2 f2(q12, x121 (q1,q12), x12 (q1,q12)) f2(q12, x121 (q1,q12), x2), " x1 X1 f1(q12, x121 (q1,q12), x12 (q1,q12)) f2(q12, x1, x12 (q1,q12)).
Как и в предыдущей модели, в общем случае первый агент и его оппонент вычислят разные равновесия.
Таким образом, рациональным в модели второго ранга рефлексии можно считать выбор агентом либо рефлексивной гарантирующей стратегии (19), либо субъективного равновесия (20).
Отметим, что первые две системы неравенств в (20) отражают первого агента, а вторая и третья система неравенств – равновесие Нэша, которое должен определить вого агента – см. граф на рисунке 3, на котором пунктиром обведена «модель» второго агента, которую использует первый агент при равновесие в модели RDM принятии решений.
Проведенный анализ простейших моделей стратегической рефлексии первых нескольких рангов свидетельствует, что в случае нескольких агентов и недостаточной их информированности можно рассматривать процессы принятия ими решений независимо – каждый из них моделирует поведение своих оппонентов, то есть стремится построить собственную замкнутую модель игры (см. обсуждение различий субъективного и объективного описания игры в [18]). В случае общего знания субъективные модели совпадают.
Выше мы рассмотрели рефлексию нулевого, первого и второго рангов. Наращивание рангов рефлексии можно по аналогии производить и дальше. Существенными во всех моделях являются предположения агента о том, какой ранг рефлексии имеет его оппонент, то есть, фактически, ранг рефлексии агента определяется тем, какой ранг рефлексии он приписывает оппоненту.
Никаких разумных рекомендаций, ограничивающих рост ранга собственной рефлексии, априори агенту предложить нельзя. С этой точки зрения можно констатировать, что не существует универсальной концепции равновесия для игр со стратегической рефлексией.
Единственным выходом является использование в этом случае либо МГР по рангам рефлексии оппонента, либо субъективного равновесия, в рамках которого каждый агент вводит определенные предположения о ранге рефлексии оппонента и выбирает свое действие, оптимальное в рамках этих предположений.
Поэтому сконцентрируем основное внимание на изучении случаев, когда неограниченного роста ранга рефлексии не происходит.
Существуют две причины, по которым ранг рефлексии может оказаться конечным. Во-первых, это – нецелесообразность увеличения ранга рефлексии, свыше некоторого, с точки зрения выигрыша агента (когда дальнейшее увеличение ранга рефлексии заведомо не приводит к увеличению выигрыша). Во-вторых, возможности человека по переработке информации ограничены, и бесконечный ранг рефлексии является не более чем математической абстракцией.
Поэтому в последующих разделах настоящей главы приводятся модели, учитывающие обе приведенные причины – в разделе 2.2 на примере биматричных игр определяется максимальный целесообразный ранг стратегической рефлексии, а в разделе 2.3 исследуется роль информационных ограничений.
2.2. РЕФЛЕКСИЯ В БИМАТРИЧНЫХ ИГРАХ
Основная идея, развиваемая в настоящем разделе, заключается в том, что в биматричных играх17, в которых не существует равновесия Нэша, или в которых при существующем равновесии Нэша агенты выбирают субъективные гарантирующие стратегии (см.Напомним, что биматричными называются конечные игры двух лиц.
предыдущий раздел настоящей работы) выигрыш каждого из агентов зависит как от его ранга рефлексии, так и от ранга рефлексии оппонента. Кроме того, показывается, что неограниченное увеличение ранга стратегической рефлексии не приводит к увеличению выигрыша. Перейдем к формальному описанию.
Рассмотрим биматричную игру18, в которой выигрыши первого и второго агентов задаются матрицами A = ||aij|| и B = ||bij|| размерности n m соответственно. Обозначим19 I = {1, 2, …, n} – множество действий первого агента (выбирающего строку), J = {1, 2, …, m} – множество действий второго агента (выбирающего столбец).
В рассматриваемой игре гарантирующие стратегии агентов следующие:
Введем следующие предположения. Пусть матрицы выигрышей таковы, что каждое действие каждого агента является наилучшим ответом на некоторое действие оппонента, и пусть, кроме того, наилучший ответ на каждое действие оппонента единственен (если наилучших ответов несколько, то можно ввести правило, доопределяющее выбор агента).20 Следовательно, при определении наилучi… Arg max …»
«j… Arg max …» можно использовать, соответственно, выражения «i… = arg max …» и «j… = arg max …».
Обозначим a0 = max min aij, b0 = max min bij – максимальiI ные гарантированные результаты (МГР) первого и второго агентов соответственно.
Так как матричные игры (антагонистические конечные игры двух лиц) являются частным случаем биматричных игр, то все приведенные в настоящем разделе результаты справедливы и для матричных игр.
Будем надеяться, что использование одного и того же (исторически сложившегося) обозначения для информационной структуры и множества действий первого агента не приведет к путанице.
Если отказаться от этих предположений, то все полученные в настоящем разделе результаты останутся в силе, так как вводимые предположения позволяют получить для максимального целесообразного ранга стратегической рефлексии оценку сверху.
Определим рефлексивную биматричную игру MGkl (matrix game) как биматричную игру с матрицами A и B, в которой первый и второй агенты имеют ранги рефлексии, равные k и l соответственно, k, l, где – множество натуральных чисел.
Поясним, что будет пониматься под рангом рефлексии (точнее – под рангом стратегической рефлексии) в биматричных играх. В биматричных (и не только биматричных – см. [13]) играх выбор действий агентами может осуществляться на основании знания рангов рефлексии оппонента. Ранги рефлексии определяются следующим образом. «Агент имеет нулевой ранг рефлексии, если он знает только матрицу платежей. Агент обладает первым рангом рефлексии, если он считает, что его противники имеют нулевой ранг рефлексии, то есть знают только матрицу платежей. Вообще, агент с k-ым рангом рефлексии предполагает, что его противники имеют k– 1-й ранг рефлексии. Он проводит за них необходимые рассуждения по выбору стратегии и выбирает свою стратегию на основе знания матрицы платежей и экстраполяции действий своих противников»
[72]. Приведем иллюстративный пример.
Пример 2 (Игра в прятки) [71]. Первый агент прячется в одной из нескольких комнат разной освещенности, а другой агент должен выбрать ту комнату, где будет его искать. Степени освещенности известны обоим агентам.
Стратегии агентов следующие. Ищущий при прочих равных условиях предпочитает искать, где светлее (там проще найти). Прячущемуся понятно, что в более темной комнате шансов найти его меньше, чем в освещенной. Возрастание ранга рефлексии означает, что агенту становится понятно, что это понятно и его противнику, и т.д. Представим ранги рефлексии агентов и соответствующие действия по выбору комнат в виде таблицы 3.
Ранг рефлексии агента Можно видеть, что после второго ранга рефлексии исчерпывается все множество допустимых действий, а после третьего ранга рефлексии стратегии выбора комнат начинают повторяться. Этот факт являлся иллюстрацией того, что в игре двух лиц увеличение рангов рефлексии выше определенного объективно не дает ничего нового, хотя субъективное нарастание сложности может продолжаться.
Несоответствие рангов рефлексии успешности деятельности состоит в следующем. Пусть прячущийся имеет 0-й ранг (прячется в самой темной комнате). Если при этом ищущий имеет 1-й ранг, то он всегда выигрывает (ищет в самой темной комнате). Но если ищущий имеет 3-й ранг (ищет в любой комнате, кроме самой темной), то он всегда проигрывает прячущемуся с 0-м рангом, поскольку тот, как мы помним, не затрудняясь рассуждениями о том, что думает противник, прячется именно в этой самой темной комнате, куда ищущий, проведя серию рефлексивных рассуждений, никогда не заглянет.
Таким образом, невозможно однозначно утверждать, что более высокий ранг рефлексии лучше более низкого. Предпочтительность того или иного ранга определяется его взаимодействием с рангом рефлексии противника. · Так как в биматричных играх предполагается, что каждый агент имеет некое убеждение о ранге рефлексии оппонента [71, 72], то это позволяет использовать понятие субъективной гарантирующей стратегии. Определим субъективные гарантирующие стратегии в биматричной игре MGkl:
(21) ik = arg max aijk -1, jl = arg max bil -1 j, k, l.
Таким образом, игра MG00 совпадает с исходной игрой, а «равновесием» в игре MGkl является ( aik jl ; bik jl ), k, l. Отметим два любопытных факта. Во-первых, выигрыш любого агента в игре MGkl при k 1, l 1 может оказаться меньше максимального гарантированного (см. пример «Снос на мизере» ниже). Во-вторых, приписывание каждым агентом оппоненту ранга рефлексии на единицу меньше его собственного противоречиво, так как в игре MGkl при k 1, l 1 это означает, что должно одновременно выполняться что, очевидно, невозможно. Следовательно, равновесие в рефлексивной игре является существенно субъективным, и априори агенты не знают в какую игру они играют (ранги рефлексии обоих агентов не могут быть общим знанием, так как это противоречило бы самому определению ранга рефлексии). Поэтому перспективным направлением будущих исследований представляется изучение информационной рефлексии относительно рангов рефлексии агентов в биматричных играх.
Внутренняя противоречивость стратегической рефлексии в биматричных играх может быть проиллюстрирована следующей схемой – на рисунке 4а приведено субъективное описание игры MGkl в терминах графа рефлексивной игры с точки зрения первого агента, на рисунке 4б – субъективное описание той же игры с точки зрения второго агента.
Рис. 4а. Субъективное описание игры MGkl с точки зрения Несколько забегая вперед (см. раздел 3.4), отметим, что граф рефлексивной игры обладает тем свойством, что число дуг, входящих в каждую его вершину, должно быть на единицу меньше, чем число агентов (то есть в биматричных играх равняться единице).
Субъективные равновесные действия выделены жирным шрифтом и приводят к «равновесию» (ik, jl). Действия ik-1 для первого агента и jl- для второго не используются в соответствующих субъективных описаниях игры (см. знаки вопроса на рисунке 4), то есть каждое из них оказывается внутренне незамкнутым.
Завершив краткое обсуждение внутренней противоречивости определения ранга стратегической рефлексии в биматричных играх, вернемся к исследованию зависимости субъективного равновесия и выигрышей агентов от рангов их рефлексии.
L = 0, 1, 2, …. Под I и J будем понимать соответствующие объединения по всем рангам рефлексии от нуля до бесконечности.
Если одному агенту (или обоим агентам) неизвестен ранг рефлексии оппонента, то целесообразно рассмотрение игры MG, в которой каждый агент вычисляет гарантированный результат по рангу рефлексии оппонента. Введем гарантирующие стратегии, соответствующие полной неопределенности относительно ранга рефлексии оппонента:
(22) i = arg max min aij, j = arg max min bij.
Аналогично можно определить гарантирующие стратегии в рамках информации о том, что ранг рефлексии оппонента не превышает известной величины (то есть первый агент считает, что ранг рефлексии второго не выше L, а второй – что ранг рефлексии первого не выше K):
(23) iL = arg max min aijl, jK = arg max min bik j.
Отметим, что в (23), в отличие от (21), стратегия каждого из агентов не зависит от его собственного ранга рефлексии, а определяется информацией о ранге рефлексии оппонента.
Выражения (21)-(23) не исчерпывают всего многообразия возможных ситуаций, так как, например, первый агент может предположить, что второй выберет j, и тогда его наилучшим ответом будет arg max aij, и т.д. Кроме того, хотя к увеличению ранга рефлексии способны лишь «сильные» агенты, интуитивно понятно, что при росте этого ранга, то есть при удлинении цепочки рассуждений «я думаю, что он думает, что я думаю...» есть опасность «перемудрить». Сильный агент с высоким рангом рефлексии переоценивает противника, предполагая, что у него ранг рефлексии тоже высокий.
Но, если ранг соперника на самом деле низкий, это приводит к проигрышу более слабому противнику [73] – см. примеры «Игра в прятки» и «Снос на мизере». Следовательно, необходимо систематическое исследование соотношения выигрышей агентов в зависимости от типа разыгрываемой игры. Приведем результаты этого исследования.
Существенным для нашего рассмотрения является наличие или отсутствие равновесия Нэша, а также выбор агентами (и использование при построении субъективных равновесий) гарантирующих стратегий или действий, равновесных по Нэшу. Таким образом, возможны следующие четыре ситуации.
Вариант 1 (равновесие Нэша в чистых стратегиях существует, и агенты ориентируются на равновесные по Нэшу действия).
Обозначим (i*; j*) – номера равновесных по Нэшу чистых стратегий. Тогда, если по аналогии с (21) считать, что в рефлексивной игре каждый агент выбирает свой наилучший ответ на выбор оппонентом соответствующей компоненты равновесия, то получим, что (24) ik = arg max aij*, jl = arg max bi* j, k, l.
Из (24) в силу определения равновесия Нэша следует, что ik = i*, jl = j*, k, l, то есть в рамках варианта 1 стратегическая рефлексия бессмысленна21 (за исключением, быть может, случая, когда наилучшие ответы определяются таким образом, что агенты выбирают компоненты различных равновесий Нэша в случае, когда последних несколько).
Вариант 2 (равновесие Нэша в чистых стратегиях существует, но агенты выбирают гарантирующие стратегии (21)).
Под бессмысленностью стратегической рефлексии в биматричных играх будем понимать случай, когда равновесие в рефлексивной игре с любой комбинацией ненулевых рангов рефлексии агентов совпадает с равновесием в исходной игре.
Если гарантирующие стратегии образуют равновесие Нэша (как это имеет место в антагонистических играх с седловой точкой), то попадаем в условия варианта 1. Следовательно, стратегическая рефлексия имеет смысл, только если в рамках варианта 2 равновесие Нэша не совпадает с равновесием в гарантирующих стратегиях (i0, j0).
Вариант 3 (равновесия Нэша в чистых стратегиях не существует, и агенты ориентируются на равновесные по Нэшу смешанные стратегии22).
Если агенты при определении своих наилучших ответов по аналогии с (24) рассчитывают на то, что оппонент выберет равновесные по Нэшу смешанные стратегии, то легко показать, что максимум ожидаемого выигрыша каждого агента будет достигаться при выборе им также соответствующей равновесной по Нэшу смешанной стратегии. Следовательно, в рамках варианта 3 любое равновесие совпадает с равновесием Нэша в смешанных стратегиях, то есть стратегическая рефлексия в этом случае бессмысленна.
Вариант 4 (равновесия Нэша в чистых стратегиях не существует, и агенты ориентируются на гарантирующие стратегии (21)).
В четвертом варианте анализ рефлексии, очевидно, имеет смысл.
Таким образом, рассмотрев все четыре возможных варианта поведения агентов, получаем, что обоснована справедливость следующего утверждения.
Утверждение 1. Стратегическая рефлексия в биматричных играх имеет смысл, если агенты используют субъективные гарантирующие стратегии (21), которые не являются равновесными по Нэшу.
(25) Kmin = min {K | IK = I}, (26) Lmin = min {L | JL = J}.
Содержательно, Kmin и Lmin – минимальные ранги рефлексии первого и второго агентов, при которых их множества субъективных равновесных действий совпадают с максимально возможными в рассматриваемой игре множествами субъективных гарантирующих стратегий.
Напомним, что в биматричных играх равновесие Нэша в смешанных стратегиях всегда существует.
В силу определения " K, L IK IK+1, JL JL+1. Значит Если ранг рефлексии первого и второго агентов не превышает K и L соответственно, то множества субъективных гарантирующих стратегий первого и второго агентов с точки зрения оппонента равны IL-1 и JK-1 соответственно. Значит, увеличение рангов рефлексии может приводить к расширению множества субъективных гарантирующих стратегий, если (27) L – 1 < Kmin, (28) K – 1 < Lmin.
Отметим, что с рассматриваемой точки зрения максимальный целесообразный ранг рефлексии23 первого агента зависит от свойств субъективных гарантирующих стратегий второго агента (см. (28)), и наоборот.
С другой стороны, агенту не имеет смысла увеличивать ранг своей рефлексии, если он уже «исчерпал» собственное множество возможных субъективных равновесных действий. С этой точки зрения увеличение рангов рефлексии может приводить к расширению множества субъективных гарантирующих стратегий, если (29) K < Kmin, (30) L < Lmin.
Объединяя (28) и (29), а также (27) и (30), получаем, что первому агенту не имеет смысла увеличивать свой ранг рефлексии выше (31) Kmax = min {Kmin, Lmin + 1}, а второму агенту не имеет смысла увеличивать свой ранг рефлексии выше (32) Lmax = min {Lmin, Kmin + 1}.
Обозначим (33) Rmax = max {Kmax, Lmax}.
Таким образом, доказана справедливость следующего утверждения.
Под максимальным целесообразным рангом рефлексии агента будем понимать такое его значение, что увеличение ранга рефлексии выше данного не приводит к появлению новых субъективных (с точки зрения данного агента) равновесий.
Утверждение 2. Использование агентами в биматричной игре рангов стратегической рефлексии выше, чем (31) и (32), не имеет смысла24.