Теория игр. Великий турнир

Модели поведения, которые мы рассматривали ренее, исходят из предположения, что агенты в коллективных сценариях отвечают на действия соседей определенным, в какой-то мере автоматическим образом: действие А вызывает ответ Б, или однозначно, или с некоторой вероятностью.

Но в данном случае выбор не так прост. Разумеется, есть люди абсолютно честные и есть люди абсолютно бесчестные. Но нормальные, обычные люди, составляющие большинство, находятся между этими крайностями. У такого человека при подобной находке непроизвольно возникает ряд мыслей: а кто узнает? А если бы я потерял кошелек? Как бы я себя чувствовал? После чего человек начинает оценивать свои возможные действия по некоему моральному кодексу, однако этот кодекс уже отравлен искушением.

Искушение, или соблазн, является одним из серьезнейших факторов, управляющих любым человеческим сообществом. Именно искушение превращает добрых, порядочных и деликатных людей в злобные, жестокие и грубые создания. Если мои соседи такие кроткие и законопослушные, то почему бы мне не присвоить часть их земли или имущества? В жестоком мире, придуманном Гоббсом, все люди ничтожны и несчастны одинаково. Однако попробуйте представить себе гоббсовского дикого человека в Эдеме, в мире всеобщего доверия и доброты. Ведь он наверняка, пользуясь полной безнаказанностью, впадет там в буйство, разгул, стяжательство и т. п. (разумеется, если он не верит в Бога). Соблазны играют очень важную роль в человеческом поведении, и это проблема всех утопий: не все люди совершенны, а преступление иногда окупается.

Ранее мы постоянно уподобляли людей частицам. Но как частица может впасть в искушение? В 1950-х годах Меррилу Флуду и Мелвину Дрешеру из «РЭНД Корпорэйшн» удалось в какой-то мере смоделировать это человеческое чувство. Придуманная ими простая математическая модель включала элемент соблазна во взаимодействие между агентами-частицами.

Модель представляла собой своеобразную игру, в которой применялись элементы математической теории игр, созданной Джоном фон Нейманом в 1920-х годах. Стоит упомянуть, что фон Нейман был одним из самых замечательных ученых прошлого века и внес огромный вклад в развитие самых разных областей науки. В частности, он создал теоретическую основу компьютерной техники и сыграл очень важную роль в создании атомной бомбы. Он пользовался репутацией гениального плейбоя, посвящая массу времени азартным играм, особенно покеру, но он не только играл в эти игры, он пытался понять их.

Для пущей сложности математики обычно принимаются анализировать шахматы. Но в определенном смысле покер представляет собой гораздо более сложную игру, потому что она включает в себя психологический элемент — блеф или обман. В шахматах ищут лучший ход в конкретной позиции, в покере — ход, который лучше сможет спровоцировать, дезориентировать или смутить оппонента. Элементы риска и неопределенности, присущие азартным играм этого типа, позволили фон Нейману уловить их связь с экономикой и написать в 1944 году (совместно с экономистом Оскаром Моргенштерном) книгу Теория игр и экономическое поведение.

Придуманная Флудом и Дрешером игра может быть отнесена к азартным. Она стала широко известной под названием «Дилемма заключенного» и действительно внедрила теорию игр в социологию, биологию и политологию. В игре участвуют два агента, которых ради удобства и удачной метафоры можно уподобить двум заключенным, подозреваемым в совершении какого-то преступления. Каждый из них предупрежден, что если он даст показания против второго заключенного, то первый получит свободу, а второй — строгий приговор. Если заключенные выступят с взаимными обвинениями, то оба получат одинаковое, но не очень строгое наказание, так как показания в таком случае считаются сомнительными. Если же они оба уклонятся от показаний, то оба получат совсем небольшой срок наказания ввиду недостаточности улик.

Естественно, что у каждого из заключенных возникает соблазн обвинить другого и выйти на свободу. Однако если оба заключенных поступят так, то каждый получит более суровое наказание, чем при обоюдном молчании. Следует ли заключенному отказываться от показаний, надеясь, что партнер сделает то же самое? При «рациональном» подходе следует давать показания, поскольку в любом случае это обеспечит лучший результат. Если заключенный 1 дает показания, а заключенный 2 отказывается от показаний, то заключенный 1 выходит на свободу — куда уж лучше. Если в этой ситуации заключенный 2 тоже дает показания, оба получают средний срок — всё лучше, чем полный. Собственно, никакой дилеммы нет — надо «стучать». Но ведь можно отделаться минимальным наказанием, которое лучше среднего, но для этого нужно как-то договориться с подельником. А можно ли ему доверять?

В самой простой формулировке «Дилемма заключенного» сводится к выбору между «честным сотрудничеством» и «обманом» в ситуации, когда договоренность о сотрудничестве имеется или предполагается. Максимальный выигрыш для одного заключенного связан с ситуацией, когда он выбирает обман и дает показания, а второй заключенный честно сотрудничает (разумеется, с подельником, а не с полицией). В этом случае заключенный 1 получает свободу, а заключенный 2 выглядит «лохом», получая суровый приговор. Но если агенты поступают рационально, то они не выбирают ни этот вариант, ни следующий, связанный с обоюдным честным сотрудничеством, а предпочитают обоюдный обман со средним приговором.

В рамках обычной жизни эта дилемма выглядит как выбор между законопослушным поведением (сотрудничеством с обществом) и преступлением (обманом закона и общества). Ее можно свести к утверждению, что следование общественным установлениям — хорошо, но их нарушение иногда сулит еще большие блага. Рассмотрением этой дилеммы занимались еще Руссо и Спиноза. В Эссе о происхождении неравенства Руссо даже придумывает на эту тему сценку из жизни первобытных людей, в которой пятеро дикарей отправляются на охоту за оленем, договорившись разделить добычу поровну. Во время охоты один из них бросается за зайцем и ловит того, но без его помощи четверо других упускают оленя. Руссо отмечает, что «нарушитель договоренности» получает в награду зайца, а все остальные — ничего.

На первый взгляд кажется, что «Дилемма заключенного» лишь подтверждает пессимизм Гоббса, считавшего, что эгоизм отдельных людей постоянно заставляет их выискивать возможности обмана. Однако математики из «РЭНД Корпорэйшн» пытались объяснить и предложить стратегам «холодной войны» нечто большее, чем иллюстрацию склонности человека к обману. Математики задумались об основах примитивной стратегии военного командования, когда обе стороны старательно создавали всё более мощные арсеналы разнообразного вооружения и пассивно готовились к тому, что противник может в любой момент нанести удар. Если вы — генерал, то в такой ситуации представляется очевидным, что вам следует быть умнее и постараться нанести упреждающий удар. Если же противник согласится на какое-то сотрудничество (например, на ограничение своих запусков и т. д.), то необходимо воспользоваться этим и обмануть его. Пусть он окажется «лохом», а вы — победителем. Такая атмосфера подозрительности и постоянного ожидания атаки не позволяла даже думать о построении гармонии и согласия в международных отношениях. Ситуация очень похожа на «Дилемму заключенного», но в этой модели есть еще одна, очень важная деталь.

Дело в том, что в описанной игре участники или, если угодно, заключенные не имеют возможности общаться друг с другом. Для общей пользы им лучше договориться о сотрудничестве, но отсутствие связи не позволяет им сообщать о своих намерениях, в результате чего каждый подозревает другого в самом худшем.

Однако если дать игрокам возможность сыграть в эту игру несколько раз подряд, то у них появляется своего рода информационный канал: они говорят о намерениях своим поведением. Например, если один из игроков проявляет готовность к сотрудничеству в одном туре, то другой может ответить ему тем же в следующем и т. д. Благодаря такому взаимодействию игроки, которые в первых турах безжалостно доносят друг на друга, могут прийти к лучшему общему результату5. У игроков нет моральных или иных стимулов к сотрудничеству, помимо единственного — собственных интересов, что и заставляет их искать наилучшую стратегию поведения.

Это означает, что тупиковая ситуация, когда игроки вынуждены обманывать друг друга в первом раунде игры, может быть разрешена в последующих раундах. Кстати, именно так ведут себя люди в обычных условиях, заключая сделки и улаживая бытовые вопросы. Общающимся соседям или деловым партнерам невыгодно обманывать друг друга, и они вынуждены поддерживать разумный уровень доверия между собой. То же можно сказать и о странах, имеющих общие границы, которые не могут избежать экономического, политического и социального взаимодействия.

Повторение игры (математики называют это итерацией) в «Дилемму заключенного» дает игрокам возможность учиться на собственных ошибках и строить отношения на основе взаимного доверия. Так может возникнуть сотрудничество.

А как играют в эту игру реальные люди? Психологи тщательно изучили этот вопрос с использованием контрольных тестов и установили, что сотрудничество между людьми действительно развивается, но его степень может изменяться в очень широких пределах, в зависимости от природы и величины выигрыша, характера игроков и особенностей их взаимодействия; например, психологически легче обмануть ожидания человека заочно, а не глядя ему в глаза при личной встрече.

Кроме того, не следует забывать об элементе соблазна. Выяснив, что партнер доверчив и легко вступает в сотрудничество, игрок вполне может соблазниться и «изобразить» случайную ошибку в отношениях, в результате которой его выигрыш значительно возрастает. Если партнер окажется забывчивым или необидчивым, то эту операцию можно будет затем повторять, разумеется, не слишком часто, чтобы не вызвать подозрений. К сожалению, именно так очень часто и происходит в реальных деловых и бытовых отношениях.

Именно с этим связана проблема, которой посвящена эта глава: какая стратегия является наилучшей при повторяющейся игре в «Дилемму заключенного»? Какой стратегии следует придерживаться, если вам ничего не известно о партнере?

В конце 1970-х годов Роберт Аксельрод придумал эксперимент, позволяющий ответить на эти вопросы. Он попросил известных специалистов в области теории игр выработать разные типы стратегий повторяющейся игры в «Дилемму заключенного», а затем собрал предложенные ими программы и провел между ними круговой турнир на компьютере. Программы сражались друг с другом в течение многих раундов, победитель определялся по максимальному числу очков, набранных во всех встречах. Турнир заинтересовал специалистов из разных областей науки — психологов, математиков, экономистов, социологов и политологов, представивших 14 программ-участниц. Каждая стратегия предусматривала собственные правила выбора между сотрудничеством и обманом. Например, программа может постоянно соглашаться на сотрудничество (это плохой вариант, потому что эту программу будут обманывать все остальные, за исключением таких же простаков — «безусловных кооператоров»). Или программа в целом ориентирована на сотрудничество, но периодически обманывает, например в каждом четвертом раунде.

Многие представленные на турнире программы были намного сложнее описанных выше, но победителем оказалась наиболее простая из них, разработанная психологом Анатолем Рапопортом из университета Торонто. Он назвал свою программу Tit for Tat (TFT), что соответствует русскому «зуб за зуб». Ее единственным правилом было следующее: начинай с сотрудничества, а далее делай то, что делал твой оппонент в предыдущем раунде.

Например, играя против безусловного кооператора, TFT сразу принимает его тактику, в результате чего игра заканчивается одинаково выгодно для обеих программ. В игре против безусловного обманщика TFT, конечно, проигрывает в первом раунде (проявив желание сотрудничать), но зато потом постоянно обманывает, так что проигрыш TFT в этой встрече остается небольшим — только очки, потерянные в первом раунде. При встречах с программами, применяющими смешанную стратегию сотрудничества и обмана, TFT отвечает в соответствии с поведением партнера в предыдущем раунде. Таким образом, можно сказать, что TFT пользуется плодами сотрудничества, когда это возможно, но не позволяет обманывать себя. С другой стороны, TFT сама не обманывает чужих ожиданий, в результате чего, кстати, она никогда не получает очков больше, чем ее противник. У всех остальных программ были свои достоинства и недостатки, так что некоторые из них очень удачно выступали против преимущественных кооператоров или, наоборот, против преимущественных обманщиков, но именно TFT в целом набрала максимальное число очков, выступая одинаково ровно против всех остальных стратегий. Можно сказать, что это была скромная и даже простодушная победа.

Первый компьютерный турнир оказался очень успешным и получил широкую известность, поэтому когда Аксельрод организовал второй турнир по тем же правилам, в нём приняли участие уже 62 программы из 6 стран. Более того, в отличие от первого турнира, где участвовали профессиональные ученые, во втором турнире смогли соревноваться и программы, составленные любителями компьютерных игр, включая десятилетнего мальчика. Все они знали о результатах первого турнира, поэтому неудивительно, что многие из них пытались модифицировать и улучшить программу TFT, сделав ее более сложной и эффективной. Этому искушению не поддался только сам автор программы, Рапопорт выставил на турнир ту же программу, и она вновь стала победительницей!

Означает ли это, что TFT действительно представляет собой наилучшую стратегию при повторяющейся игре в «Дилемму заключенного»? Мне кажется, что говорить о наилучшей стратегии в этом случае вообще неверно, так как результат в значительной степени зависит от состава участников. Если ваши противники в большинстве своем являются безусловными кооператорами, то преимущественный или безусловный обман принесет лучший результат, чем стратегия TFT. Но основной вывод из проведенных Аксельродом компьютерных турниров всё же гласит, что при игре с неизвестными противниками стратегия TFT является лучшей.

В чем заключается основная особенность TFT? Прежде всего стоит отметить ее гибкость: она открыта к сотрудничеству, но не позволяет беззастенчиво обманывать себя. Удачное сотрудничество с другим игроком сразу вызывает у TFT стремление продолжать сотрудничество в следующих турах, а обман вызывает немедленную ответную реакцию. Программа TFT всегда поступает с другими так, как они поступают с ней самой. Отметим, что такое поведение соответствует Ветхому Завету, а не Новому, где в ответ на удар рекомендуется подставить другую щеку.

Именно простота и ясность поведения стали причиной успеха TFT. Стратегия одной из программ — участниц второго турнира заключалась в разгадке правил, которые управляют поведением противника, и их использования в игре6. Такое угадывание чужого поведения весьма распространено и в реальной жизни, так как люди очень часто пользуются известной им реакцией своих друзей и врагов на определенные события и поступки. Разница между человеком и компьютерной программой состоит в том, что люди часто пытаются предварительно выяснить чужую реакцию или действуют наудачу, в то время как TFT простодушно поощряет задним числом любое сотрудничество и наказывает за обман.

Успех TFT может быть связан еще с одной особенностью — эта программа никогда первой не отказывается от сотрудничества. Стратегии всех остальных программ турнира разделились именно по этому принципу на две большие группы в зависимости от того, как их авторы решают основную проблему: следует ли первым отказываться от сотрудничества или нет? Участники даже стали называть стратегии, которые не отказываются от сотрудничества первыми, термином приятные (для другой группы программ название не выработалось, но по логике вещей их следовало бы назвать противными). Аксельрод считает, что приятные программы практически всегда лучше противных, и действительно, уже на первом турнире им достались первые восемь мест, последующие с большим разрывом в набранных очках заняли противные.

Антропология Теория Игра Великий Турнир