Batman The Dark Knight, altruisme et théorie des jeux (1/2)

Depuis sa sortie au cinéma, on me répète que le dernier Batman est un excellent film et que, qui plus est, il contient une scène particulièrement intéressante pour qui pratique un peu de théorie des jeux. Moins en fait qu’un autre film dont nous parlerons bientôt, mais oui, un peu quand même.

Racontons pour qui ne l’aurait pas vue en quoi consiste cette fameuse scène. Le Joker fait peser une lourde menace sur Gotham City, qui incite les habitants à tenter de quitter la ville. Deux importants ferries, transportant l’un des citoyens « normaux », l’autre des prisonniers issus de la pègre locale, sont affrétés et quittent le port en même temps. Détail important, les deux ferries sont contrôlés par la police et remplis de policiers qui dirigent les opérations. A 23h, les passagers des deux navires apprennent qu’il y a une bombe à bord de chaque bateau. Ils reçoivent de plus un détonateur, qui permet de déclencher l’explosion de l’autre navire. Si les passagers d’un navire actionnent le détonateur et font exploser l’autre ferry, ils auront la vie sauve. Si les occupants de l’autre bateau actionnent le détonateur ils meurent, et enfin si à minuit aucun des deux bateaux n’a explosé, les deux exploseront.

Supposons pour l’instant que chaque bateau ne soit occupé que par un seul passager rationnel, pour éviter tout problème de décision entre les passagers d’un même bateau. Appelons A le passager du premier bateau, B celui du second. Supposons pour le moment que chacun ne s’occupe que de sa propre survie et attribue ainsi une valeur vH au fait de rester en vie, 0 au fait de mourir.

Supposons encore, pour simplifier, que les agents prennent leurs décisions indépendamment l’un de l’autre à chaque seconde : si un seul appuie sur le détonateur, il reste en vie et l’autre meurt. Si tous deux appuient, alors un des deux signaux arrive une fraction de seconde avant l’autre, si bien qu’avec une chance sur deux A survit et B meurt, et avec une chance sur deux l’inverse se produit.

Procédons par récurrence à rebours. Une seconde avant minuit, A sait qu’il meurt s’il ne fait pas sauter l’autre bateau, et peut rester en vie sinon. Il a donc intérêt à faire sauter B. A la seconde précédente, B sait que s’il ne fait rien A fera exploser son navire une seconde avant minuit. Il choisit donc d’actionner le détonateur. A la seconde précédente, A sait donc que B choisira de le faire sauter s’il ne fait rien et choisit à son tour d’actionner le détonateur. En continuant ainsi on remonte au tout début du jeu : chaque joueur actionne le détonateur dès la première seconde, sachant que, s’il ne le fait pas, l’autre le fera aussitôt que possible (parce que lui-même craint que l’autre le fasse etc.).

Notons qu’avec ces règles du jeu l’issue est optimale : il est impossible de faire en sorte que A et B survivent, mais au moins l’un des deux survit en faisant sauter l’autre, et on évite la pire issue, qui est celle où les deux meurent.

Or il s’avère que dans le film aucun des passagers d’aucun des deux bateaux n’arrive à prendre la décision de faire sauter le bateau d’en face, si bien qu’à minuit tous les deux sont encore sur l’eau, ce qui est heureux car Batman a entre temps réussi à neutraliser le Joker (ouf). Comment réconcilier cette expérience (quelque peu artificielle, certes) avec les prédictions apparemment fortes de la théorie ?

Batman

Notons d’abord qu’introduire la possibilité que Batman arrive à la rescousse, voire que le Joker bluffe, est insuffisante en elle-même pour garantir ce résultat. Supposons en effet que tous les passagers sachent qu’avec une probabilité 1 ils sont sauvés s’ils arrivent à tenir jusqu’à minuit. Il existe alors un équilibre de Nash coopératif où personne n’appuie sur le bouton en sachant que s’il fait ça l’autre n’a non plus aucun intérêt à le faire.

Le problème est qu’aucun des joueurs ne perd quoi que ce soit à appuyer quand même, si bien que cet équilibre n’est pas « trembling-hand perfect » : supposons qu’à chaque seconde un joueur qui a choisi de ne pas appuyer a une très faible probabilité e d’appuyer quand même, sous le coup du stress. A chaque période si A appuie sur le détonateur il a 1 avec une probabilité 1, et s’il n’appuie pas il devrait avoir 1, sauf si B « tremble », ce qui arrive avec une probabilité faible mais non nulle. Pire encore, vu de la première période la probabilité que B ne tremble jamais pendant une heure (soit 3600 secondes, tout de même) peut devenir assez faible (en fait, même si la probabilité d’avoir la main qui dérape n’est que de 0,05%, la probabilité que B arrive à contrôler sa main pendant l’heure entière n’est que de 16,5%). Aussi petit que soit e, tant qu’il est non nul, A a donc toujours strictement intérêt à actionner le détonateur. Ainsi l’introduction de « tremblements » suffit à éliminer notre équilibre coopératif, et seul subsiste à nouveau l’équilibre dans lequel chacun essaie de faire sauter l’autre dès qu’il peut.

« Altruisme »

Un nouvel ingrédient est donc absolument nécessaire pour que A et B ne profitent pas de la première occasion pour déclencher l’explosion : il faut qu’ils préfèrent survivre à mourir, mais qu’ils préfèrent encore survivre sans avoir à tuer l’autre.

On peut par exemple supposer que A est altruiste et se soucie pour partie du bonheur de B. Contrairement à une idée répandue, cette hypothèse n’est pas choquante pour un microéconomiste même parfaitement orthodoxe ; dans certains modèles les agents font même preuve de sentiments d’un grand raffinement et d’une rare délicatesse, comme dans le problème relativement connu(1) du bourreau qui cherche à exécuter le condamné un jour où celui-ci ne s’y attend pas (c’est hélas impossible).

On peut également supposer que les survivants seront mal vus par la suite s’ils ont osé exécuter les passagers de l’autre bateau, voire qu’ils seront d’autant plus mal vus qu’ils auront déclenché l’explosion tôt, auquel cas le motif est in fine beaucoup plus égoïste.

On suppose donc que chaque agent gagne 0 s’il meurt, vL s’il survit et que l’autre meurt, vH s’ils survivent tous les deux, avec vH > vL. La différence entre vH et vL peut être vue comme le poids de l’altruisme ou de la pression sociale qui s’exerce sur les agents.

Il faut en outre supposer qu’il est possible que les deux survivent, c’est-à-dire que le jeu n’est pas exactement celui annoncé par le Joker (le problème de savoir si les joueurs pensent bien jouer au même jeu et savent tous deux que l’autre connaît bien les règles peut être déterminant pour le résultat) : supposons par exemple qu’à chaque seconde il y a une probabilité p que Batman arrive à arrêter le Joker, et que les passagers des deux navires en soient aussitôt informés si cela se produit.

La solution optimale est alors différente : A et B doivent attendre jusqu’à la dernière seconde et, si le Joker n’a toujours pas été arrêté, l’un des deux doit faire sauter l’autre si la probabilité que Batman sauve les passagers exactement à la dernière seconde est suffisamment faible, ou les deux doivent espérer que Batman sauve tout le monde à la dernière seconde. Les joueurs peuvent-ils arriver à une telle solution ?

La réponse n’est positive que dans le cas où p*vH > vL, c’est-à-dire que même à la dernière période il est préférable d’espérer que Batman batte le Joker à la dernière seconde plutôt que de faire sauter l’autre navire. Auquel cas les deux savent que l’autre préfèrera toujours attendre, et choisit donc d’attendre toujours aussi. Si cette condition ne tient pas, là encore la seule possibilité est que les deux tentent de déclencher le détonateur le plus tôt possible.

« Morale » et « irrationalité »

Un troisième ingrédient est donc nécessaire : une incertitude sur la rationalité ou les préférences de l’autre joueur. Supposons par exemple que chaque joueur pense qu’avec une probabilité h l’autre joueur est « moral », par exemple attribue en fait une valeur de 0 à vL, ou « irrationnel », et que dans les deux cas il n’actionnera jamais le détonateur.

Supposons que les joueurs jouent la stratégie suivante, qui dans le cas le plus intéressant est optimale : ne jamais actionner l’interrupteur, sauf à la dernière seconde si c’est encore possible et que Batman n’a toujours pas maîtrisé le Joker.

A la dernière période, si A actionne le détonateur et que B est irrationnel il gagne vL avec certitude ; si B est rationnel et actionne l’interrupteur aussi, A n’a qu’une chance sur 2 de survivre. Son espérance d’utilité en faisant sauter B est donc
(1-h)(0.5 vL) + h vL = 0.5 (1+h) vL

En ne faisant pas sauter B, A ne survit que dans le cas où Batman intervient à temps ET où l’autre est irrationnel (sans quoi B le fait sauter)), il gagne donc en moyenne h*p*vH.

Notons que dans le cas où les deux joueurs sont rationnels et où 0.5 (1+h) vL < h p vH, on a un équilibre inefficace où les deux n’actionnent pas l’interrupteur à la dernière période, et prennent le risque (trop élevé) de mourir tous les deux. Nous supposons dorénavant vérifiée la condition inverse 0.5 (1+h) vL > h p vH.

A l’avant-dernière période, si A choisit de dévier de sa stratégie d’équilibre et de faire sauter B, il obtient vL à tous les coups. S’il s’en abstient, étant donné qu’à l’équilibre B ne le fera pas sauter à cette période, avec une probabilité p Batman les sauve dès cette période, et avec une probabilité 1-p il survit jusqu’à la dernière période où il gagnera 0.5 (1+h) vL . Son paiement moyen s’il s’abstient d’actionner le détonateur est donc
p vH + (1-p) 0.5 (1+h) vL

quantité qui doit être plus importante que vL pour inciter A à ne pas actionner le détonateur à l’avant dernière seconde, ce qui nous donne la condition
p vH + (1-p) 0.5 (1+h) vH > vL

qui est moins forte que la condition p vH > vL, l’introduction d’un possible comportement irrationnel facilite donc la coopération dans des cas où auparavant les agents ne pouvaient pas coopérer.

Enfin, le paiement espéré de A s’il choisit de suivre sa stratégie d’équilibre s’écrit, vu de n périodes avant la dernière
p vH (1+(1-p)+(1-p)^2…+(1-p)^(n-1))+(1-p)^n 0.5 (1+h) vL

qui est toujours plus grand que vL si la condition est remplie pour l’avant-dernière période.

Cette condition a plus de chances d’être remplie, et donc l’équilibre coopératif d’être obtenu, lorsque la probabilité d’irrationalité h est élevée et lorsque Batman est plus performant, en revanche le rôle de vL peut être ambigu : lorsqu’il est plus élevé il y a plus à gagner à actionner le détonateur aujourd’hui, mais aussi moins à perdre à l’actionner dans la dernière période.

(1) Note d’Emmeline : ce « relativement connu » est à peu près du même acabit que le « grand public » intéressé par la publication de la thèse par ailleurs tout à fait fascinante du parrain de mon petit frère, Eamon O’Ciaosain, qui porte sur les migrants irlandais à Paris au XVIIe siècle.

Licence Creative Commons – Auteur:Jean-Edоuard Cоlliard

Be the first to comment

Leave a Reply

Votre adresse de messagerie ne sera pas publiée.


*