De la complexité aux paradoxes


La théorie des jeux est une source intarissable de situations où des règles simples produisent une surprenante complexité. Nous croyons comprendre un jeu, nous agissons en conformité avec ce que nous imaginons être du bon sens, puis nous nous rendons compte que ce n'est pas aussi simple qu'on le pensait. Parfois, nous en arrivons à la conclusion que, ce qui paraissait aller de soi, est en réalité totalement faux : la subtile logique du jeu résiste à l'intelligence.

Nous allons décrire un jeu particulièrement simple —très prisé des théoriciens—, au sein duquel quatre paradoxes vont surgir qui en illustrent la complexité cachée. Nous tenterons alors (a) de formuler des explications aussi élémentaires que possible pour repérer les idées faussement évidentes auxquelles il faut renoncer ; et (b) de formuler quelques éléments pour une analyse rationnelle du jeu qui tente de bien tout remettre en ordre.

Voici donc l'histoire du dilemme du prisonnier.

Surpris devant une banque, des armes dans les poches, vous avez été arrêtés avec votre compère. Le juge souhaite vous faire avouer que vous étiez sur le point de mener une attaque de la banque. Il ne dispose d'aucune preuve. Il vous dit :

- Si aucun de vous n'avoue, vous irez deux ans en prison chacun, pour le délit de port illégal d'arme.

- Si vous avouez tous les deux, vous irez en prison quatre ans chacun.

- Si l'un avoue et pas l'autre, celui qui aura avoué sera libéré, et l'autre sera condamné à cinq ans de prison.

Vous ne pouvez pas communiquer avec votre compère, vous devez vous décider maintenant. Que faites-vous ?

Deux raisonnements conduisent à deux conclusions différentes.

Raisonnement 1. Notre intérêt est évident. Nous ne devons pas avouer. Si aucun de nous n'avoue [cas 1] nous ne ferons que 4 années de prison (2 ans chacun) alors qui si nous avouons tous les deux [cas 2] nous écoperons de 4 ans chacun, donc de 8 ans au total. Dans le cas où l'un avoue et pas l'autre [cas 3], nous serons condamnés au total à 5 ans de prison que devra faire celui qui n'a pas avoué. Entre 4, 8 et 5 années de prison, il n'y a pas d'hésitation à avoir. Donc, je n'avoue pas.

Raisonnement 2. Considérons les possibilités qui s'offrent à mon compère. Ou bien il avoue, alors mon intérêt est d'avouer pour n'aller que 4 ans en prison, au lieu de 5 (si je n'avoue pas). Ou, bien, il n'avoue pas, et alors mon intérêt est d'avouer pour être libéré au lieu de faire 2 ans de prison. Quelle que soit la décision prise par mon compère, ne pas avouer augmente la durée de mon séjour en prison : il n'y a pas le moindre doute, je dois avouer.

Comment résoudre ce paradoxe fondamental du dilemme du prisonnier ?

Coopérer ou trahir ?

Une tentative de solution est proposée plus bas, mais avant d'y arriver poursuivons notre examen du dilemme en le rendant plus précis. La situation du dilemme est souvent modélisée en comptant les années de liberté gagnées par rapport au pire des cas (5 ans de prison). L'aveu est alors noté t (comme trahir, car en avouant on trahit son compère), et le silence est noté c (comme coopération, car en se taisant on maintient l'association constituée avec son compère). Les trois cas sont alors les suivants.

• Cas 1 : [c, c] qui donne 3 et 3 (années de prison évitées par rapport au 5 ans de prison du pire cas).

• Cas 2 : [t, t] qui donne 1 et 1.

• Cas 3 : [t, c] qui donne 5 et 0.

Il est admis que ce jeu modélise de manière approchée de nombreuses situations concrètes, dont :

- la concurrence économique entre deux entreprises : c = accord sur les prix ; t = tentative de conquérir plus de parts de marché en baissant unilatéralement les prix de ses produits.

- la lutte entre deux espèces animales pour l'accès à une ressource en nourriture : c attitude pacifique et de partage ; t = attitude agressive pour s'emparer de toute la ressource.

Dans ces situations, il est intéressant d'imaginer que le choix entre c et t pour chaque joueur se présente plusieurs fois successivement (ce qui n'est le cas pour les prisonniers de l'histoire !), par exemple régulièrement une fois chaque jour.

On parle alors de dilemme itéré du prisonnier. Un joueur lorsqu'il choisit entre c et t connaît le passé de la confrontation. Il sait par exemple que le premier jour, son adversaire a joué c en même temps que lui, puis qu'il a toujours joué t alors que lui jouait c. Pour un joueur, une stratégie consiste donc à choisir un comportement prenant en compte cette information disponible sur le passé de la rencontre.

Des stratégies de jeu et trois autres paradoxes

Voici quelques exemples de stratégies envisageables.

- Stratégie Gentille, G : chaque jour sans tenir compte de ce qu'a fait mon adversaire, je joue c.

- Stratégie Méchante, M : chaque jour sans tenir compte de ce qu'a fait mon adversaire, je joue t.

- Stratégie Hésitante, H : je joue alternativement t, c, t, c, t, c, etc.

- Stratégie Rancunière, R : le premier jour, je choisis c et je continue à jouer c tant que l'autre n'a pas joué t ; si cela se produit, je joue alors t sans plus jamais revenir à c.

- Stratégie Donnant-donnant, D : le premier jour, je joue c, et par la suite, je joue le jour n ce que mon adversaire a joué le jour n-1.

- Stratégie, Prudente P : le premier jour je joue t, et par la suite, je joue le jour n ce que mon adversaire a joué le jour n-1.

À ce jeu, si vous comparez les réussites moyennes de plusieurs stratégies prises dans un ensemble fixé (par exemple celui des six stratégies G, M, H, R, D, P décrites ici) la stratégie Donnant-donnant gagne assez souvent et en tout cas fait un bon score moyen. Robert Axelrod, l'inventeur de la version itérée du dilemme, a organisé deux concours avec des collègues qui lui proposaient librement des stratégies : dans chacun des deux cas, la stratégie Donnant-donnant a gagné. Depuis, ses résultats ont été confirmés et affinés ; en particulier des stratégies plus complexes et obtenant de meilleurs résultats que Donnant-donnant ont été proposées.

Un triple paradoxe apparaît cependant à l'examen des résultats obtenus.

Paradoxe du gagnant qui perd - Une certaine stratégie S1 obtient un meilleur score que son adversaire, quel que soit l'adversaire qu'elle rencontre et pourtant S1 arrive très mal classée quand on examine les gains cumulés (en faisant jouer chaque stratégie contre toutes les autres).

Paradoxe du perdant qui gagne - Une stratégie S2 obtient un score inférieur ou égal à celui de son adversaire, quel que soit celui-ci. Pourtant S2 se classe très bien quand on considère les gains cumulés.

Paradoxe de la domination cyclique - Bien qu'aucun aléa et aucune psychologie ne fassent varier les choix des stratégies — elles ont des comportements purement mécaniques —, il existe trois stratégies A, B, C telles que A bat B qui bat C qui bat A.

Ces trois paradoxes sont la manifestation d'une complexité profonde du jeu dont pourtant les règles sont d'une diabolique simplicité. Même si personne ne prétend aujourd'hui maîtriser parfaitement ce jeu, il est possible de mettre un peu d'ordre et d'éclaircir les quatre paradoxes mentionnés.

Intérêt collectif et particulier

Commençons par le paradoxe fondamental du dilemme du prisonnier. Il provient de l'identification faite sans réfléchir entre intérêt collectif et intérêt individuel. L'intérêt collectif des deux individus arrêtés est effectivement qu'aucun n'avoue (raisonnement 1) ce qui correspond au coup c qu'ils doivent jouer simultanément. Il est tout aussi vrai que, pris individuellement et dans l'impossibilité de convenir d'un accord avec leur compère (avec d'éventuels dédommagements ou représailles en cas de rupture de l'accord), il est impossible de ne pas suivre le raisonnement 2 qui conduit à avouer au juge (coup t).

Si on admet que le but de chaque individu est uniquement de maximiser son gain, c'est-à-dire d'aller le moins longtemps possible en prison, et si on admet que son propre comportement n'a pas d'influence sur celui de l'autre (ce qui résulte des règles), alors la rationalité pure donne immanquablement la priorité au raisonnement 2 qui commande un coup t. Elle amène donc les deux joueurs à la situation collectivement la pire : 8 ans de prison !

Pourtant lors d'expériences menées par des psychologues avec des sujets humains et des enjeux réels en argent, on constate que 40% environ des sujets mis dans la situation du dilemme du prisonnier coopèrent, c'est-à-dire suivent le raisonnement 1, considérant sans doute que l'intérêt collectif est de ne pas avouer et acceptant de s'y plier. Ces 40% prennent le risque de se faire exploiter par leur compère qui, s'il les trahit (c'est-à-dire avoue au juge), les envoie en prison pour 5 ans et retrouve, lui, sa liberté !

La question posée par ce paradoxe est celle très générale de l'opposition entre défense de l'intérêt individuel et prise en compte de l'intérêt collectif. Il s'agit d'une question morale tout à fait semblable à celle que vous rencontrez quand vous vous demandez si vous devez laisser votre sac-poubelle de pique-nique par terre dans cette forêt où vous ne reviendrez jamais. Même si cela semble désolant, la rationalité pure de celui qui ne considère que son intérêt individuel est du côté du raisonnement 2 : elle commande de trahir... et de laisser son sac-poubelle dans la forêt. Le psychologue Amos Tversky a invoqué le recours à une pensée quasi-magique chez ceux qui dans le jeu du dilemme du prisonnier coopèrent en tentant de justifier leur attitude. En effet, l'argument que cela incite l'autre joueur à faire de même n'est pas vrai d'après les règles du jeu : l'autre joueur ne sait pas ce que choisit son compère. L'argument qu'en coopérant on augmente la probabilité que l'autre coopère n'est pas meilleur. L'idée exprimée par la question : « comment puis-je espérer qu'il coopère, si moi-même je ne le fais pas », est tout aussi indéfendable et absurde puisque aucune influence causale entre la décision d'un joueur et celle de l'autre ne peut sérieusement être avancée.

La question de savoir pourquoi 40% des joueurs ne choisissent pas la solution rationnelle est en définitive mal résolue. Est-ce simplement que le raisonnement logique n'est pas compris et que ne le percevant pas, 40% des joueurs jouent mal par bêtise ? Ou est-ce que cela provient d'un sens (inné ou appris) du collectif qui agirait en nous, nous faisant préférer le choix d'une solidarité risquée à celui de notre intérêt égoïste ?

Les trois autres paradoxes.

Pour les résoudre, nous allons mener des calculs précis en considérant les six stratégies évoquées dans le texte. Nous examinons le résultat des confrontations deux à deux en faisant l'hypothèse que chaque stratégie joue avec chaque autre durant une période de 10 coups.

Pour calculer par exemple ce qui se passe quand Donnant-donnant rencontre Prudente, on regarde ce que produit leur confrontation. Au premier coup, Donnant-donnant joue c, alors que Prudente joue t. Au second coup, l'application des définitions conduit au schéma inverse t et c, qui amène à nouveau c et t au troisième coup, et cela change à chaque fois donnant donc les dix parties suivantes :

[c, t], [t, c], [c, t], [t, c], [c, t], [t, c], [c, t], [t, c], [c, t], [t, c]

Le décompte des points donne 5x5 + 5x0 = 25 à chacune.

En suivant le même principe de calcul, on arrive au tableau de toutes les confrontations possibles :

 

G M H R D total classement
G 30 0 15 30 30 27 132 troisième
M 50 10 30 14 14 10 128 quatrième
H 40 5 20 9 25 21 120 cinquième
R 30 9 29 30 30 9 137 deuxième
D 30 9 25 30 30 25 149 première
P 32 10 26 14 25 10 117 sixième

 

Le classement des scores totaux quand on imagine que chaque stratégie joue une partie avec chaque autre est D, R, G, M, H, P. Le classement des gains moyens est bien évidemment le même (on divise chaque total par 6).

On voit sur le tableau que la stratégie Méchante ne fait jamais moins que son adversaire lors d'une confrontation. Cette propriété reste vraie quelles que soient les stratégies et la durée des parties. C'est lié au fait que rationnellement quand le dilemme n'est pas itéré, il faut jouer t. Pourtant, le total de Méchante est 128 ce qui est faible et place Méchante en quatrième position sur 6. D'autres expériences faites avec des panels plus importants de stratégies confirment ce résultat :

  bien que ne perdant jamais aucune confrontation Méchante joue mal !

Notons aussi que Gentille, qui n'est pourtant pas très subtile, obtient un score total (et donc moyen) meilleur de Méchante. L'agressivité dans ce jeu est dangereuse comme le confirment les positions relatives de Donnant-donnant (première) et de Prudente (dernière) qui adoptent la même règle de comportement sauf au premier coup d'une partie.

La stratégie S1 du paradoxe du paradoxe du gagnant qui perd est donc la stratégie Méchante, et l'explication du paradoxe est qu'il ne faut pas confondre «battre chacun de ses adversaires» avec «amasser beaucoup de points». Ce sont deux objectifs différents et ici, même si c'est étonnant, ils sont totalement opposés : vouloir gagner chaque partie conduit à adopter une attitude agressive qui empêche de gagner des points. Ce résultat est confirmé par le fait que S2 est la stratégie Donnant-donnant.

La stratégie Donnant-donnant gagne la compétition entre les six stratégies. Ce n'est plus nécessairement le cas quand on augmente la taille du panel, mais Donnant-donnant reste toujours bien classée. Sur le tableau, pourtant, on constate qu'elle ne gagne contre aucune autre stratégie ! On montre que lors une rencontre à deux, quelle que soit la stratégie opposée à Donnant-donnant et quelle que soit la durée de la rencontre, Donnant-donnant obtiendra le même nombre de points que son adversaire, ou alors 5 points en moins. Jamais Donnant-donnant ne bat personne ! Et pourtant, elle gagne en points cumulés (et donc en moyenne) !

Ces paradoxes apparents cessent de l'être quand on comprend que pour gagner en moyenne, il faut non pas battre chaque adversaire, mais réussir à coopérer avec lui, ce que Donnant-donnant fait (mieux même que Rancunière qui perd à cause de sa rencontre avec Prudente). Prudente d'ailleurs l'est trop, et son refus de coopérer au premier coup lui coûte très cher.

Les paradoxes du gagnant qui perd et du perdant qui gagne proviennent d'une confusion (faite parfois dans la vie par certaines personnes !) entre  (a) avoir toujours raison en battant tout le monde, et (b) bien réussir en suscitant la coopération et en nouant des relations positives avec ceux qui acceptent une coopération réciproque, même si pour cela on risque parfois d'y perdre. Ce n'est sans doute guère étonnant pour qui fait preuve de bon sens. Ce qui est nouveau et difficile à admettre ici, c'est qu'on peut ne jamais battre personne et être gagnant quand même !

Le dernier paradoxe (paradoxe de la domination cyclique) est classique : les confrontations deux à deux dans un jeu — même parfaitement déterministe — ne conduisent pas nécessairement à une relation d'ordre total (où l'un des joueurs bat tout le monde, puis un second est plus fort que tous les autres sauf le premier, etc.).

Même si à chaque fois on s'en étonne, il peut se produire des cycles : J(1) bat J(2), J(2) bat J(3), ..., J(n-1) bat J(n) et pourtant J(n) bat J(1).

Contrairement à ce qu'il est tentant de penser, quand de telles situations se produisent (aux échecs, au football ou à d'autres jeux), l'explication profonde n'est pas psychologique, ou liée à des variations de forme des concurrents. Les situations de domination cyclique peuvent résulter de la nature du jeu et des stratégies en concurrence : le fait d'utiliser une certaine méthode de jeu rend fort contre une catégorie de joueurs, mais constitue parfois un point faible contre une autre, qui elle-même peut être dans une situation analogue, ce qui au total produit un cycle : A bat B qui bat C qui bat A.

Le dilemme itéré du prisonnier fournit de magnifiques exemples de cycles dans un cadre où psychologie et hasard n'interviennent pas du tout.

Les six stratégies évoquées ne permettent pas de construire un tel cycle mais en voici trois qui conviennent :

A : je joue périodiquement t, t, c, t, t, c, t, t, c, ...

B : je joue périodiquement c, c, t, c, c, t, c, c, t, ...

C : je joue c au premier coup, puis je joue ce que l'autre joueur a joué en majorité dans les coups précédents.

Si vous organisez des confrontations, par exemple d'une durée de 10 coups, vous constaterez que :

- A bat B car A exploite B qui coopère trop souvent lors de leur rencontre ;

- B bat C car cette fois C coopère trop souvent quand il joue avec B ;

- et C bat A, car maintenant A coopère trop face à C qui, sauf au premier coup, ne coopère plus du tout et exploite A.

 

Références :

Le texte de ce blog est une adaptation du chapitre 37 du livre suivant :

• Jean-Paul Delahaye, Au pays des paradoxes, Belin/Pour la science, 2008 :  ici

De nombreux autres documents sont disponibles sur ce jeu. En voici quelques-uns.

• William Poundstone, Le dilemme du prisonnier, Editions Cassini, 2003.

• Robert Axelrod, The Evolution of Cooperation, New York : Basic Books, 1984. Traduction française : Comment réussir dans un monde d'égoïstes : Théorie du comportement coopératif, Editions Odile Jacob, Paris, 2006.

• Equipe de recherche SMAC du Laboratoire d'Informatique Fondamentale de Lille (CNRS) Le dilemme des prisonniers. Explications, logiciels et documents divers : ici

• Steven Kuhn, Prisonner's Dilemma, Stanford Encyclopedia of Philosophy, 2007 :  Ici

Pour des informations sur les travaux récents menés sur le dilemme itéré des prisonniers voir :

• Jean-Paul Delahaye, Le dilemme des prisonniers et l'illusion de l'extorsion, Pour la science, janviers 2014, pp. 78-83


2 commentaires pour “De la complexité aux paradoxes”

  1. Bertrand Pidancet Répondre | Permalink

    Si l'on suppose "raisonnablement" que, s'il y a une bonne attitude à adopter, elle est identique (symétrie oblige) pour les deux acteurs du dilemme, cette attitude coïncide alors avec la stratégie "coopérer".
    Nul besoin d'invoquer la magie ou la morale pour justifier le choix de la coopération (et encore moins en cas d'itération).
    Un constat s'impose avec cette "rationalité", intérêt individuel et collectif se confondent.
    Il serait temps que les politiques, philosophes et autres penseurs lisent Axelrod.

    Coopérativement.

    • Jean-Paul Delahaye Répondre | Permalink

      Si à chaque fois qu'un problème se pose on devait éliminer les configurations asysmétriques (sous prétexte qu'elles ne sont pas logiques !) cela simplifierait bien des choses... mais cela ferait manquer bien solutions intéressantes et parfois incontestablement les meilleures.

      - Quand une route croise une voie de chemin de fer, il faut bien casser la symétrie du problème et choisir de faire passer l'une au-dessus et l'autre en dessous.
      - Malgré les avantages de la symétrie pour les corps humains (et plus généralement pour presque tous les êtres vivants) nous avons le cœur à droite et pas au milieu.
      - Même quand il s'agit de jeux, la rupture de symétrie est commune : si Alain et Jacques arrivent devant une porte ne laissant passer qu'une personne à la fois et qu'elle permet un trajet plus court que la large porte plus loin, ils peuvent tous les deux renoncer à passer par la petite porte et empruter la large porte (solution symétrique), ou alors casser la symétrie en s'accordant pour que l'un passe par la petite porte en premier, et que l'autre attende ou fasse le détour.
      - etc.
      Il n'y a pas de "symétrie oblige".

Publier un commentaire