Spelteori: Fångens Dilemma (game theory: prisoner's dilemma)


Fångens Dilemma / Prisoner’s Dilemma (PD) formuleras först av Merill Flood och Melvin Dreshner 1950. Albert W. Tucker formaliserade spelet med belöningar (längre, kortare eller inget fängelsestraff) och gav spelet namnet ”Fångens dilemma”, på engelska Prisoner’s Dilemma (PD).
I sin klassiska form, presenterades PD (Fångens dilemma) på följande sätt:
Två misstänkta brottslingar arresteras av polisen. Polisen har otillräckligt med bevis. Polismännen isolerar de två misstänkta och besöker båda för att ge de samma avtal. Om en av dem går med på att vittna mot den andre och den andre håller tyst, går svikaren fri och den tysta medbrottslingen får ett 10 års långt fängelsestraff. Om båda håller tyst, kommer båda brottslingarna att tjäna ett fängelsestraff på endast 6 månader. Om båda sviker varandra, kommer var och en av de att få ett fängelsestraff på 5 år. Varje fånge måste nu välja mellan att svika medbrottslingen eller att hålla tyst. Var och en av brottslingarna får veta att de inte kommer att veta sanningen förrän slutet på utredningen. Hur bör fångarna agera?
Om vi antar att varje spelare föredrar ett lägre fängelsestraff, och att ingen av de har någon nytta av att förkorta medbrottslingens straff, samt att svikandet inte har några anseendeeffekter, formar PD vad som kallas ett noll-summa spel i vilket var och en av de två spelarna antigen måste samarbeta eller svika den andre spelaren. I det här spelet, precis som i all spelteori, är varje spelares mål att maximera sin egen belöning, utan att bry sig om hur det går för den andre. Den unika jämvikten av det här spelet är en sk. Pareto-suboptimal lösning – dvs att rationella val leder till att de två spelarna sviker även om varje spelares enskilda belöning hade varit större om båda hade samarbetat.
I dess klassiska form domineras samarbetet helt och hållet av svek. Den enda möjliga jämvikten för spelet är att alla spelare sviker. Oavsett vad den andre spelaren gör, kommer en spelare alltid att ha mer att vinna på genom att svika. Eftersom man i vilken situation som helst får det bättre om man sviker, kommer alla rationella spelare att svika, allt annat lika.
I en ITD (iterated prisoner’s dilemma) spelas spelet upprepade gånger. Därför har varje spelare möjligheten att straffa sin motspelare för tidigare icke-samarbete. Om antalet steg är kända, säger ekonomisk teori att de två spelarna kommer att svika varandra gång på gång igen oavsett hur många gånger spelet spelas. Endast när spelarna spelar ett oändligt eller ”random” antal gånger kan samarbete bli en ekonomisk jämvikt.  I det här fallet kan varje försök att svika överkommas av rädslan för straff. När spelet spelas ett oändligt antal gånger kan samverkan bli ett ”subgame perfect Nash Equilibrium”.
I vanliga fall, kan PD tillämpas i situationer i vilka två personer kan tjäna viktiga fördelar från samarbete eller lida från icke-samarbete, men de kan få det svårt, men inte alltid omöjligt att samordna deras aktiviteter så att samarbete uppnås.

Strategi för klassisk PD

Den klassiska PD kan sammanfattas på följande sätt:

Fånge B är tyst
Fånge B sviker
Fånge A är tyst
6 månaders straff för var och en
Fånge A: 10 år
Fånge B: går fri
Fånge A sviker
Fånge A: går fri
Fånge B: 10 år
5 års fängelsestraff för var och en
Oavsett vad motståndaren väljer, har varje spelare mer att vinna på att svika. Fånge A kan till exempel säga för sig själv: ”Oavsett vad B gör, har jag mer att vinna på att svika än på att hålla tyst. Därför bör jag för min egen skull svika.” Om den andra spelaren handlar på exakt samma sätt, så sviker de båda varandra och de får båda det lite sämre än om de båda hade hållit tyst om varandra. Om de båda hade varit intresserade av att minska den andres fängelsestraff, mot risken av att kanske få ett längre fängelsestraff, hade de haft mest att vinna. Därför är PD ett dilemma.

Mänskligt beteende och PD

Ett experiment visade att i verkligheten samarbetar 40% av fångarna.

Iterated Prisoners Dilemma (IPD)

Om två spelare spelar PD mer än en gång och de kommer ihåg motståndarens tidigare handlingar och ändrar strategin i enlighet med detta, kallas spelet IPD. Om spelet spelas N gånger, är den dominanta strategin ”svek” för båda spelarna.
Robert Axelrod beskriver i sin bok,  The Evolution of Cooperationhur mer altruistiska strategier fick bättre resultat för alla motspelare, om spelet spelades över långa tidsperioder, medan egoistiska strategier ledde till förluster. Han använder detta för att bevisa en möjlig mekanism för utvecklingen av altruistiskt beteende. Mekanismerna som ansågs ligga bakom detta är initialt helt själviska.
Den bästa deterministiska strategin visade sig vara ”Tit for Tat”, en strategi som utvecklades av Anatol Rapport. Strategin går ut på att samarbeta vid första omgången, för att sedan göra mot motståndaren vad han/hon gjorde vid senaste omgången. ”Tit for Tat” är en strategi som i princip innebär ”Öga mot öga”. En lite bättre strategi är däremot ”Tit for Tat with forgivness.” Vid icke-samarbete, samarbetar motståndaren ändå ibland vid nästa omgång. Detta ger spelarna möjlighet att låta bli att fångas i en cykel av svek (icke-samarbete).
Axelrod anser att en del krav måste bli uppfyllda om strategin ska bli framgångsrik:
  1. Att vara snäll – Detta betyder i allmänhet att man inte bör svika sin motståndare förrän denne har svikit. Nästan alla strategier som vann flest poäng gick ut på snällhetsprincipen.
  2. Ibland svika – En framgångsrik strategi bör inte vara helt optimistiskt. ”Alltid samarbeta” – strategin är ett dåligt val eftersom helt altruistiska strategier kommer att utnyttja sådana spelare.
  3. Förlåtande – Framgångsrika strategier är förlåtande. Även om spelare kommer att svika, så kommer de ändå att börja samarbeta igen om motståndaren inte fortsätter att svika. Detta stoppar långsiktig hämnd och vendettor, något som maximerar antalet poäng.
  4. Icke-avund – Den sista kvaliteten är att vara icke-avundsjuk på sin motståndare och aldrig försöka sig på att vinna mer poäng än sin motståndare.
Axelrod konkluderade därför att själviska individer för deras egen skull tenderar att vara snälla, förlåtande och icke-avundsjuka.
Den optimala strategin för att vinna mest poäng på en PD som spelas en enda gång är svek. I en IPD däremot beror den optimala strategin på motståndarnas strategier, samt hur de kommer att reagera vis samarbete och icke-samarbete. En population som består av individer som aldrig samarbetar, kommer en person som spelar Tit for Tat att förlora. Individen har mer att vinna på att icke-samarbeta vid varje omgång. I en population med en viss andel icke-samarbetande medan resten spelar enligt Tit-for-Tat strategin, beror den bästa strategin på andelen icke-samarbetande individer samt spelets längd.
I en population kan flera strategier finnas samtidigt.
En av de är Tit – for – two – tats, som går ut på att motståndaren sviker en gång när denne har blivit sviken två gånger. En annan är Suspicious Tit-for-tat som sviker vid första draget. TF2T leder till samarbete i STFT på grund av sin tolerans.
Free Rider and Rover
A Free Rider byter motståndare så fort motståndaren inte samarbetar. Strategin heter då ALLD – all defect. (I motsats till ALLC – all collaborate). Strategin ”Rover” exploaterar individer i en ”patchy” miljö. Populationen av samarbetande individer kan inte invaderas av Free Riders.
Escaping IPD
För att undvika utnyttjande av Free Riders, kan man minska varje investering i samarbetet och kompensera med att öka antalet interaktioner, tills icke-samarbete vinsten minskar.
Observer TFT (OTFT)
OTFT startar med svek om motståndaren har svikit en tidigare motståndare. OTFT kan aldrig förgöra Rover, utan kan endast minska antalet interaktioner. Chansen att straffa Rover vid senare interaktioner ökar.
Stochastic strategies
Samarbete är svårt att bevara i en egoistisk miljö, där självintresset är högst. Ännu svårare blir det för individer som verkar i en störande miljö. En del handlingar kan missuppfattas och individen slutar med en massa ”obetalda skulder” innan nästa felsteg inträffar.
Generös TFT
För den oändliga ITFT (Infinitely TFT) är första draget irrelevant eftersom den ”glöms bort” i det långa loppet.
Källor:

Kommentarer