020_第四課囚徒的困境

2024-10-14 16:39:03聯(lián)合讀創(chuàng)書院00:27 124

6元開會員，免費聽

購買?|?19.99 喜點

聲音簡介

囚徒困境是啥意思

這是博弈論的一個模型

什么是囚徒困境？是什么意思？

美麗的數(shù)學，偉大的納什！??！一樓說得對極了，就是這個答案了

囚徒困境

囚徒困境是一種博弈模型。一、囚徒困境的簡介囚徒困境是博弈論的非零和博弈中具代表性的例子，反映個人最佳選擇并非團體最佳選擇。或者說在一個群體中，個人做出理性選擇卻往往導致集體的非理性。雖然困境本身只屬模型性質，但現(xiàn)實中的價格競爭、環(huán)境保護等方面，也會頻繁出現(xiàn)類似情況。二、囚徒困境的出處 “囚徒困境”是1950年美國蘭德公司的梅里爾·弗勒德和梅爾文·德雷希爾擬定出相關困境的理論，后來由顧問艾伯特·塔克以囚徒方式闡述，并命名為“囚徒困境”。兩個共謀犯罪的人被關入監(jiān)獄，不能互相溝通情況。如果兩個人都不揭發(fā)對方，則由于證據(jù)不確定，每個人都坐牢一年；若一人揭發(fā)，而另一人沉默，則揭發(fā)者因為立功而立即獲釋，沉默者因不合作而入獄十年；若互相揭發(fā)，則因證據(jù)確實，二者都判刑八年。由于囚徒無法信任對方，因此傾向于互相揭發(fā)，而不是同守沉默。最終導致納什均衡僅落在非合作點上的博弈模型。三、囚徒困境的故事囚徒困境的故事講的是，兩個嫌疑犯作案后被警察抓住，分別關在不同的屋子里接受審訊。警察知道兩人有罪，但缺乏足夠的證據(jù)。警察告訴每個人：如果兩人都抵賴，各判刑一年；如果兩人都坦白，各判八年；如果兩人中一個坦白而另一個抵賴，坦白的放出去，抵賴的判十年。于是，每個囚徒都面臨兩種選擇：坦白或抵賴。然而，不管同伙選擇什么，每個囚徒的最優(yōu)選擇是坦白：如果同伙抵賴、自己坦白的話放出去，抵賴的話判十年，坦白比不坦白好；如果同伙坦白、自己坦白的話判八年，比起抵賴的判十年，坦白還是比抵賴的好。結果，兩個嫌疑犯都選擇坦白，各判刑八年。如果兩人都抵賴，各判一年，顯然這個結果好。囚徒困境所反映出的深刻問題是，人類的個人理性有時能導致集體的非理性-聰明的人類會因自己的聰明而作繭自縛，或者損害集體的利益。囚徒困境的主要內容 1、單次多重單次和多次的囚徒困境，結果不會一樣。在重復的囚徒困境中，博弈被反復地進行。因而每個參與者都有機會去“懲罰”另一個參與者前一回合的不合作行為。這時，合作可能會作為平衡的結果出現(xiàn)。欺騙的動機這時可能被懲罰的威脅所克服，從而可能導向一個較好的、合作的結果。反復的、接近無限的重復次數(shù)時，納什均衡趨向于帕累托最優(yōu)，從互相背叛趨向于互相忠誠。 2、理論主旨囚徒們雖然彼此合作堅不吐實，可為全體帶來最佳利益，但在對方的表現(xiàn)不明的情況下，因為出賣同伙可為自己帶來利益，也因為同伙把自己招出來可為他帶來利益，因此彼此出賣雖違反最佳共同利益，反而是自己最大利益所在。但實際上，執(zhí)法機構不可能設立如此情境來誘使所有囚徒招供，因為囚徒們必須考慮刑期以外之因素（出賣同伙會受到報復等），而無法完全以執(zhí)法者所設立之利益（刑期）作為必須考量的因素。

囚徒困境是什么??？

“囚徒困境”有哪些現(xiàn)實的例子？

先解釋下囚徒困境是什么 “囚徒困境”是1950年美國蘭德公司的梅里爾·弗勒德（Merrill Flood）和梅爾文·德雷希爾（Melvin Dresher）擬定出相關困境的理論，后來由顧問艾伯特·塔克（Albert Tucker）以囚徒方式闡述，并命名為“囚徒困境”。囚徒困境（prisoner'sdilemma ）：兩個被捕的囚徒之間的一種特殊博弈，說明為什么甚至在合作對雙方都有利時，保持合作也是困難的。囚徒困境是博弈論的非零和博弈中具代表性的例子，反映個人最佳選擇并非團體最佳選擇。本身只屬模型性質，但現(xiàn)實中的價格競爭、環(huán)境保護、人際關系等方面，也會出現(xiàn)類似情況。舉個例子 A和B犯事被抓了，如果A供述了，而同伙B保持沉默，那么A就無罪了，但是B要判五年。反過來，如果A沉默，但是B供述了，那同樣，B就自由了，A要坐五年牢。AB兩個人都供述認罪了，他們各自要坐三年牢。但是如果都沉默，每人判兩年。現(xiàn)實里最好的例子就是美蘇軍備競賽，這其實也是囚徒困境的一種，冷戰(zhàn)時期的美蘇軍備競賽都是各自的優(yōu)勢策略，雙方都無法信任對方不搞軍事發(fā)展，都擔心自己被設計而陷入危險，所以即使曾經出現(xiàn)了“盟約”，最后這份盟約還是不得不撕毀了。雖然困境本身只屬模型性質，個人做出理性選擇卻往往導致集體的非理性，但現(xiàn)實中也都會頻繁出現(xiàn)類似情況。了解囚徒困境還是有一定現(xiàn)實意義的

囚徒困境的來源

囚徒困境的故事講的是，兩個嫌疑犯作案后被警察抓住，分別關在不同的屋子里接受審訊。警察知道兩人有罪，但缺乏足夠的證據(jù)。警察告訴每個人：如果兩人都抵賴，各判刑一年；如果兩人都坦白，各判八年；如果兩人中一個坦白而另一個抵賴，坦白的放出去，抵賴的判十年。于是，每個囚徒都面臨兩種選擇：坦白或抵賴。然而，不管同伙選擇什么，每個囚徒的最優(yōu)選擇是坦白：如果同伙抵賴、自己坦白的話放出去，抵賴的話判一年，坦白比不坦白好；如果同伙坦白、自己坦白的話判八年，比起抵賴的判十年，坦白還是比抵賴的好。結果，兩個嫌疑犯都選擇坦白，各判刑八年。如果兩人都抵賴，各判一年，顯然這個結果好。但這個帕累托改進辦不到，因為它不能滿足人類的理性要求。囚徒困境所反映出的深刻問題是，人類的個人理性有時能導致集體的非理性——聰明的人類會因自己的聰明而作繭自縛。單次發(fā)生的囚徒困境，和多次重復的囚徒困境結果不會一樣。在重復的囚徒困境中，博弈被反復地進行。因而每個參與者都有機會去“懲罰”另一個參與者前一回合的不合作行為。這時，合作可能會作為均衡的結果出現(xiàn)。欺騙的動機這時可能被懲罰的威脅所克服，從而可能導向一個較好的、合作的結果。作為反復接近無限的數(shù)量，納什均衡趨向于帕累托最優(yōu)。試想像囚徒困境的情況進行十次或以下。我們可以合理地設想，如果囚徒第一次被對方指控，第二次這個囚徒也會指控對方。相反，如果第一次別人保持沉默，建立了互信的關系，你也會保持沉默，導致帕累托最優(yōu)。當然，兩個囚徒都會有相似的想法，在第一局保持沉默，以期望建立互信關系，所以雙方都會保持沉默。第二局時，雙方亦應有相似的想法，繼續(xù)保持沉默，以期繼續(xù)在互信的情況下進行第三局，以致余下的八局。這種想法合理嗎？在第十局時，互信的關系明顯是沒有意義的，因為十局已經完結，囚徒沒有必要為維持互信的關系而沉默(沒有第十一局)，所以第十局囚徒一定會背叛對方的，理由和只有一局囚徒困境一樣。問題是，既然大家都知道在第十局，無論如何對方都會背叛自己的，你在第九局保持沉默也是沒有意思的，要知道，保持沉默(友好關系)的原因是為了希望下一局別人保持沉默。所以第九局雙方都一定會背叛對方的。下一個問題是，雙方都有相同的想法，明知第九局對方會背叛自己，所以第八局保持沉默也是沒有意思的，第七局亦然，如此類推，納什均衡是十局都會互相背叛，建立互信關系是沒有可能的。只有在囚徒困境的局數(shù)大家都不肯定的情況下，上述的推論才不會發(fā)生，才會出現(xiàn)互相保持沉默的現(xiàn)象。以上推論即為“蜈蚣博弈”，它揭示了倒推法的缺陷。事實上，“囚徒困境”可以看成是一環(huán)的“蜈蚣博弈”。例子 1950年，由就職于蘭德公司的梅里爾·弗勒德（Merrill Flood）和梅爾文·德雷希爾（Melvin Dresher）擬定出相關困境的理論，后來由顧問艾伯特·塔克（Albert Tucker）以囚徒方式闡述，并命名為“囚徒困境”。經典的囚徒困境如下：警方逮捕甲、乙兩名嫌疑犯，但沒有足夠證據(jù)指控二人入罪。于是警方分開囚禁嫌疑犯，分別和二人見面，并向雙方提供以下相同的選擇：若一人認罪并作證檢控對方（相關術語稱“背叛”對方），而對方保持沉默，此人將即時獲釋，沉默者將判監(jiān)10年。若二人都保持沉默（相關術語稱互相“合作”），則二人同樣判監(jiān)1年。若二人都互相檢舉（相關術語稱互相“背叛”），則二人同樣判監(jiān)8年。用表格概述如下：　甲沉默甲背叛乙沉默二人同服刑1年乙服刑10年，甲即時獲釋乙背叛甲服刑10年，乙即時獲釋二人同服刑8年解說如同博弈論的其他例證，囚徒困境假定每個參與者（即“囚徒”）都是利己的，即都尋求最大自身利益，而不關心另一參與者的利益，這也就是經典經濟學中的“理性人假設”。參與者某一策略所得利益，如果在任何情況下都比其他策略要低的話，此策略稱為“嚴格劣勢”，理性的參與者絕不會選擇。另外，沒有任何其他力量干預個人決策，參與者可完全按照自己意愿選擇策略。囚徒到底應該選擇哪一項策略，才能將自己個人的刑期縮至最短？兩名囚徒由于隔絕監(jiān)禁，并不知道對方選擇；而即使他們能交談，還是未必能夠盡信對方不會反口。就個人的理性選擇而言，檢舉背叛對方所得刑期，總比沉默要來得低。試設想困境中兩名理性囚徒會如何作出選擇：若對方沉默時，背叛會讓我獲釋，所以會選擇背叛。若對方背叛指控我，我也要指控對方才能得到較低的刑期，所以也是會選擇背叛。二人面對的情況一樣，所以二人的理性思考都會得出相同的結論——選擇背叛。背叛是兩種策略之中的支配性策略。因此，這場博弈中唯一可能達到的納什均衡，就是雙方參與者都背叛對方，結果二人同樣服刑8年。這場博弈的納什均衡，顯然不是顧及團體利益的帕累托最優(yōu)解決方案。以全體利益而言，如果兩個參與者都合作保持沉默，兩人都只會被判刑1年，總體利益更高，結果也比兩人背叛對方、判刑8年的情況較佳。但根據(jù)以上假設，二人均為理性的個人，且只追求自己個人利益。均衡狀況會是兩個囚徒都選擇背叛，結果二人判決均比合作為高，總體利益較合作為低。這就是“困境”所在。例子漂亮地證明了：非零和博弈中，帕累托最優(yōu)和納什均衡是相沖突的。

“囚徒困境”的內在根源是什么？

囚徒困境的內在根源是特別懶。

囚徒困境的典型例子

1950年，由就職于蘭德公司的梅里爾·弗勒德（Merrill Flood）和梅爾文·德雷希爾（Melvin Dresher）擬定出相關困境的理論，后來由顧問艾伯特·塔克（Albert Tucker）以囚徒方式闡述，并命名為“囚徒困境”。經典的囚徒困境如下：　　警方逮捕甲、乙兩名嫌疑犯，但沒有足夠證據(jù)指控二人入罪。于是警方分開囚禁嫌疑犯，分別和二人見面，并向雙方提供以下相同的選擇：　　若一人認罪并作證檢控對方（相關術語稱“背叛”對方），而對方保持沉默，此人將即時獲釋，沉默者將判監(jiān)10年。　　若二人都保持沉默（相關術語稱互相“合作”），則二人同樣判監(jiān)1年。　　若二人都互相檢舉（相關術語稱互相“背叛”），則二人同樣判監(jiān)8年。

什么是經濟學中的囚徒困境？

兩個sb做了sb的選擇，結果成了悲劇的情況

囚徒的困境——與其背判是什么意思？

在囚徒困境中，選擇招供，也就是背判是理性的，這一論斷與我們的傳統(tǒng)觀念并不相等。如果人人都這樣想問題，那么就沒有誠信可言了。出現(xiàn)這一問題的原因是：現(xiàn)實中的情況和囚徒困境并不一樣，困境中的兩個囚徒互不相識，被判出獄后可能老死不相往來?，F(xiàn)實生活中卻并非如此，人們都在進行著重復的博弈，就是同樣結構的博弈也要重復多次，人們可能在次數(shù)不定的博弈中與其他人重復交手。其實“善有善報”的觀念并不是一種迷信思想，從另一個角度看，它是有科學依據(jù)的。

接下來播放