洋子每日閱讀第302日—44:破解囚徒困境

2020-10-24 06:45:14洋子每日閱讀11:02 50
聲音簡介
今天我們將開始閱讀本書全新章節(jié)——第八章節(jié):“路西法效應(yīng):所謂‘心術(shù)’,不過是人性的博弈 ”中的,第三小節(jié):“破解囚徒困境:引入反復(fù)博弈,化被動為主動”

結(jié)束今日的閱讀內(nèi)容后,明天我們將繼續(xù)閱讀本書第八章節(jié)中的,第四小節(jié):“智豬博弈:多勞多得,少勞也不少得”

囚徒困境是啥意思

這是博弈論的一個模型

什么是囚徒困境?是什么意思?

美麗的數(shù)學,偉大的納什?。。∫粯钦f得對極了,就是這個答案了

囚徒困境

囚徒困境是一種博弈模型。 一、囚徒困境的簡介 囚徒困境是博弈論的非零和博弈中具代表性的例子,反映個人最佳選擇并非團體最佳選擇。 或者說在一個群體中,個人做出理性選擇卻往往導(dǎo)致集體的非理性。雖然困境本身只屬模型性質(zhì),但現(xiàn)實中的價格競爭、環(huán)境保護等方面,也會頻繁出現(xiàn)類似情況。 二、囚徒困境的出處 “囚徒困境”是1950年美國蘭德公司的梅里爾·弗勒德和梅爾文·德雷希爾擬定出相關(guān)困境的理論,后來由顧問艾伯特·塔克以囚徒方式闡述,并命名為“囚徒困境”。兩個共謀犯罪的人被關(guān)入監(jiān)獄,不能互相溝通情況。 如果兩個人都不揭發(fā)對方,則由于證據(jù)不確定,每個人都坐牢一年;若一人揭發(fā),而另一人沉默,則揭發(fā)者因為立功而立即獲釋,沉默者因不合作而入獄十年;若互相揭發(fā),則因證據(jù)確實,二者都判刑八年。 由于囚徒無法信任對方,因此傾向于互相揭發(fā),而不是同守沉默。最終導(dǎo)致納什均衡僅落在非合作點上的博弈模型。 三、囚徒困境的故事 囚徒困境的故事講的是,兩個嫌疑犯作案后被警察抓住,分別關(guān)在不同的屋子里接受審訊。警察知道兩人有罪,但缺乏足夠的證據(jù)。 警察告訴每個人:如果兩人都抵賴,各判刑一年;如果兩人都坦白,各判八年;如果兩人中一個坦白而另一個抵賴,坦白的放出去,抵賴的判十年。于是,每個囚徒都面臨兩種選擇:坦白或抵賴。 然而,不管同伙選擇什么,每個囚徒的最優(yōu)選擇是坦白:如果同伙抵賴、自己坦白的話放出去,抵賴的話判十年,坦白比不坦白好;如果同伙坦白、自己坦白的話判八年,比起抵賴的判十年,坦白還是比抵賴的好。 結(jié)果,兩個嫌疑犯都選擇坦白,各判刑八年。如果兩人都抵賴,各判一年,顯然這個結(jié)果好。囚徒困境所反映出的深刻問題是,人類的個人理性有時能導(dǎo)致集體的非理性-聰明的人類會因自己的聰明而作繭自縛,或者損害集體的利益。 囚徒困境的主要內(nèi)容 1、單次多重 單次和多次的囚徒困境,結(jié)果不會一樣。在重復(fù)的囚徒困境中,博弈被反復(fù)地進行。因而每個參與者都有機會去“懲罰”另一個參與者前一回合的不合作行為。 這時,合作可能會作為平衡的結(jié)果出現(xiàn)。 欺騙的動機這時可能被懲罰的威脅所克服,從而可能導(dǎo)向一個較好的、合作的結(jié)果。反復(fù)的、接近無限的重復(fù)次數(shù)時,納什均衡趨向于帕累托最優(yōu),從互相背叛趨向于互相忠誠。 2、理論主旨 囚徒們雖然彼此合作堅不吐實,可為全體帶來最佳利益,但在對方的表現(xiàn)不明的情況下,因為出賣同伙可為自己帶來利益,也因為同伙把自己招出來可為他帶來利益,因此彼此出賣雖違反最佳共同利益,反而是自己最大利益所在。 但實際上,執(zhí)法機構(gòu)不可能設(shè)立如此情境來誘使所有囚徒招供,因為囚徒們必須考慮刑期以外之因素(出賣同伙會受到報復(fù)等),而無法完全以執(zhí)法者所設(shè)立之利益(刑期)作為必須考量的因素。

囚徒困境是什么?。?/h3>

囚徒困境的故事講的是,兩個嫌疑犯作案后被警察抓住,分別關(guān)在不同的屋子里接受審訊。警察知道兩人有罪,但缺乏足夠的證據(jù)。警察告訴每個人:如果兩人都抵賴,各判刑一年;如果兩人都坦白,各判八年;如果兩人中一個坦白而另一個抵賴,坦白的放出去,抵賴的判十年。于是,每個囚徒都面臨兩種選擇:坦白或抵賴。然而,不管同伙選擇什么,每個囚徒的最優(yōu)選擇是坦白:如果同伙抵賴、自己坦白的話放出去,不坦白的話判一年,坦白比不坦白好;如果同伙坦白、自己坦白的話判八年,不坦白的話判十年,坦白還是比不坦白好。結(jié)果,兩個嫌疑犯都選擇坦白,各判刑八年。如果兩人都抵賴,各判一年,顯然這個結(jié)果好。但這個帕累托改進辦不到,因為它不能滿足人類的理性要求。囚徒困境所反映出的深刻問題是,人類的個人理性有時能導(dǎo)致集體的非理性——聰明的人類會因自己的聰明而作繭自縛。

“囚徒困境”有哪些現(xiàn)實的例子?

先解釋下囚徒困境是什么 “囚徒困境”是1950年美國蘭德公司的梅里爾·弗勒德(Merrill Flood)和梅爾文·德雷希爾(Melvin Dresher)擬定出相關(guān)困境的理論,后來由顧問艾伯特·塔克(Albert Tucker)以囚徒方式闡述,并命名為“囚徒困境”。 囚徒困境(prisoner'sdilemma ):兩個被捕的囚徒之間的一種特殊博弈,說明為什么甚至在合作對雙方都有利時,保持合作也是困難的。囚徒困境是博弈論的非零和博弈中具代表性的例子,反映個人最佳選擇并非團體最佳選擇。本身只屬模型性質(zhì),但現(xiàn)實中的價格競爭、環(huán)境保護、人際關(guān)系等方面,也會出現(xiàn)類似情況。 舉個例子 A和B犯事被抓了,如果A供述了,而同伙B保持沉默,那么A就無罪了,但是B要判五年。反過來,如果A沉默,但是B供述了,那同樣,B就自由了,A要坐五年牢。AB兩個人都供述認罪了,他們各自要坐三年牢。但是如果都沉默,每人判兩年。 現(xiàn)實里最好的例子就是美蘇軍備競賽,這其實也是囚徒困境的一種,冷戰(zhàn)時期的美蘇軍備競賽都是各自的優(yōu)勢策略,雙方都無法信任對方不搞軍事發(fā)展,都擔心自己被設(shè)計而陷入危險,所以即使曾經(jīng)出現(xiàn)了“盟約”,最后這份盟約還是不得不撕毀了。 雖然困境本身只屬模型性質(zhì),個人做出理性選擇卻往往導(dǎo)致集體的非理性,但現(xiàn)實中也都會頻繁出現(xiàn)類似情況。了解囚徒困境還是有一定現(xiàn)實意義的

囚徒困境的來源

囚徒困境的故事講的是,兩個嫌疑犯作案后被警察抓住,分別關(guān)在不同的屋子里接受審訊。警察知道兩人有罪,但缺乏足夠的證據(jù)。警察告訴每個人:如果兩人都抵賴,各判刑一年;如果兩人都坦白,各判八年;如果兩人中一個坦白而另一個抵賴,坦白的放出去,抵賴的判十年。于是,每個囚徒都面臨兩種選擇:坦白或抵賴。然而,不管同伙選擇什么,每個囚徒的最優(yōu)選擇是坦白:如果同伙抵賴、自己坦白的話放出去,抵賴的話判一年,坦白比不坦白好;如果同伙坦白、自己坦白的話判八年,比起抵賴的判十年,坦白還是比抵賴的好。結(jié)果,兩個嫌疑犯都選擇坦白,各判刑八年。如果兩人都抵賴,各判一年,顯然這個結(jié)果好。但這個帕累托改進辦不到,因為它不能滿足人類的理性要求。囚徒困境所反映出的深刻問題是,人類的個人理性有時能導(dǎo)致集體的非理性——聰明的人類會因自己的聰明而作繭自縛。 單次發(fā)生的囚徒困境,和多次重復(fù)的囚徒困境結(jié)果不會一樣。 在重復(fù)的囚徒困境中,博弈被反復(fù)地進行。因而每個參與者都有機會去“懲罰”另一個參與者前一回合的不合作行為。這時,合作可能會作為均衡的結(jié)果出現(xiàn)。欺騙的動機這時可能被懲罰的威脅所克服,從而可能導(dǎo)向一個較好的、合作的結(jié)果。作為反復(fù)接近無限的數(shù)量,納什均衡趨向于帕累托最優(yōu)。 試想像囚徒困境的情況進行十次或以下。 我們可以合理地設(shè)想,如果囚徒第一次被對方指控,第二次這個囚徒也會指控對方。相反,如果第一次別人保持沉默,建立了互信的關(guān)系,你也會保持沉默,導(dǎo)致帕累托最優(yōu)。 當然,兩個囚徒都會有相似的想法,在第一局保持沉默,以期望建立互信關(guān)系,所以雙方都會保持沉默。第二局時,雙方亦應(yīng)有相似的想法,繼續(xù)保持沉默,以期繼續(xù)在互信的情況下進行第三局,以致余下的八局。 這種想法合理嗎? 在第十局時,互信的關(guān)系明顯是沒有意義的,因為十局已經(jīng)完結(jié),囚徒?jīng)]有必要為維持互信的關(guān)系而沉默(沒有第十一局),所以第十局囚徒一定會背叛對方的,理由和只有一局囚徒困境一樣。 問題是,既然大家都知道在第十局,無論如何對方都會背叛自己的,你在第九局保持沉默也是沒有意思的,要知道,保持沉默(友好關(guān)系)的原因是為了希望下一局別人保持沉默。所以第九局雙方都一定會背叛對方的。 下一個問題是,雙方都有相同的想法,明知第九局對方會背叛自己,所以第八局保持沉默也是沒有意思的,第七局亦然,如此類推,納什均衡是十局都會互相背叛,建立互信關(guān)系是沒有可能的。 只有在囚徒困境的局數(shù)大家都不肯定的情況下,上述的推論才不會發(fā)生,才會出現(xiàn)互相保持沉默的現(xiàn)象。 以上推論即為“蜈蚣博弈”,它揭示了倒推法的缺陷。事實上,“囚徒困境”可以看成是一環(huán)的“蜈蚣博弈”。 例子 1950年,由就職于蘭德公司的梅里爾·弗勒德(Merrill Flood)和梅爾文·德雷希爾(Melvin Dresher)擬定出相關(guān)困境的理論,后來由顧問艾伯特·塔克(Albert Tucker)以囚徒方式闡述,并命名為“囚徒困境”。經(jīng)典的囚徒困境如下: 警方逮捕甲、乙兩名嫌疑犯,但沒有足夠證據(jù)指控二人入罪。于是警方分開囚禁嫌疑犯,分別和二人見面,并向雙方提供以下相同的選擇: 若一人認罪并作證檢控對方(相關(guān)術(shù)語稱“背叛”對方),而對方保持沉默,此人將即時獲釋,沉默者將判監(jiān)10年。 若二人都保持沉默(相關(guān)術(shù)語稱互相“合作”),則二人同樣判監(jiān)1年。 若二人都互相檢舉(相關(guān)術(shù)語稱互相“背叛”),則二人同樣判監(jiān)8年。 用表格概述如下:  甲沉默 甲背叛 乙沉默 二人同服刑1年 乙服刑10年,甲即時獲釋 乙背叛 甲服刑10年,乙即時獲釋 二人同服刑8年 解說 如同博弈論的其他例證,囚徒困境假定每個參與者(即“囚徒”)都是利己的,即都尋求最大自身利益,而不關(guān)心另一參與者的利益,這也就是經(jīng)典經(jīng)濟學中的“理性人假設(shè)”。參與者某一策略所得利益,如果在任何情況下都比其他策略要低的話,此策略稱為“嚴格劣勢”,理性的參與者絕不會選擇。另外,沒有任何其他力量干預(yù)個人決策,參與者可完全按照自己意愿選擇策略。 囚徒到底應(yīng)該選擇哪一項策略,才能將自己個人的刑期縮至最短?兩名囚徒由于隔絕監(jiān)禁,并不知道對方選擇;而即使他們能交談,還是未必能夠盡信對方不會反口。就個人的理性選擇而言,檢舉背叛對方所得刑期,總比沉默要來得低。試設(shè)想困境中兩名理性囚徒會如何作出選擇: 若對方沉默時,背叛會讓我獲釋,所以會選擇背叛。 若對方背叛指控我,我也要指控對方才能得到較低的刑期,所以也是會選擇背叛。 二人面對的情況一樣,所以二人的理性思考都會得出相同的結(jié)論——選擇背叛。背叛是兩種策略之中的支配性策略。因此,這場博弈中唯一可能達到的納什均衡,就是雙方參與者都背叛對方,結(jié)果二人同樣服刑8年。 這場博弈的納什均衡,顯然不是顧及團體利益的帕累托最優(yōu)解決方案。以全體利益而言,如果兩個參與者都合作保持沉默,兩人都只會被判刑1年,總體利益更高,結(jié)果也比兩人背叛對方、判刑8年的情況較佳。但根據(jù)以上假設(shè),二人均為理性的個人,且只追求自己個人利益。均衡狀況會是兩個囚徒都選擇背叛,結(jié)果二人判決均比合作為高,總體利益較合作為低。這就是“困境”所在。例子漂亮地證明了:非零和博弈中,帕累托最優(yōu)和納什均衡是相沖突的。

“囚徒困境”的內(nèi)在根源是什么?

囚徒困境的內(nèi)在根源是特別懶。

囚徒困境的典型例子

1950年,由就職于蘭德公司的梅里爾·弗勒德(Merrill Flood)和梅爾文·德雷希爾(Melvin Dresher)擬定出相關(guān)困境的理論,后來由顧問艾伯特·塔克(Albert Tucker)以囚徒方式闡述,并命名為“囚徒困境”。經(jīng)典的囚徒困境如下:   警方逮捕甲、乙兩名嫌疑犯,但沒有足夠證據(jù)指控二人入罪。于是警方分開囚禁嫌疑犯,分別和二人見面,并向雙方提供以下相同的選擇:   若一人認罪并作證檢控對方(相關(guān)術(shù)語稱“背叛”對方),而對方保持沉默,此人將即時獲釋,沉默者將判監(jiān)10年。   若二人都保持沉默(相關(guān)術(shù)語稱互相“合作”),則二人同樣判監(jiān)1年。   若二人都互相檢舉(相關(guān)術(shù)語稱互相“背叛”),則二人同樣判監(jiān)8年。

什么是經(jīng)濟學中的囚徒困境?

兩個sb做了sb的選擇,結(jié)果成了悲劇的情況

囚徒的困境——與其背判是什么意思?

在囚徒困境中,選擇招供,也就是背判是理性的,這一論斷與我們的傳統(tǒng)觀念并不相等。如果人人都這樣想問題,那么就沒有誠信可言了。 出現(xiàn)這一問題的原因是:現(xiàn)實中的情況和囚徒困境并不一樣,困境中的兩個囚徒互不相識,被判出獄后可能老死不相往來?,F(xiàn)實生活中卻并非如此,人們都在進行著重復(fù)的博弈,就是同樣結(jié)構(gòu)的博弈也要重復(fù)多次,人們可能在次數(shù)不定的博弈中與其他人重復(fù)交手。 其實“善有善報”的觀念并不是一種迷信思想,從另一個角度看,它是有科學依據(jù)的。

接下來播放