博弈論理性人【對博弈論者獲諾獎成果的理性思考】

發(fā)布時間:2020-02-16 來源: 感悟愛情點擊：

　　摘要：博弈論再度贏得了2005年度諾貝爾經(jīng)濟學(xué)獎。羅伯特.奧曼主要從完善博弈論體系上深化了經(jīng)濟學(xué)研究的方法，托馬斯.謝林則從博弈論應(yīng)用上擴展了經(jīng)濟學(xué)研究的范圍，文章通過解讀兩位獲獎?wù)叩睦碚摮晒�，評價了他們的學(xué)術(shù)貢獻(xiàn)，分析了博弈論研究成果的應(yīng)用范圍及其局限,指明了擴大合作可能的機制。
　　關(guān)鍵詞：沖突與合作重復(fù)博弈有限理性寬容機制
　　
　　一、博弈論者再奪諾貝爾經(jīng)濟學(xué)獎
　　
　　2005年10月10日瑞典皇家科學(xué)院在斯德哥爾摩宣布，將2005年的諾貝爾經(jīng)濟學(xué)獎授予以色列希伯萊大學(xué)的羅伯特?奧曼(RobertJ.Aumann)和美國馬里蘭大學(xué)的托馬斯?謝林(ThomasC.Schelling)，以表彰他們“通過博弈論分析，促進(jìn)了人們對沖突和合作的理解”。在頒獎儀式上，諾貝爾評審委員會說: 他們的研究成果 “（有助于解釋）為什么有些國家、團體和個人可以和平地解決沖突，而另一些國家、團體和個人卻不斷地被沖突困擾……這一自古以來困擾我們的問題”，（這些成果）“在安全……市場價格形成以及經(jīng)濟和政治磋商方面有著廣泛應(yīng)用，尤其在解釋價格戰(zhàn)和貿(mào)易戰(zhàn)這樣的經(jīng)濟沖突上更具成效�！�
　　從上世紀(jì)90年代中期至今，與博弈論領(lǐng)域相關(guān)的基礎(chǔ)研究，已經(jīng)是第五次折桂了。1944年，數(shù)學(xué)家約翰?馮?諾伊曼(John von Neumann)和經(jīng)濟學(xué)家奧斯卡?摩根斯坦(OskarMorgenstern)合作出版了《博弈論與經(jīng)濟行為》一書，概括了經(jīng)濟主體的交互影響的典型行為特征，提出了策略型與廣義型(擴展型)等基本的博弈模型、博弈解的概念以及博弈分析的方法，奠定了博弈論大廈的基石。
　　50年后的1994年，博弈論大師納什、澤爾騰、海薩尼三人分享了當(dāng)年的諾獎，他們所提出的“納什均衡” 挑戰(zhàn)了西方市場經(jīng)濟“看不見的手”原理，與斯密在《國富論》中所說的“利益主體通過追求個人的自身利益，他常常會比其實際上想做的那樣更有效地促進(jìn)社會利益”相反，納什的非合作均衡表明: 經(jīng)濟主體從利己目的出發(fā)，結(jié)果是損人不利己，既不利己也不利他。[1]
　　“納什均衡”主要研究非合作均衡，強調(diào)個人理性，研究人們在利益相互影響的情況下如何選擇策略，以獲得自身利益最大化。
　　其后的10年中，羅伯特?奧曼和托馬斯?謝林把博弈的研究領(lǐng)域擴展到合作均衡。合作博弈強調(diào)團體理性，應(yīng)用的范圍超出經(jīng)濟領(lǐng)域，而達(dá)到政治、軍事等領(lǐng)域; 博弈論與廣義制度經(jīng)濟學(xué)的結(jié)合令他們當(dāng)之無愧地贏得了2005年度的諾貝爾經(jīng)濟學(xué)獎。
　　
　　二、兩位諾獎獲得者的理論貢獻(xiàn)
　　
　　（一）奧曼的主要理論貢獻(xiàn)
　　奧曼1930年6月出生于德國的法蘭克福，擁有以色列和美國雙重國籍，是一名在以色列、美國乃至世界各地享有極高學(xué)術(shù)聲譽的著名經(jīng)濟學(xué)家。他的理論貢獻(xiàn)主要表現(xiàn)在：
　　1、提出了無限期重復(fù)博弈理論，豐富了博弈論的體系。
　　靜態(tài)博弈，以及重復(fù)但有限次的博弈無法使參與者走出“囚徒困境”，為了防范參與者通過違背自己最初的承諾獲取利益，無限期重復(fù)博弈被引入�！柏ɡ怼� (theFolkTheorem)是一個在其正式見諸文獻(xiàn)時，早已流傳于博弈理論界的定理，它表明了重復(fù)博弈的參與者任何偏離均衡路徑的策略不可能改善其支付狀況。奧曼首先運用“佚名定理”論證了完全信息的重復(fù)博弈論中何種結(jié)果能夠使長時期合作(long-termcooperation)關(guān)系得到維持。20世紀(jì)60年代中期，奧曼與其合作者及其學(xué)生一起，又發(fā)展了不完全信息的重復(fù)博弈論。奧曼關(guān)于不完全信息博弈的許多重要觀點現(xiàn)在已經(jīng)被應(yīng)用于經(jīng)濟理論中，諸如寡頭壟斷、委托代理理論、保險等領(lǐng)域。
　　2、建立了所謂的“交互認(rèn)識論”(interactiveepistemology)，把共同知識(commonknowledge)的概念引入到博弈論中。奧曼認(rèn)為博弈論是交互式條件下“最優(yōu)理性決策”，即每個參與者都希望能以其偏好獲得最大的滿足。在多人參與者的博弈論中，一個參與者對結(jié)果的偏好等級并不意味著是他的可能決策的等級，這個結(jié)果也取決于其他參與者的決策。
　　3、引入“連續(xù)統(tǒng)（continuum）假設(shè)”，重建完全競爭經(jīng)濟模型。奧曼突破了傳統(tǒng)完全競爭模型描述的存在許多參與者（居民和廠商），且每個參與者的影響都微不足道說法。他認(rèn)為：“事實上，只要僅存在有限多的參與者，個別參與者對經(jīng)濟的影響就不能被忽視”。奧曼運用連續(xù)統(tǒng)模型，將完全競爭視為寡頭策略性相互作用的極限情況，使均衡求解對于每一個參與者而言更為精確，這種方法成為經(jīng)濟理論的基本準(zhǔn)則之一。
　　4、重新界定了“理性”。與傳統(tǒng)微觀經(jīng)濟學(xué)所提出的理性是“收入約束下的效用最大化”的說法不同，奧曼認(rèn)為: 一個參與者的理性是在既定的信息約束下的效用最大化。他制訂了相應(yīng)的標(biāo)準(zhǔn)，使之通用于針對個體戰(zhàn)略選擇的非合作博弈與針對群體戰(zhàn)略選擇的合作博弈。他同時考察了知識和信息問題，拓展了人們關(guān)于信念和“交互認(rèn)識論”的認(rèn)識。還研究了“達(dá)到古典納什均衡所需要的理性和理性知識的范圍”的基本問題。
　　奧曼的上述研究極大的深化了經(jīng)濟學(xué)的研究方法。
　　
　�。ǘ� 謝林的主要理論貢獻(xiàn)
　　謝林1921年出生于美國加利福尼亞州的奧克蘭市，是美國著名學(xué)者、經(jīng)濟學(xué)家，也是有限戰(zhàn)爭理論的奠基人之一，還是外交事務(wù)、國家安全、核戰(zhàn)略以及軍備控制方面的研究專家。他的主要理論貢獻(xiàn)為：
　　1、首次定義并闡明了威懾、強制性威脅與承諾、戰(zhàn)略移動、不可置信威脅等概念。1960年，謝林在其經(jīng)典著作《沖突的戰(zhàn)略》這本書中指出，只有威脅是可信時，才能有效遏制對手的進(jìn)入�！芭既皇录粫l(fā)戰(zhàn)爭，只有決定才會導(dǎo)致戰(zhàn)爭的爆發(fā)。”如果一國認(rèn)為另一國會突然發(fā)動襲擊，最好的策略是需要可信的二次還擊能力，并讓對方知道這一威懾，這樣才能避免一場不情愿的戰(zhàn)爭。這一點十分類似《孫子兵法》中的“上兵伐謀”。
　　2、運用廣義的“討價還價” 分析沖突管理。從博弈論的角度來看，討價還價是一個非零和博弈。在效率曲線上，博弈當(dāng)事人的利益是對立的，不存在帕累托改進(jìn)的可能。但存在一點，使得博弈當(dāng)事人的利益是一致的。博弈者都希望避免兩敗俱傷，這種“雙贏”的共同想法就體現(xiàn)為，在效率曲線上找到一個合適的點來解決彼此之間的沖突。
　　3、強調(diào)充分的溝通在達(dá)成協(xié)議中的作用。在充分交流的條件下，公開的討價還價可能達(dá)成一種類似于 “雙方期望” 的協(xié)定，即如果雙方都推測這個結(jié)果能夠為對方所接受，那么協(xié)議就可以達(dá)成了。謝林說明，博弈中的一方能夠通過公開惡化自身的選擇權(quán)以鞏固自身的談判地位，并且，報復(fù)的能力比起防御的能力來更有用處，而不確定的報復(fù)比必然的報復(fù)更加可信和有效率。因此，“在討價還價的過程中，勢弱的一方通常會成為強者�！�
　　4、注重微觀動機的宏觀效果。謝林用“關(guān)鍵多數(shù)理論”(critical mass)和“有界鄰里關(guān)系模型”(boundedneighborhoodmodel)，分析了在社會決策過程中，來自于文化、習(xí)慣等方面的許多強制力(compellingforce)能讓決策匯集于一點形成共識。以及非組織的個人動機如何轉(zhuǎn)變?yōu)榧w行為，以此說明種族隔離是個人選擇的自然結(jié)果。[2]
　　5、引入“自我博弈”的概念，研究道德規(guī)范、法律以及自制和個人內(nèi)心的斗爭，解釋諸如酗酒、吸煙、缺乏鍛煉、低儲蓄等自我控制(self-command)問題。
　　謝林運用他所發(fā)展起來的博弈理論對核決策與軍事控制、組織犯罪與敲詐、成癮行為與自我控制、種族隔離、環(huán)境保護等現(xiàn)象做出了分析。使研究應(yīng)用范圍更加廣泛。
　　
　　三、對博弈論假設(shè)的理性認(rèn)識
　　
　　任何理論研究不可能沒有假設(shè)，假設(shè)是對現(xiàn)實的高度抽象，因此，常常是苛刻的，有時甚至是與實際不符的。正因為如此，建立在假設(shè)基礎(chǔ)上的研究結(jié)論并不一定完全符合實際，但都能為實際工作指出一個大的方向或范圍。博弈論的提出的確擴展了經(jīng)濟學(xué)研究的空間，交互式的經(jīng)濟行為使以孤立個體行為為出發(fā)點的傳統(tǒng)經(jīng)濟學(xué)的許多結(jié)論面臨重新檢驗，奧曼和謝林的貢獻(xiàn)似乎為博弈論與經(jīng)典經(jīng)濟學(xué)結(jié)論之間的一致性提供了一條簡潔的路徑。但過于苛刻的假定使博弈均衡和古典均衡之間仍然存在一定的差異。
　�。ㄒ唬┙⒃诶嬷黧w完全理性基礎(chǔ)之上的古典經(jīng)濟學(xué)，力圖通過通過埃奇渥斯曲線（契約曲線），達(dá)到帕累托最優(yōu)，描述了一個利益主體雙方共贏的局面，個體理性與集體理性高度一致。而博弈論者在考慮到“游戲規(guī)則” 、個人策略以及支付狀況時，存在一種類似“囚徒困境”的現(xiàn)象，每個人從自己的利益出發(fā)，并不能導(dǎo)致整體利益的最大，而只能實現(xiàn)避免“兩敗俱傷”的次優(yōu)均衡，即通常所說的“納什均衡”。因此出現(xiàn)了個體理性與團體理性的沖突，這是非合作博弈的均衡。
　�。ǘ┩ㄟ^協(xié)議，博弈雙方有可能達(dá)到古典經(jīng)濟學(xué)所說的最優(yōu)均衡，這就是合作博弈。但在一次性博弈中，無法避免一方通過違背最初承諾而獲取利益的局面，博弈雙方爭先恐后地違背承諾，導(dǎo)致合作的破裂，最優(yōu)均衡難以達(dá)到。于是“報復(fù)”作為一種對違背承諾的懲罰機制而出現(xiàn)在策略中�？芍眯诺耐{（可實施的報復(fù)）成為遏制沖突的有效策略。但即使在重復(fù)博弈中，只要博弈的次數(shù)是有限的，就不能解決博弈的一方在最后一次博弈中違背承諾，逃避懲罰的問題。
　　（三）只有無限期的重復(fù)博弈加上報復(fù)機制，才能構(gòu)成對違約者可信的威懾，從而避免博弈的一方鋌而走險。如果博弈雙方具有足夠的理性，都不愿意承受永久的報復(fù)所帶來的損失，都不會違背協(xié)議，合作才成為可能。佚名定理正是揭示了這種完全信息下無限期的重復(fù)博弈中絕無偏離均衡路徑而獲取利益的狀況。在此情況下，個體理性得解代表了合作理性的結(jié)局。在不完全信息下，參與者掌握信息（特別是關(guān)于對手策略的信息）的多寡成為獲利與否的關(guān)鍵。所謂“知己知彼，百戰(zhàn)不殆�！�
　　（四）無限期的重復(fù)博弈雖然有可能使個體理性符合團體理性從而趨向于古典均衡，但這種均衡建立在報復(fù)機制和參與雙方嚴(yán)格的理性假定的基礎(chǔ)之上，這就使得這種均衡顯得十分脆弱。亦即合作的基礎(chǔ)十分脆弱，只要雙方有一方的理性存在缺陷，就會立即招致嚴(yán)厲的報復(fù)，而“人非圣賢，孰能無過？”，所以局部的沖突始終難以消除，自古以來困擾著人類。
　　
　　四、增強合作可能的途徑
　　
　　正視人類理性的局限，盡量消除這種局限所帶來的不良后果，增進(jìn)人類整體利益，這本身是人類理性進(jìn)化的要求，也是經(jīng)濟學(xué)所致力的目標(biāo)。面對獲諾獎的博弈論者所揭示的合作與沖突的局面。我們應(yīng)該探索增強合作可能亦即趨向古典均衡的途徑。
　　
　�。ㄒ唬┙⑿畔⒌恼鐒e機制，盡可能減少沖突，增強合作
　　如前所述，奧曼強調(diào)：一個參與者的理性是在既定的信息約束下的效用最大化。博弈雙方掌握對方策略信息的多寡成為策略勝出的關(guān)鍵。這里信息的識別即成為理性的關(guān)鍵。如果一方收集到另一方的信息，那么這是一個合作的信息還是一個沖突的信息呢？他本人必須具備甄別的能力。如果他不能有效地甄別信息，那么即使再多的信息對他來說也只能形成困擾。他本人是否了解事實的真相，是否局限于自己的錯覺，抑或由于對方偶爾的失誤而造成信號的失真，還是對方故意發(fā)出的虛假信號以誘惑自己做出錯誤的決策而坐收其利？等等這些問題需要嚴(yán)格的加以甄別，才可能減少沖突，增強合作。
　　
　�。ǘ⿵娀瘜捜莺驼徑鈾C制，增強合作的可能
　　既然人類存在有限理性，自己和別人隨時有犯錯誤的可能，通過甄別可以判斷對方的信息哪些是決定的沖突，哪些是無意中的過失。既然自己不希望自己無意的過失受到嚴(yán)厲的報復(fù)，也應(yīng)諒解他人的過失，容許別人犯錯誤也容許別人改正錯誤，這種相互寬容和諒解的機制，可以消除由于有限理性而導(dǎo)致的沖突，從而擴大合作的可能性。
　　
　　（三）倡導(dǎo)反思機制，減少沖突的因素，增強合作的可能
　　主動的減少無意間的過失往往比被動的受到別人的寬容更有效，因此通過經(jīng)常地反思檢討自己無意間的過失，主動改正自己的錯誤，會有效的減少沖突的因素，增強合作的可能。
　　以上這些途徑能夠彌補人類有限理性帶來的沖突，從而增強合作的可能，改進(jìn)社會的福利水平。
　　
　　參考文獻(xiàn)
　　[1] 李正信兩位諾貝爾經(jīng)濟學(xué)獎獲得主的學(xué)術(shù)貢獻(xiàn)Ｎ經(jīng)濟日報2005.10.17
　　[2] 伍澤君單瑜競爭中的合作羅伯特?奧曼的重復(fù)博弈論的評述Ｊ云南財貿(mào)學(xué)院學(xué)報社會科學(xué)版2005.6
　　[3] 張軍付勇諾獎回歸博弈論Ｎ經(jīng)濟觀察報2005.10.24

博弈論理性人【對博弈論者獲諾獎成果的理性思考】

熱點文章閱讀