納什均衡即為勢
2010-07-12 來自: 白起 (眼過千遍,不如手過一遍。) 納什博弈論論文集的評論5納什說一個談判要么破裂,要么結(jié)果一定是有限個均衡點的一個,所謂的均衡點,就是全方面無限深度考慮,我就只有這樣選才行,再好的不可能發(fā)生,再壞的就吃虧:大家都這么想,就會有一個大家都感覺合適的點,達到這個點后(納什的主要貢獻是證明這個點是存在的),大家都不會想改變了。要做到無限深度思考,前提是
1 人是絕頂聰明
2 大家都認為每個人絕頂自私
3 絕頂貪婪,如果有得到1000元與1001元的方案,也必定選擇后者。
然而,人不是絕對理性的,如果拋棄第1項,可以得出:在無數(shù)個重復的談判中,人會根據(jù)上一回談論的結(jié)果以及取得的實際效果,再次決定下一回談判的取向,最終會趨于均衡點,這,就是勢。生物進化學與均衡點相結(jié)合取得了不錯的結(jié)果,比如說,在《自私的基因》當中提到的,如果基因突變的新物種,面對舊物種有一個較高的勝率,于是因為較多的勝出,可以獲得更多的資源,包括配偶權(quán),因此擴大了基因,使自己的后代增多,當屬于自己物種的數(shù)量增多,使得在與同種生物競爭時,勝率相當,空間固定,屬于自己的物種增多,競爭次數(shù)也不免增多,高勝率不能保持,于是數(shù)量增長減速趨于0,于是兩個物種的數(shù)量達到平衡,當然,某一方的數(shù)量因為偶然事件突變,那么仍舊會再次趨于平衡點,并在平衡點上下波動,直到新的物種出現(xiàn),引入一個新的平衡點。
二人談判必有有限的均衡點,但如果均衡點多于1個,那么問題仍然很大,它只是說如果最終達成了談判則必定屬于(假設(shè)是絕對理性人)其中一個,但屬于哪一個,并不清楚,有可能因為多于1個,反而達不成妥協(xié)。納什發(fā)覺,之所以產(chǎn)生多個均衡點,是因為他認為人應該是這樣思考的:如果對方實行A策略,那么我就用B策略應對;如果對方實行C策略,我就用D策略。他認為該抽象有問題,于是發(fā)展了混合策略模型,即人應該是這樣思考的:對方實行A的策略概率為p,實行B策略的概率為(1-p),我應該使用C策略的概率為q,D策略的概率為(1-q).如此抽象,發(fā)現(xiàn)二人談判必定只有一個均衡點。這說明兩個問題:
1.納什的理論也是基于某種抽象,他的理論的正確性完整性適應性依賴于他抽象的好壞,只能說是接近于真相的理解,可能也未必完備,比如說他認為人是絕對自私的,這個其實不太正確;
2.他認為概率是客觀存在的,認為"對方實行A的策略概率為p,實行B策略的概率為(1-p)"是合理的,期望(統(tǒng)計學中的期望)是有效的(即,期望對人的決策影響是有嚴格規(guī)律的),期望是否有效,現(xiàn)在還是個問題。
這里有個例子:比如說石頭剪刀布。如果沒有混合策略模型,照里說雖然有平衡點(三個平衡點:兩人出石頭,兩人出剪刀,兩人出布),但是根本就不會趨于這三個平衡點(三個,如何趨于?)。但是,如果對方就認準你出三者的概率是p1,p2,p3,而你認識他出三者的概率為q1,q2,q3,這個平衡點經(jīng)過運算后就只會是一個(每個人出三者的概率都為1/3)。
納什繼續(xù)推廣,如果是N人彼此之間沒有合作的博弈,是否有這樣的均衡點呢?他證明是有,且有一個(在混合策略模型下)。
平衡點是必然之趨近,一個人能夠準確的預測到該平衡點的存在,也就是說把握了大勢。比如說一個游戲:有固定的60億人,每個人都給一個從0到1000的數(shù)字,所有的數(shù)字的平均數(shù)的1/3記為a,哪個人給的數(shù)字最靠近a,這個人就獲勝。如果大家都是絕對理性人(超級聰明,絕對自私),那么大家都會猜是0,但是可能讀者讀到這兒都未必知道會是0吧,只能說不是絕對理性人。這個游戲反復地玩,大家的平均數(shù)就越來越小,直到最后大家都不約而同地選擇0.
但是必須得懷疑人世間實在的游戲是否會這么簡單,平衡點是基于固定人群、固定可選策略下才存在的,人群不固定、不可預測的新策略也隨著科技發(fā)展(或其他變化)而生成,導致了系統(tǒng)不是固定的,平衡點可能不存在。比如,在生物進化理論當中,新的物種持續(xù)產(chǎn)生,這種假想的平衡點,在現(xiàn)實中根本找不到對應.這一思想在索羅斯的<金融煉金術(shù)>中繼續(xù)闡述,在現(xiàn)在的股市,如果平衡點存在,所有股票分別的價格都會遠近于某個平衡點,但是平衡點在現(xiàn)實中根本沒有出現(xiàn),我們應該反省抽象模型的適用性.其實索羅斯的思想與混沌理論有密切相關(guān),盡管他本人可能不知道混沌理論.混沌理論在更廣闊的維度探討事物會趨進的狀態(tài),發(fā)現(xiàn)會趨進于分形.分形是一種自相似圖形,例如樹,每個小樹枝都很像它所在的大樹枝;每天小河,都像它所在的大河;每個山棱都像各大的山棱.各種各樣的分形,就是我們應該研究的東西.
——那么,人類社會會趨于什么分形呢?
這是一個復雜深奧的主題。現(xiàn)在也在研究探討當中。
而另一個層面,一個逆博弈論-機制設(shè)計也走進了科學家的視野,從囚徒的困境這一博弈場合中,人們得出結(jié)論:是否可以設(shè)計某種機制,引導群體的行為。博弈論為政治學注入了強勁的科學內(nèi)含,機制設(shè)計學家屢次獲得諾貝爾獎。但機制設(shè)計目前還并不十分有效,主要是人類社會比較復雜,有些場合太復雜以至于還無法設(shè)計機制,但是在拍賣場合,卻涌現(xiàn)出不少有用的機制設(shè)計,其中一個機制能保證拍賣人都出自己想出的價,也就是不報高也不報低。除了在拍賣領(lǐng)域,其他領(lǐng)域成功的顯著的機制設(shè)計反正本人還沒看到。博弈論概述
博弈論(GameTheory)亦名“對策論”、“賽局理論”,屬應用數(shù)學的一個分支,目前在生物學、經(jīng)濟學、國際關(guān)系、計算機科學、政治學、軍事戰(zhàn)略和其他很多學科都有廣泛的應用。博弈論主要研究公式化了的激勵結(jié)構(gòu)間的相互作用。是研究具有斗爭或競爭性質(zhì)現(xiàn)象的數(shù)學理論和方法。也是運籌學的一個重要學科。博弈論考慮游戲中的個體的預測行為和實際行為,并研究它們的優(yōu)化策略。生物學家使用博弈理論來理解和預測進化論的某些結(jié)果。參見:行為生態(tài)學(behavioralecology)
歷史
博弈論思想古已有之,我國古代的《孫子兵法》就不僅是一部軍事著作,而且算是最早的一部博弈論專著。博弈論最初主要研究象棋、橋牌、賭博中的勝負問題,人們對博弈局勢的把握只停留在經(jīng)驗上,沒有向理論化發(fā)展。
近代對于博弈論的研究,開始于策墨洛(Zermelo),波雷爾(Borel)及馮·諾伊曼(vonNeumann)。
約翰·馮·諾依曼1928年,馮·諾依曼證明了博弈論的基本原理,從而宣告了博弈論的正式誕生。1944年,馮·諾依曼和摩根斯坦共著的劃時代巨著《博弈論與經(jīng)濟行為》將二人博弈推廣到n人博弈結(jié)構(gòu)并將博弈論系統(tǒng)的應用于經(jīng)濟領(lǐng)域,從而奠定了這一學科的基礎(chǔ)和理論體系。
1950~1951年,約翰·福布斯·納什(JohnForbesNashJr)利用不動點定理證明了均衡點的存在,為博弈論的一般化奠定了堅實的基礎(chǔ)。納什的開創(chuàng)性論文《n人博弈的均衡點》(1950),《非合作博弈》(1951)等等,給出了納什均衡的概念和均衡存在定理。此外,塞爾頓、哈桑尼的研究也對博弈論發(fā)展起到推動作用。今天博弈論已發(fā)展成一門較完善的學科。博弈論(GameTheory)和決策論(DecisionTheory)、運籌學(OperationsResearch)等一起構(gòu)成現(xiàn)代企業(yè)經(jīng)濟、軍事戰(zhàn)略等系統(tǒng)管理學的理論基礎(chǔ)。
分類
博弈的分類根據(jù)不同的基準也有所不同。一般認為,博弈主要可以分為合作博弈和非合作博弈。它們的區(qū)別在于相互發(fā)生作用的當事人之間有沒有一個具有約束力的協(xié)議,如果有,就是合作博弈,如果沒有,就是非合作博弈。
從行為的時間序列性,博弈論進一步分為兩類:靜態(tài)博弈是指在博弈中,參與人同時選擇或雖非同時選擇但后行動者并不知道先行動者采取了什么具體行動;動態(tài)博弈是指在博弈中,參與人的行動有先后順序,且后行動者能夠觀察到先行動者所選擇的行動。通俗的理解:"囚徒困境"就是同時決策的,屬于靜態(tài)博弈;而棋牌類游戲等決策或行動有先后次序的,屬于動態(tài)博弈
按照參與人對其他參與人的了解程度分為完全信息博弈和不完全信息博弈。完全博弈是指在博弈過程中,每一位參與人對其他參與人的特征、策略空間及收益函數(shù)有準確的信息。如果參與人對其他參與人的特征、策略空間及收益函數(shù)信息了解的不夠準確、或者不是對所有參與人的特征、策略空間及收益函數(shù)都有準確的準確信息,在這種情況下進行的博弈就是不完全信息博弈。
目前經(jīng)濟學家們現(xiàn)在所談的博弈論一般是指非合作博弈,由于合作博弈論比非合作博弈論復雜,在理論上的成熟度遠遠不如非合作博弈論。非合作博弈又分為:完全信息靜態(tài)博弈,完全信息動態(tài)博弈,不完全信息靜態(tài)博弈,不完全信息動態(tài)博弈。與上述四種博弈相對應的均衡概念為:納什均衡(Nashequilibrium),子博弈精煉納什均衡(subgameperfectNashequilibrium),貝葉斯納什均衡(BayesianNashequilibrium),精煉貝葉斯納什均衡(perfectBayesianNashequilibrium)。
博弈論還又很多分類,比如:以博弈進行的次數(shù)或者持續(xù)長短可以分為有限博弈和無限博弈;以表現(xiàn)形式也可以分為一般型(戰(zhàn)略型)或者展開型,等等。
夏普里值
考慮這樣一個合作博弈:a、b、c、投票決定如何分配100萬,他們分別擁有50%、40%、10%的權(quán)力,規(guī)則規(guī)定,當超過50%的票認可了某種方案時才能通過。那么如何分配才是合理的呢?按票力分配,a50萬、b40萬、c10萬c向a提出:a70萬、b0、c30萬b向a提出:a80萬、b20萬、c0……
權(quán)力指數(shù):每個決策者在決策時的權(quán)力體現(xiàn)在他在形成的獲勝聯(lián)盟中的“關(guān)鍵加入者”的個數(shù),這個“關(guān)鍵加入者”的個數(shù)就被稱為權(quán)利指數(shù)。
夏普里值(Shapleyvalue):在各種可能的聯(lián)盟次序下,參與者對聯(lián)盟的邊際貢獻之和除以各種可能的聯(lián)盟組合。
次序abcacbbacbcacabcba
關(guān)鍵加入者bcaaaa
由此計算出a,b,c的夏普里值分別為4/6,1/6,1/6
所以a,b,c應分別獲得100萬的2/3,1/6,1/6
智豬博弈
智豬博弈(Pigs’payoffs)講的是:豬圈里有兩頭豬,一頭大豬,一頭小豬。豬圈的一邊有個踏板,每踩一下踏板,在遠離踏板的豬圈的另一邊的投食口就會落下少量的食物。如果有一只豬去踩踏板,另一只豬就有機會搶先吃到另一邊落下的食物。當小豬踩動踏板時,大豬會在小豬跑到食槽之前剛好吃光所有的食物;若是大豬踩動了踏板,則還有機會在小豬吃完落下的食物之前跑到食槽,爭吃到另一半殘羹。
那么,兩只豬各會采取什么策略?答案是:小豬將選擇“搭便車”策略,也就是舒舒服服地等在食槽邊;而大豬則為一點殘羹不知疲倦地奔忙于踏板和食槽之間。
原因何在?因為,小豬踩踏板將一無所獲,不踩踏板反而能吃上食物。對小豬而言,無論大豬是否踩動踏板,不踩踏板總是好的選擇。反觀大豬,已明知小豬是不會去踩動踏板的,自己親自去踩踏板總比不踩強吧,所以只好親力親為了。
“小豬躺著大豬跑”的現(xiàn)象是由于故事中的游戲規(guī)則所導致的。規(guī)則的核心指標是:每次落下的食物數(shù)量和踏板與投食口之間的距離。
如果改變一下核心指標,豬圈里還會出現(xiàn)同樣的“小豬躺著大豬跑”的景象嗎?試試看。
改變方案一:減量方案。投食僅原來的一半分量。結(jié)果是小豬大豬都不去踩踏板了。小豬去踩,大豬將會把食物吃完;大豬去踩,小豬將也會把食物吃完。誰去踩踏板,就意味著為對方貢獻食物,所以誰也不會有踩踏板的動力了。
如果目的是想讓豬們?nèi)ザ嗖忍ぐ?,這個游戲規(guī)則的設(shè)計顯然是失敗的。
改變方案二:增量方案。投食為原來的一倍分量。結(jié)果是小豬、大豬都會去踩踏板。誰想吃,誰就會去踩踏板。反正對方不會一次把食物吃完。小豬和大豬相當于生活在物質(zhì)相對豐富的“共產(chǎn)主義”社會,所以競爭意識卻不會很強。
對于游戲規(guī)則的設(shè)計者來說,這個規(guī)則的成本相當高(每次提供雙份的食物);而且因為競爭不強烈,想讓豬們?nèi)ザ嗖忍ぐ宓男Ч⒉缓谩?br />

改變方案三:減量加移位方案。投食僅原來的一半分量,但同時將投食口移到踏板附近。結(jié)果呢,小豬和大豬都在拼命地搶著踩踏板。等待者不得食,而多勞者多得。每次的收獲剛好消費完。
對于游戲設(shè)計者,這是一個最好的方案。成本不高,但收獲最大。
原版的“智豬博弈”故事給了競爭中的弱者(小豬)以等待為最佳策略的啟發(fā)。但是對于社會而言,因為小豬未能參與競爭,小豬搭便車時的社會資源配置的并不是最佳狀態(tài)。為使資源最有效配置,規(guī)則的設(shè)計者是不愿看見有人搭便車的,政府如此,公司的老板也是如此。而能否完全杜絕“搭便車”現(xiàn)象,就要看游戲規(guī)則的核心指標設(shè)置是否合適了。
比如,公司的激勵制度設(shè)計,獎勵力度太大,又是持股,又是期權(quán),公司職員個個都成了百萬富翁,成本高不說,員工的積極性并不一定很高。這相當于“智豬博弈”增量方案所描述的情形。但是如果獎勵力度不大,而且見者有份(不勞動的“小豬”也有),一度十分努力的大豬也不會有動力了----就象“智豬博弈”減量方案一所描述的情形。最好的激勵機制設(shè)計就象改變方案三----減量加移位的辦法,獎勵并非人人有份,而是直接針對個人(如業(yè)務按比例提成),既節(jié)約了成本(對公司而言),又消除了“搭便車”現(xiàn)象,能實現(xiàn)有效的激勵。
許多人并未讀過“智豬博弈”的故事,但是卻在自覺地使用小豬的策略。股市上等待莊家抬轎的散戶;等待產(chǎn)業(yè)市場中出現(xiàn)具有贏利能力新產(chǎn)品、繼而大舉仿制牟取暴利的游資;公司里不創(chuàng)造效益但分享成果的人,等等。因此,對于制訂各種經(jīng)濟管理的游戲規(guī)則的人,必須深諳“智豬博弈”指標改變的個中道理。
意義
博弈論的研究方法和其他許多利用數(shù)學工具研究社會經(jīng)濟現(xiàn)象的學科一樣,都是從復雜的現(xiàn)象中抽象出基本的元素,對這些元素構(gòu)成的數(shù)學模型進行分析,而后逐步引入對其形勢產(chǎn)影響的其他因素,從而分析其結(jié)果。
基于不同抽象水平,形成三種博弈表述方式,標準型、擴展型和特征函數(shù)型利用這三種表述形式,可以研究形形色色的問題。因此,它被稱為“社會科學的數(shù)學”從理論上講,博弈論是研究理性的行動者相互作用的形式理論,而實際上正深入到經(jīng)濟學、政治學、社會學等等,被各門社會科學所應用。
博弈論是指某個個人或是組織,面對一定的環(huán)境條件,在一定的規(guī)則約束下,依靠所掌握的信息,從各自選擇的行為或是策略進行選擇并加以實施,并從各自取得相應結(jié)果或收益的過程,在經(jīng)濟學上博弈論是個非常重要的理論概念。
什么是博弈論?古語有云,世事如棋。生活中每個人如同棋手,其每一個行為如同在一張看不見的棋盤上布一個子,精明慎重的棋手們相互揣摩、相互牽制,人人爭贏,下出諸多精彩紛呈、變化多端的棋局。博弈論是研究棋手們“出棋”著數(shù)中理性化、邏輯化的部分,并將其系統(tǒng)化為一門科學。換句話說,就是研究個體如何在錯綜復雜的相互影響中得出最合理的策略。事實上,博弈論正是衍生于古老的游戲或曰博弈如象棋、撲克等。數(shù)學家們將具體的問題抽象化,通過建立自完備的邏輯框架、體系研究其規(guī)律及變化。這可不是件容易的事情,以最簡單的二人對弈為例,稍想一下便知此中大有玄妙:若假設(shè)雙方都精確地記得自己和對手的每一步棋且都是最“理性”的棋手,甲出子的時候,為了贏棋,得仔細考慮乙的想法,而乙出子時也得考慮甲的想法,所以甲還得想到乙在想他的想法,乙當然也知道甲想到了他在想甲的想法…
面對如許重重迷霧,博弈論怎樣著手分析解決問題,怎樣對作為現(xiàn)實歸納的抽象數(shù)學問題求出最優(yōu)解、從而為在理論上指導實踐提供可能性呢?現(xiàn)代博弈理論由匈牙利大數(shù)學家馮·諾伊曼于20世紀20年代開始創(chuàng)立,1944年他與經(jīng)濟學家奧斯卡·摩根斯特恩合作出版的巨著《博弈論與經(jīng)濟行為》,標志著現(xiàn)代系統(tǒng)博弈理論的初步形成。對于非合作、純競爭型博弈,諾伊曼所解決的只有二人零和博弈--好比兩個人下棋、或是打乒乓球,一個人贏一著則另一個人必輸一著,凈獲利為零。在這里抽象化后的博弈問題是,已知參與者集合(兩方),策略集合(所有棋著),和盈利集合(贏子輸子),能否且如何找到一個理論上的“解”或“平衡”,也就是對參與雙方來說都最“合理”、最優(yōu)的具體策略?怎樣才是“合理”?應用傳統(tǒng)決定論中的“最小最大”準則,即博弈的每一方都假設(shè)對方的所有功略的根本目的是使自己最大程度地失利,并據(jù)此最優(yōu)化自己的對策,諾伊曼從數(shù)學上證明,通過一定的線性運算,對于每一個二人零和博弈,都能夠找到一個“最小最大解”。通過一定的線性運算,競爭雙方以概率分布的形式隨機使用某套最優(yōu)策略中的各個步驟,就可以最終達到彼此盈利最大且相當。當然,其隱含的意義在于,這套最優(yōu)策略并不依賴于對手在博弈中的操作。用通俗的話說,這個著名的最小最大定理所體現(xiàn)的基本“理性”思想是“抱最好的希望,做最壞的打算”。
博弈論不僅僅存在于數(shù)學的運籌學中,也正在經(jīng)濟學中占據(jù)越來越重要的地位,但如果你認為博弈論的應用領(lǐng)域僅限于此的話,那你就大錯了。實際上,博弈論甚至在我們的工作和生活中無處不在!在工作中,你在和上司博弈,也在和下屬博弈,你也同樣會跟其他相關(guān)部門人員博弈;而要開展業(yè)務,你更是在和你的客戶以及競爭對手博弈。在生活中,博弈仍然無處不在。博弈論代表著一種全新的分析方法和全新的思想。
諾貝爾經(jīng)濟學獎獲得者包羅·薩繆爾遜如是說:
要想在現(xiàn)代社會做個有價值的人,你就必須對博弈論有個大致的了解。
也可以這樣說,要相贏得生意,不可不學博弈論;要想贏得生活,同樣不可不學博弈論。
博弈論很深奧嗎?通過本教材你將發(fā)現(xiàn)深奧的博弈論原來也可以這么生動、通俗和易懂。大量的案例、平實的語言,將幫助你輕松掌握博弈論這個今天最時髦的工具。
應用舉例
納什均衡
1950年和1951年納什的兩篇關(guān)于非合作博弈論的重要論文,徹底改變了人們對競爭和市場的看法。他證明了非合作博弈及其均衡解,并證明了均衡解的存在性,即著名的納什均衡。從而揭示了博弈均衡與經(jīng)濟均衡的內(nèi)在聯(lián)系。納什的研究奠定了現(xiàn)代非合作博弈論的基石,后來的博弈論研究基本上都沿著這條主線展開的。然而,納什天才的發(fā)現(xiàn)卻遭到馮·諾依曼的斷然否定,在此之前他還受到愛因斯坦的冷遇。但是骨子里挑戰(zhàn)權(quán)威、藐視權(quán)威的本性,使納什堅持了自己的觀點,終成一代大師。要不是30多年的嚴重精神病折磨,恐怕他早已站在諾貝爾獎的領(lǐng)獎臺上了,而且也絕不會與其他人分享這一殊榮。
納什是一個非常天才的數(shù)學家,他的主要貢獻是1950至1951年在普林斯頓讀博士學位時做出的。然而,他的天才發(fā)現(xiàn)———非合作博弈的均衡,即“納什均衡”并不是一帆風順的。
1948年納什到普林斯頓大學讀數(shù)學系的博士。那一年他還不到20歲。當時普林斯頓可謂人杰地靈,大師如云。愛因斯坦、馮·諾依曼、列夫謝茨(數(shù)學系主任)、阿爾伯特·塔克、阿倫佐·切奇、哈羅德·庫恩、諾爾曼·斯蒂恩羅德、埃爾夫·??怂埂热荚谶@里。博弈論主要是由馮·諾依曼(1903—1957)創(chuàng)所立的。他是一位出生于匈牙利的天才的數(shù)學家。他不僅創(chuàng)立了經(jīng)濟博弈論,而且提出了計算機的基本原理。早在20世紀初,塞梅魯(Zermelo)、鮑羅(Borel)和馮·諾伊曼已經(jīng)開始研究博弈的準確的數(shù)學表達,直到1939年,馮·諾依曼遇到經(jīng)濟學家奧斯卡·摩根斯特恩(OskarMorgenstern),并與其合作才使博弈論進入經(jīng)濟學的廣闊領(lǐng)域。
1944年他與奧斯卡·摩根斯特恩合著的巨作《博弈論與經(jīng)濟行為》出版,標志著現(xiàn)代系統(tǒng)博弈理論的的初步形成。盡管對具有博弈性質(zhì)的問題的研究可以追溯到19世紀甚至更早。例如,1838年古諾(Cournot)簡單雙寡頭壟斷博弈;1883年伯特蘭和1925年艾奇沃奇思研究了兩個寡頭的產(chǎn)量與價格壟斷;2000多年前中國著名軍事家孫武的后代孫臏利用博弈論方法幫助田忌賽馬取勝等等都屬于早期博弈論的萌芽,其特點是零星的,片斷的研究,帶有很大的偶然性,很不系統(tǒng)。馮·諾依曼和摩根斯特恩的《博弈論與經(jīng)濟行為》一書中提出的標準型、擴展型和合作型博弈模型解的概念和分析方法,奠定了這門學科的理論基礎(chǔ)。合作型博弈在20世紀50年代達到了巔峰期。然而,諾依曼的博弈論的局限性也日益暴露出來,由于它過于抽象,使應用范圍受到很大限制,在很長時間里,人們對博弈論的研究知之甚少,只是少數(shù)數(shù)學家的專利,所以,影響力很有限。正是在這個時候,非合作博弈———“納什均衡”應運而生了,它標志著博弈論的新時代的開始!納什不是一個按部就班的學生,他經(jīng)常曠課。據(jù)他的同學們回憶,他們根本想不起來曾經(jīng)什么時候和納什一起完完整整地上過一門必修課,但納什爭辯說,至少上過斯蒂恩羅德的代數(shù)拓撲學。斯蒂恩羅德恰恰是這門學科的創(chuàng)立者,可是,沒上幾次課,納什就認定這門課不符合他的口味。于是,又走人了。然而,納什畢竟是一位英才天縱的非凡人物,他廣泛涉獵數(shù)學王國的每一個分支,如拓撲學、代數(shù)幾何學、邏輯學、博弈論等等,深深地為之著迷。納什經(jīng)常顯示出他與眾不同的自信和自負,充滿咄咄逼人的學術(shù)野心。1950年整個夏天納什都忙于應付緊張的考試,他的博弈論研究工作被迫中斷,他感到這是莫大的浪費。殊不知這種暫時的“放棄”,使原來模糊、雜亂和無緒的若干念頭,在潛意識的持續(xù)思考下,逐步形成一條清晰的脈絡(luò),突然來了靈感!這一年的10月,他驟感才思潮涌,夢筆生花。其中一個最耀眼的亮點就是日后被稱之為“納什均衡”的非合作博弈均衡的概念。納什的主要學術(shù)貢獻體現(xiàn)在1950年和1951年的兩篇論文之中(包括一篇博士論文)。1950年他才把自己的研究成果寫成題為“非合作博弈”的長篇博士論文,1950年11月刊登在美國全國科學院每月公報上,立即引起轟動。說起來這全靠師兄戴維·蓋爾之功,就在遭到馮·諾依曼貶低幾天之后,他遇到蓋爾,告訴他自己已經(jīng)將馮·諾依曼的“最小最大原理”(minimaxsolution)推到非合作博弈領(lǐng)域,找到了普遍化的方法和均衡點。蓋爾聽得很認真,他終于意識到納什的思路比馮·諾伊曼的合作博弈的理論更能反映現(xiàn)實的情況,而對其嚴密優(yōu)美的數(shù)學證明極為贊嘆。蓋爾建議他馬上整理出來發(fā)表,以免被別人捷足先登。納什這個初出茅廬的小子,根本不知道競爭的險惡,從未想過要這么做。結(jié)果還是蓋爾充當了他的“經(jīng)紀人”,代為起草致科學院的短信,系主任列夫謝茨則親自將文稿遞交給科學院。納什寫的文章不多,就那么幾篇,但已經(jīng)足夠了,因為都是精品中的精品。這一點也是值得我們深思的。國內(nèi)提一個教授,要求在“核心的刊物”上發(fā)表多少篇文章。按照這個標準可能納什還不一定夠資格。
1996年諾貝爾經(jīng)濟學獎得主莫爾里斯當牛津大學艾奇沃思經(jīng)濟學講座教授時也沒有發(fā)表過什么文章,特殊的人才,必須有特殊的選拔辦法。
納什在上大學時就開始從事純數(shù)學的博弈論研究,1948年進入普林斯頓大學后更是如魚得水。20歲出頭已成為聞名世界的數(shù)學家。特別是在經(jīng)濟博弈論領(lǐng)域,他做出了劃時代的貢獻,是繼馮·諾依曼之后最偉大的博弈論大師之一。他提出的著名的納什均衡的概念在非合作博弈理論中起著核心的作用。后續(xù)的研究者對博弈論的貢獻,都是建立在這一概念之上的。由于納什均衡的提出和不斷完善為博弈論廣泛應用于經(jīng)濟學、管理學、社會學、政治學、軍事科學等領(lǐng)域奠定了堅實的理論基礎(chǔ)。
囚徒困境
在博弈論中,含有占優(yōu)戰(zhàn)略均衡的一個著名例子是由塔克給出的“囚徒困境”(prisoners’dilemma)博弈模型。該模型用一種特別的方式為我們講述了一個警察與小偷的故事。假設(shè)有兩個小偷A(chǔ)和B聯(lián)合犯事、私入民宅被警察抓住。警方將兩人分別置于不同的兩個房間內(nèi)進行審訊,對每一個犯罪嫌疑人,警方給出的政策是:如果兩個犯罪嫌疑人都坦白了罪行,交出了贓物,于是證據(jù)確鑿,兩人都被判有罪,各被判刑8年;如果只有一個犯罪嫌疑人坦白,另一個人沒有坦白而是抵賴,則以妨礙公務罪(因已有證據(jù)表明其有罪)再加刑2年,而坦白者有功被減刑8年,立即釋放。如果兩人都抵賴,則警方因證據(jù)不足不能判兩人的偷竊罪,但可以私入民宅的罪名將兩人各判入獄1年。表2.2給出了這個博弈的支付矩陣。
表2.2囚徒困境博弈[Prisoner'sdilemma]
A╲B坦白抵賴
坦白-8,-80,-10
抵賴-10,0-1,-1
我們來看看這個博弈可預測的均衡是什么。對A來說,盡管他不知道B作何選擇,但他知道無論B選擇什么,他選擇“坦白”總是最優(yōu)的。顯然,根據(jù)對稱性,B也會選擇“坦白”,結(jié)果是兩人都被判刑8年。但是,倘若他們都選擇“抵賴”,每人只被判刑1年。在表2.2中的四種行動選擇組合中,(抵賴、抵賴)是帕累托最優(yōu)的,因為偏離這個行動選擇組合的任何其他行動選擇組合都至少會使一個人的境況變差。不難看出,“坦白”是任一犯罪嫌疑人的占優(yōu)戰(zhàn)略,而(坦白,坦白)是一個占優(yōu)戰(zhàn)略均衡。
要了解納什的貢獻,首先要知道什么是非合作博弈問題?,F(xiàn)在幾乎所有的博弈論教科書上都會講“囚犯的兩難處境”的例子,每本書上的例子都大同小異。
博弈論畢竟是數(shù)學,更確切地說是運籌學的一個分支,談經(jīng)論道自然少不了數(shù)學語言,外行人看來只是一大堆數(shù)學公式。好在博弈論關(guān)心的是日常經(jīng)濟生活問題,所以不能不食人間煙火。其實這一理論是從棋弈、撲克和戰(zhàn)爭等帶有競賽、對抗和決策性質(zhì)的問題中借用的術(shù)語,聽上去有點玄奧,實際上卻具有重要現(xiàn)實意義。博弈論大師看經(jīng)濟社會問題猶如棋局,常常寓深刻道理于游戲之中。所以,多從我們的日常生活中的凡人小事入手,以我們身邊的故事做例子,娓娓道來,并不乏味。話說有一天,一位富翁在家中被殺,財物被盜。警方在此案的偵破過程中,抓到兩個犯罪嫌疑人,斯卡爾菲絲和那庫爾斯,并從他們的住處搜出被害人家中丟失的財物。但是,他們矢口否認曾殺過人,辯稱是先發(fā)現(xiàn)富翁被殺,然后只是順手牽羊偷了點兒東西。于是警方將兩人隔離,分別關(guān)在不同的房間進行審訊。由地方檢察官分別和每個人單獨談話。檢察官說,“由于你們的偷盜罪已有確鑿的證據(jù),所以可以判你們一年刑期。但是,我可以和你做個交易。如果你單獨坦白殺人的罪行,我只判你三個月的監(jiān)禁,但你的同伙要被判十年刑。如果你拒不坦白,而被同伙檢舉,那么你就將被判十年刑,他只判三個月的監(jiān)禁。但是,如果你們兩人都坦白交代,那么,你們都要被判5年刑。”斯卡爾菲絲和那庫爾斯該怎么辦呢?他們面臨著兩難的選擇——坦白或抵賴。顯然最好的策略是雙方都抵賴,結(jié)果是大家都只被判一年。但是由于兩人處于隔離的情況下無法串供。所以,按照亞當·斯密的理論,每一個人都是從利己的目的出發(fā),他們選擇坦白交代是最佳策略。因為坦白交代可以期望得到很短的監(jiān)禁———3個月,但前提是同伙抵賴,顯然要比自己抵賴要坐10年牢好。這種策略是損人利己的策略。不僅如此,坦白還有更多的好處。如果對方坦白了而自己抵賴了,那自己就得坐10年牢。太不劃算了!因此,在這種情況下還是應該選擇坦白交代,即使兩人同時坦白,至多也只判5年,總比被判10年好吧。所以,兩人合理的選擇是坦白,原本對雙方都有利的策略(抵賴)和結(jié)局(被判1年刑)就不會出現(xiàn)。這樣兩人都選擇坦白的策略以及因此被判5年的結(jié)局被稱為“納什均衡”,也叫非合作均衡。因為,每一方在選擇策略時都沒有“共謀”(串供),他們只是選擇對自己最有利的策略,而不考慮社會福利或任何其他對手的利益。也就是說,這種策略組合由所有局中人(也稱當事人、參與者)的最佳策略組合構(gòu)成。沒有人會主動改變自己的策略以便使自己獲得更大利益?!扒敉降膬呻y選擇”有著廣泛而深刻的意義。個人理性與集體理性的沖突,各人追求利己行為而導致的最終結(jié)局是一個“納什均衡”,也是對所有人都不利的結(jié)局。他們兩人都是在坦白與抵賴策略上首先想到自己,這樣他們必然要服長的刑期。只有當他們都首先替對方著想時,或者相互合謀(串供)時,才可以得到最短時間的監(jiān)禁的結(jié)果?!凹{什均衡”首先對亞當·斯密的“看不見的手”的原理提出挑戰(zhàn)。按照斯密的理論,在市場經(jīng)濟中,每一個人都從利己的目的出發(fā),而最終全社會達到利他的效果。不妨讓我們重溫一下這位經(jīng)濟學圣人在《國富論》中的名言:“通過追求(個人的)自身利益,他常常會比其實際上想做的那樣更有效地促進社會利益。”從“納什均衡”我們引出了“看不見的手”的原理的一個悖論:從利己目的出發(fā),結(jié)果損人不利己,既不利己也不利他。兩個囚徒的命運就是如此。從這個意義上說,“納什均衡”提出的悖論實際上動搖了西方經(jīng)濟學的基石。因此,從“納什均衡”中我們還可以悟出一條真理:合作是有利的“利己策略”。但它必須符合以下黃金律:按照你愿意別人對你的方式來對別人,但只有他們也按同樣方式行事才行。也就是中國人說的“己所不欲勿施于人”。但前提是人所不欲勿施于我。其次,“納什均衡”是一種非合作博弈均衡,在現(xiàn)實中非合作的情況要比合作情況普遍。所以“納什均衡”是對馮·諾依曼和摩根斯特恩的合作博弈理論的重大發(fā)展,甚至可以說是一場革命。
從“納什均衡”的普遍意義中我們可以深刻領(lǐng)悟司空見慣的經(jīng)濟、社會、政治、國防、管理和日常生活中的博弈現(xiàn)象。我們將例舉出許多類似于“囚徒的兩難處境”這樣的例子。如價格戰(zhàn)、軍奮競賽、污染等等。一般的博弈問題由三個要素所構(gòu)成:即局中人(players)又稱當事人、參與者、策略等等的集合,策略(strategies)集合以及每一對局中人所做的選擇和贏得(payoffs)集合。其中所謂贏得是指如果一個特定的策略關(guān)系被選擇,每一局中人所得到的效用。所有的博弈問題都會遇到這三個要素。
價格戰(zhàn)博弈
現(xiàn)在我們經(jīng)常會遇到各種各樣的家電價格大戰(zhàn),彩電大戰(zhàn)、冰箱大戰(zhàn)、空調(diào)大戰(zhàn)、微波爐大戰(zhàn)……這些大戰(zhàn)的受益者首先是消費者。每當看到一種家電產(chǎn)品的價格大戰(zhàn),百姓都會“沒事兒偷著樂”。在這里,我們可以解釋廠家價格大戰(zhàn)的結(jié)局也是一個“納什均衡”,而且價格戰(zhàn)的結(jié)果是誰都沒錢賺。因為博弈雙方的利潤正好是零。競爭的結(jié)果是穩(wěn)定的,即是一個“納什均衡”。這個結(jié)果可能對消費者是有利的,但對廠商而言是災難性的。所以,價格戰(zhàn)對廠商而言意味著自殺。從這個案例中我們可以引伸出兩個問題,一是競爭削價的結(jié)果或“納什均衡”可能導致一個有效率的零利潤結(jié)局。二是如果不采取價格戰(zhàn),作為一種敵對博弈論(vivalrygame)其結(jié)果會如何呢?每一個企業(yè),都會考慮采取正常價格策略,還是采取高價格策略形成壟斷價格,并盡力獲取壟斷利潤。如果壟斷可以形成,則博弈雙方的共同利潤最大。這種情況就是壟斷經(jīng)營所做的,通常會抬高價格。另一個極端的情況是廠商用正常的價格,雙方都可以獲得利潤。從這一點,我們又引出一條基本準則:“把你自己的戰(zhàn)略建立在假定對手會按其最佳利益行動的基礎(chǔ)上”。事實上,完全競爭的均衡就是“納什均衡”或“非合作博弈均衡”。在這種狀態(tài)下,每一個廠商或消費者都是按照所有的別人已定的價格來進行決策。在這種均衡中,每一企業(yè)要使利潤最大化,消費者要使效用最大化,結(jié)果導致了零利潤,也就是說價格等于邊際成本。在完全競爭的情況下,非合作行為導致了社會所期望的經(jīng)濟效率狀態(tài)。如果廠商采取合作行動并決定轉(zhuǎn)向壟斷價格,那么社會的經(jīng)濟效率就會遭到破壞。這就是為什么WTO和各國政府要加強反壟斷的意義所在。
污染博弈
假如市場經(jīng)濟中存在著污染,但政府并沒有管制的環(huán)境,企業(yè)為了追求利潤的最大化,寧愿以犧牲環(huán)境為代價,也絕不會主動增加環(huán)保設(shè)備投資。按照看不見的手的原理,所有企業(yè)都會從利己的目的出發(fā),采取不顧環(huán)境的策略,從而進入“納什均衡”狀態(tài)。如果一個企業(yè)從利他的目的出發(fā),投資治理污染,而其他企業(yè)仍然不顧環(huán)境污染,那么這個企業(yè)的生產(chǎn)成本就會增加,價格就要提高,它的產(chǎn)品就沒有競爭力,甚至企業(yè)還要破產(chǎn)。這是一個“看不見的手的有效的完全競爭機制”失敗的例證。直到20世紀90年代中期,中國鄉(xiāng)鎮(zhèn)企業(yè)的盲目發(fā)展造成嚴重污染的情況就是如此。只有在政府加強污染管制時,企業(yè)才會采取低污染的策略組合。企業(yè)在這種情況下,獲得與高污染同樣的利潤,但環(huán)境將更好。
貿(mào)易戰(zhàn)博弈
貿(mào)易戰(zhàn)對于剛剛加入WTO的中國而言尤為重要。任何一個國家在國際貿(mào)易中都面臨著保持貿(mào)易自由與實行貿(mào)易保護主義的兩難選擇。貿(mào)易自由與壁壘問題,也是一個“納什均衡”,這個均衡是貿(mào)易雙方采取不合作博弈的策略,結(jié)果使雙方因貿(mào)易戰(zhàn)受到損害。X國試圖對Y國進行進口貿(mào)易限制,比如提高關(guān)稅,則Y國必然會進行反擊,也提高關(guān)稅,結(jié)果誰也沒有撈到好處。反之,如X和Y能達成合作性均衡,即從互惠互利的原則出發(fā),雙方都減少關(guān)稅限制,結(jié)果大家都從貿(mào)易自由中獲得了最大利益,而且全球貿(mào)易的總收益也增加了。
博弈論--這是一個熱得燙手的概念。它不僅僅存在于數(shù)學的運籌學中,也正在經(jīng)濟學中占據(jù)越來越重要的地位(近幾年諾貝爾經(jīng)濟學獎就頻頻授予博弈論研究者),但如果你認為博弈論的應用領(lǐng)域僅限于此的話,那你就大錯了。實際上,博弈論甚至在我們的工作和生活中無處不在!在工作中,你在和上司博弈,也在和下屬博弈,你也同樣會跟其他相關(guān)部門人員博弈;而要開展業(yè)務,你更是在和你的客戶以及競爭對手博弈。在生活中,博弈仍然無處不在。博弈論代表著一種全新的分析方法和全新的思想。
諾貝爾經(jīng)濟學獎獲得者包羅·薩繆爾遜如是說:
要想在現(xiàn)代社會做個有價值的人,你就必須對博弈論有個大致的了解。
也可以這樣說,要相贏得生意,不可不學博弈論;要想贏得生活,同樣不可不學博弈論。
愛華網(wǎng)



