博弈論是二人在平等的對局中各自利用對方的策略變換自己的對抗策略,達到取勝的意義。博弈論思想古已有之,我國古代的孫子兵法就不僅是一部軍事著作,而且算是最早的一部博弈論專著。博弈論最初主要研究象棋、橋牌、賭博中的勝負問題,人們對博弈局勢的把握只停留在經驗上,沒有向理論化發展。
博弈論考慮遊戲中的個體的預測行為和實際行為,並研究它們的優化策略。
近代對於博弈論的研究,開始於策墨洛(Zermelo),波雷爾(Borel)及馮·諾伊曼(von Neumann)。 博弈論(Game Theory),亦名「對策論」、「賽局理論」,屬應用數學的一個分支, 目前在生物學、經濟學、國際關係、計算機科學、政治學、軍事戰略和其他很多學科都有廣泛的應用。
博弈論主要研究公式化了的激勵結構間的相互作用。是研究具有鬥爭或競爭性質現象的數學理論和方法。也是運籌學的一個重要學科。博弈論考慮遊戲中的個體的預測行為和實際行為,並研究它們的優化策略。生物學家使用博弈理論來理解和預測進化論的某些結果。
博弈要素
1.決策人:在博弈中率先作出決策的一方,這一方往往依據自身的感受、經驗和表面狀態優先採取一種有方向性的行動。(博弈聖經)
2.對抗者:在博弈二人對局中行動滯後的那個人,與決策人要作出基本反面的決定,並且他的動作是滯後的、默認的、被動的,但最終占優。他的策略可能依賴於決策人劣勢的策略選擇,占去空間特性,因此對抗是唯一占優的方式,實為領導人的階段性終結行為。(博弈聖經)
主要範式
智豬博弈
智豬博弈(Pigs』payoffs)講的是:豬圈裡有兩頭豬,一頭大豬,一頭小豬。豬圈的一邊有個踏板,每踩一下踏板,在遠離踏板的豬圈的另一邊的投食口就會落下少量的食物。如果有一隻豬去踩踏板,另一隻豬就有機會搶先吃到另一邊落下的食物。當小豬踩動踏板時,大豬會在小豬跑到食槽之前剛好吃光所有的食物;若是大豬踩動了踏板,則還有機會在小豬吃完落下的食物之前跑到食槽,爭吃到另一半殘羹。
那麼,兩隻豬各會採取什麼策略?答案是:小豬將選擇「搭便車」策略,也就是舒舒服服地等在食槽邊;而大豬則為一點殘羹不知疲倦地奔忙於踏板和食槽之間。改變方案一:減量方案。投食僅原來的一半分量。結果是小豬大豬都不去踩踏板了。小豬去踩,大豬將會把食物吃完;大豬去踩,小豬將也會把食物吃完。誰去踩踏板,就意味著為對方貢獻食物,所以誰也不會有踩踏板的動力了。
如果目的是想讓豬們去多踩踏板,這個遊戲規則的設計顯然是失敗的。
改變方案二:增量方案。投食為原來的一倍分量。結果是小豬、大豬都會去踩踏板。誰想吃,誰就會去踩踏板。反正對方不會一次把食物吃完。小豬和大豬相當於生活在物質相對豐富的「共產主義」社會,所以競爭意識卻不會很強。
對於遊戲規則的設計者來說,這個規則的成本相當高(每次提供雙份的食物);而且因為競爭不強烈,想讓豬們去多踩踏板的效果並不好。
改變方案三:減量加移位方案。投食僅原來的一半分量,但同時將投食口移到踏板附近。結果呢,小豬和大豬都在拼命地搶著踩踏板。等待者不得食,而多勞者多得。每次的收穫剛好消費完。
對於遊戲設計者,這是一個最好的方案。成本不高,但收穫最大。
在股市的思考:散戶投資者等待主力抬轎就是採取了小豬策略;如果換一種思維吧大豬小豬都當成散戶投資者,把市場的主力投資者看成改變 核心指標的制定者就變成了市場主力希望散戶在市場頻繁交易抬高成本,利用震盪洗盤放棄有可能低位持有的籌碼。
囚徒困境
在博弈論中,含有占優戰略均衡的一個著名例子是由塔克給出的「囚徒困境」(prisoners』 dilemma)博弈模型。該模型用一種特別的方式為我們講述了一個警察與小偷的故事。假設有兩個小偷A和B聯合犯事、私入民宅被警察抓住。警方將兩人分別置於不同的兩個房間內進行審訊,對每一個犯罪嫌疑人,警方給出的政策是:如果兩個犯罪嫌疑人都坦白了罪行,交出了贓物,於是證據確鑿,兩人都被判有罪,各被判刑8年;如果只有一個犯罪嫌疑人坦白,另一個人沒有坦白而是抵賴,則以妨礙公務罪(因已有證據表明其有罪)再加刑2年,而坦白者有功被減刑8年,立即釋放。如果兩人都抵賴,則警方因證據不足不能判兩人的偷竊罪,但可以私入民宅的罪名將兩人各判入獄1年。
從「納什均衡」的普遍意義中我們可以深刻領悟司空見慣的經濟、社會、政治、國防、管理和日常生活中的博弈現象。我們將例舉出許多類似於「囚徒的兩難處境」這樣的例子。如價格戰、軍備競賽、污染等等。一般的博弈問題由三個要素所構成:即局中人(players)又稱當事人、參與者、策略等等的集合,策略(strategies)集合以及每一對局中人所做的選擇和贏得(payoffs)集合。其中所謂贏得是指如果一個特定的策略關係被選擇,每一局中人所得到的效用。所有的博弈問題都會遇到這三個要素。
在股市中的思考:信息的不對等,在底部逼散戶割肉的18種方法和在頂部誘惑散戶進場28把軍刀的判斷指標都是和囚徒困境有異曲同工之妙。
目前股市就是囚徒困境的特徵,以私募為代表的中小盤股票在高位想出貨,公募基金,中金公司為代表的機構的大藍籌在估值的合理的位置,如果主流機構不把股指拉起來,沒有大批無頭蒼蠅的新股民進場中小盤的股票是沒有什麼機會出貨的,因為現在市場的存量資金都是久經沙場的老油條,會止損,私募想出貨不是容易的事情。
從囚徒困境的博弈特點來看,對自己最為有利的方法就是自己主動,落井下石,痛打落水狗,主流機構不會拉起指數幫助私募順利出貨來消耗股市的存量資金;讓私募的資金鍊斷裂的辦法就是比較長時間的橫盤震盪,時不時的來利空就急跌讓私募沒有機會出貨直到資金鍊出問題。中小盤的股票開始大幅下跌就是大藍籌雄起的開始。
拋磚引玉,思考博弈論對股市影響在那些地方,基本認為博弈論對非周期性行業影響大一些,因為周期性行業的利潤是不容易藏的,主力要靠各種博弈的方法來達到目的。以上探討只是二人零和博弈還有多人博弈的非合作博弈及更加複雜的合作博弈需要我們去學習了解!
選數字遊戲(來自耶魯開放課程)
在一個有50人以上的班級大家互相不打聽,不看的情況下選3個0–100的一組數字,如果你選擇的數字有大家全部選擇數字和的3分之2就是獲勝。
結果:選擇了有67以上的人是沒有經過思考的傢伙;34-66的是思考了但是盲目的;理論上是最小值是對的,但是耶魯每年測試的結果是12–22之間。
對股市的思考:以上是多人博弈和股市的博弈特徵基本相似,無頭蒼蠅階段的股民就像是選擇了67沒有經過思考的傢伙;學習技術階段的股民就像是選擇34-66的人,了解一些但是不精通;簡單博弈階段的股民是選擇部分正確數字的人,了解股市的精髓但是不夠全面或者是心態修為不夠;博弈大師階段的是全部選正確的人,方方面麵包掛心態的修為已經到了相當的高度的高人!只要模糊的精準不要精準的模糊,經濟學也是模糊的。
警察與小偷
令人沮喪的博弈結局。警察和小偷各只有一個機會去巡查或者偷盜A地或B地。A地的價值大於B地,那麼警察應該為了保護價值大而一直保護A地嗎。博弈論認為當然不是,警察的合理策略應當是有傾向於A以一定概率的隨機巡查。這個概率就是:p=A地價值/AB地總價值。這種情況下才能使小偷最大得手機率降至最低。但是很不幸的是,此時的小偷謀求的是,最小得手機率的最大化。也就是說,警察的最優策略將把小偷的最差策略改良!這個便是馮·諾伊曼提出的「最小最大定律」。
我們必須再一次感謝這個不完美的世界,因為現實之中,類似的現象,對於一方仍然可以設法找到對手致命的規律性行動(當然必須考慮到對方是不是一個更加老練的獵手,故意放出的誘餌)。而保持自己的行動的無序性,則有可能成為欺騙策略的武器,這倒似張三丰所言道的:無招勝有招。
對股市的思考:股市主力和散戶的博弈關係表現的淋漓盡致,主力培養散戶做短線學習技術,主力利用技術反制散戶。
重複博弈
囚徒困境,砸了傳統經濟學的場子。因為個人的自利行為,並不一定導致集體利益的最大化,「看不見的手」拉不住,人類向墮落之城下滑的趨勢,難道這真是一個悲哀?索性並非如此,撇去博弈論的理性假設不說。博弈論者很快發現囚徒困境只在單次博弈情形下明顯,一旦博弈的開始陷入重複,合作將到來。因為,未來的收益將左右目前的決策
理解:天下大勢久合必分,久分必合!
以牙還牙
重複的博弈理論上導致了合作的產生,但是誰也不能保證合作的繼續,因為之前已經說過,合作的代價是建立在損害個人利益基礎之上的。如果個人放棄未來收益或當前背叛收益大於未來收益,背叛的風險仍然存在。
那麼在重複博弈中怎樣的策略才是最優。若干睿智而複雜在經過計算機中PK之後,極其原始的「以牙換牙」策略脫穎而出,固然這個策略簡單至極,其威力卻無窮,以至於人們在短暫的欣喜之後,發現這把太阿指之劍倒持的可怕,一旦重複鏈條中出現一次(也許不經意的)背叛,那據此原則行事的博弈將永無止境的背叛下去,個人利益極度膨脹的同時,集體利益無限衰微。
幸好,這個世界不是模型,也不是如此簡單。很多時候,我們不必以牙還牙,第三方的規範:道德與法律就是我們的假牙,他們更加有利、有理、有節。
諾貝爾經濟學獎獲得者包羅·薩繆爾遜如是說:
要想在現代社會做個有價值的人,你就必須對博弈論有個大致的了解。也可以這樣說,要想贏得生意,不可不學博弈論;要想贏得生活,同樣不可不學博弈論。