作者:蔡東霖
知道基本假設及定義之後,再來看看什麼是「均衡」。
關於均衡(Equilibrium)
◎均衡的定義:
- 一種系統形勢(situation of a system),此形勢下,所有競爭的影響達到平衡。或者說,當每個參賽者都認為自己選擇了最佳策略而不願變動時,此時就是達成一種均衡。
- 在均衡狀態下,沒有外部影響的情況,經濟變數(economic variables)的形勢(situation)或價值(values)不會改變。
- 一種平衡的狀況。也就是說,我們可以預測此賽局的結果會傾向這種平衡狀況。
- 「均衡」的狀況,就是此賽局的可能結果。而,人們都想預測賽局的結果。所以,會開始想方設法去找賽局的可能「均衡」狀況。底下會陸續提到三種「均衡」狀況。
- 所以,如果我們自己是參賽者之一,在談判桌上,最好的狀況就是把結果談到「均衡」的狀況,尤其是下面會提到的「奈許均衡(Nash equilibrium)」。
- 不管對手出什麼策略,自己的策略永遠是最好的策略。
- 面對其他參賽者可能選擇的任何策略,如果該策略是參賽者的絕對最佳反應,那麼該策略就是一種占主導地位的優勢策略。從某種意義上說,無論參賽者選擇哪種策略,此一策略的收益都是最高的。
[數學表示]
πi 是 i 的報酬
si* 是 i 的優勢策略
πi ( si*, s-i ) > πi ( si’, s-i ) , ∀ s-i, ∀si’ ≠ si*
- 是一種策略組合,它包含每個參賽者的優勢策略。
警方逮捕A、B兩名嫌疑犯,但沒有足夠證據指控二人有罪。於是,警方分開囚禁嫌疑犯A、B,並向雙方提供以下相同的選擇:
- 若一人認罪並作證檢控對方,而對方不認罪,此人將即時獲釋,對方將判監6年。
- 若二人都不認罪,則二人同樣判監1年。
- 若二人都認罪,則二人同樣判監4年。
B
|
|||
不認罪
deny the crime |
認罪
confess |
||
A
|
不認罪
deny the crime |
(-1,-1)
|
(-6,0)
|
認罪
confess |
(0,-6)
|
(-4,-4)
|
對 A 而言:
當 B 選擇「不認罪」時,πA(認罪, 不認罪)> πA(不認罪, 不認罪)
當 B 選擇「認罪」時,πA(認罪, 認罪)> πA(不認罪, 認罪)
所以,不論 B 選擇啥,A 都會選擇「認罪」。
反之亦然,對 B 而言,不論 A 選擇啥,B 都會選擇「認罪」。
警方採隔離偵詢方式,他們沒辦法達成協議;對A而言,認罪是優勢策略,對 B 而言,認罪也是優勢策略,所以當兩個理性的犯人陷入困境時,他們一定會認罪。
因此,他們的優勢策略均衡點為(-4,-4),雙方都會認罪。也就是說,我們可以預測此賽局的結果會傾向「雙方都會認罪」。
◎◎社會困境(Social Dilemmas)
事實上,上面的虛擬案例中,可以發現,最好的狀況是點(-1,-1),也就是雙方都不認罪。但是,因為「自利」的因素,所有賽局中的參賽者所做的決策,都會導致結果為點(-4,-4)
◎什麼是「劣勢策略(Weakly Dominated Strategy)」
- 賽局中存在一些可能可以接受,而且永遠也不會更差的策略。在某些策略組合中有偏高的收益,而也永遠不會產生更低的收益。
- 參賽者手中的牌很差,不管對手怎麼出牌,參賽者出的牌都沒有意義。
[數學表示]
如果存在si'',則si' 為劣勢策略
πi( si,s-i ) ≤ πi( si", s-i), ∀s-i
AND
πi( si,s-i ) < πi( si", s-i), for some s-i
- 反覆刪去「劣勢策略」,所得到的均衡。
◎◎定義
如果每個參賽者都知道其他參賽者的均衡策略的情況下,其他參賽者沒有動機偏離其策略,也就是說,沒有參賽者可以透過改變自身策略使自身受益時,則策略組合( si*,s-i* )稱為「奈許均衡」。總之,賽局的結果會傾向「奈許均衡」。
<PS.>「奈許」,人名。全名是:小約翰·富比士·奈許(John Forbes Nash Jr.)。1928年6月13日-2015年5月23日,美國數學家,麻薩諸塞理工學院摩爾榮譽講師、普林斯頓大學資深研究數學家。主要研究賽局理論、微分幾何學和偏微分方程。
[數學表示]
For all i
πi( si* , s-i* ) ≥ πi( si' , s-i' ), ∀si'
◎電台節目的音樂類型選擇
B電台
|
||||
搖滾
|
鄉村
|
談話
|
||
A
電 台 |
搖滾
|
(35 , 35)
|
(50 , 40)
|
(80 , 10)
|
鄉村
|
(40 , 50)
|
(20 , 20)
|
(40 , 10)
| |
談話
|
(10 , 80)
|
(10 , 40)
|
(5 , 5)
|
- 對 A 而言,不管 B 電台放什麼節目,「談話」節目的收益永遠都是最差的,這是「劣勢」。
- 對 B 而言,不管 A 電台放什麼節目,「談話」節目的收益永遠都是最差的,這是「劣勢」。
B電台
|
|||
搖滾
|
鄉村
|
||
A
電 台 |
搖滾
|
(35 , 35)
|
(50 , 40)
|
鄉村
|
(40 , 50)
|
(20 , 20)
|
- 對 A 而言,當 B 放「搖滾」節目時,A 放「鄉村」節目的收益(40)最好。
- 對 A 而言,當 B 放「鄉村」節目時,A 放「搖滾」節目的收益(50)最好。
- 對 B 而言,當 A 放「搖滾」節目時,B 放「鄉村」節目的收益(40)最好。
- 對 B 而言,當 A 放「鄉村」節目時,B 放「搖滾」節目的收益(50)最好。
- 有一種狀況:
當 A 放「搖滾」節目,B 放「鄉村」節目時,A 或 B 都不可能換其他節目,因為換節目後,自身收益不會更好。 - 再一種狀況:
當 A 放「鄉村」節目,B 放「搖滾」節目時,A 或 B 也都不可能換其他節目,因為換節目後,自身收益也不會更好。
- 在囚犯困境的例子中,不論對方選啥,自身都會選擇「認罪」,此賽局的結果傾向:兩人都會認罪的這種情況。這種情況稱為「奈許均衡」。(當然,這種情況也是「優勢策略均衡」)
- 在電台選音樂類型的例子中,賽局的結果傾向:對方選「搖滾」,自身會選擇「鄉村」,或者,對方選「鄉村」,自身會選擇「搖滾」。這兩種情況,也都被稱為「奈許均衡」。(但不是「優勢策略均衡」)
<PS.>好吧,有些特殊賽局並不存在「奈許均衡」。世上總有特例,此時暫不討論,最下面會提。
◎賽局中,超過一個「奈許均衡」,怎麼選擇?
想想其他的因素,進行「淬煉(Refinements)」
- 例如:思考「謝凌點( Schelling Point)」或稱為「聚焦點(Focal Point)」。
每個人期望的聚焦點是他人期望他本人期望被期望做出的選擇。可能跟社會文化或法規有關。比方:日本人比較仔細一點、WTO國際慣例等等。
- prisoner of war 戰俘:日內瓦第三公約
交戰國要如何對待戰俘?以人道對待?或是極刑對待?
對於敵國的戰俘,假設都是人道對待,會得到國際社會的認同,都有好處。
對於敵國的戰俘,假設都是極刑對待,反正兩國正在交戰,大家沒話可說。
假設一國是人道對待,另一國是極刑對待;因為有比較,使用極刑的那一國,會被國際社會抨擊。
B國
| |||
人道
|
極刑
| ||
A
國 |
人道
|
(2 , 2) *
|
(0 , -2)
|
極刑
|
(-2 , 0)
|
(0 , 0) *
|
以上可以發現,「都是人道對待」以及「都是極刑對待」這兩種情況,都是有可能出現的結果,也就是這兩種情況都是「奈許均衡」。
但是,因「日內瓦第三公約」的關係,這個賽局的結果會傾向選擇「都是人道對待」。
<PS.>「謝凌」,人名。全名是:瑪斯·克倫比·謝凌(Thomas Crombie Schelling)。1921年4月14日-2016年12月13日,美國經濟學家,馬里蘭大學公共政策學院教授,2005年諾貝爾經濟學獎得主。研究領域是外交事務、國家安全、核策略和武器控制。
◎賽局中,沒有「奈許均衡」。
如果沒有找到「奈許均衡」,就代表此賽局可能沒有純策略可以導致「奈許均衡」。此時要考慮混合策略。
- 例如,賽局所有的決策都是隨機的,就沒有「奈許均衡」。
A 跟 B 猜拳:剪刀、石頭、布
B
| ||||
剪刀
|
石頭
|
布
| ||
A
|
剪刀
|
(0 , 0)
|
(-1 , 1)
|
(1 , -1)
|
石頭
|
(1 , -1)
|
(0 , 0)
|
(-1 , 1)
| |
布
|
(-1 , 1)
|
(1 , -1)
|
(0 , 0)
|
<PS.>到此為止,前面提到的所有賽局,被稱為「同步賽局(simultaneous game)」或「靜態賽局 (static game)」。簡單說就是:在同一時間,每個參賽者在不知道其他參賽者會選擇哪一選項的情況下,選擇自己行動。
<PS.>所有英翻中的詞:以「國家教育研究院」所屬「雙語詞彙、學術名詞暨辭書資訊網」的「經濟學領域」的翻譯為主,一般常用翻譯為輔。