蔡東霖 Tsai, Tunglin: 賽局-02

作者：蔡東霖

知道基本假設及定義之後，再來看看什麼是「均衡」。

關於均衡（Equilibrium）

◎均衡的定義：

一種系統形勢（situation of a system），此形勢下，所有競爭的影響達到平衡。或者說，當每個參賽者都認為自己選擇了最佳策略而不願變動時，此時就是達成一種均衡。
在均衡狀態下，沒有外部影響的情況，經濟變數（economic variables）的形勢（situation）或價值（values）不會改變。
一種平衡的狀況。也就是說，我們可以預測此賽局的結果會傾向這種平衡狀況。

「均衡」的狀況，就是此賽局的可能結果。而，人們都想預測賽局的結果。所以，會開始想方設法去找賽局的可能「均衡」狀況。底下會陸續提到三種「均衡」狀況。
所以，如果我們自己是參賽者之一，在談判桌上，最好的狀況就是把結果談到「均衡」的狀況，尤其是下面會提到的「奈許均衡（Nash equilibrium）」。

◎什麼是「優勢策略（Dominant Strategy）」

不管對手出什麼策略，自己的策略永遠是最好的策略。
面對其他參賽者可能選擇的任何策略，如果該策略是參賽者的絕對最佳反應，那麼該策略就是一種占主導地位的優勢策略。從某種意義上說，無論參賽者選擇哪種策略，此一策略的收益都是最高的。

[數學表示]
π_i 是 i 的報酬
s_i* 是 i 的優勢策略
π_i ( s_i*, s_-i ) > π_i ( s_i’, s_-i ) , ∀ s_-i, ∀s_i’ ≠ s_i*

◎優勢策略均衡（Dominant Strategy Equilibrium）

是一種策略組合，它包含每個參賽者的優勢策略。

◎◎囚犯困境（Prisoner’s dilemma）

警方逮捕A、B兩名嫌疑犯，但沒有足夠證據指控二人有罪。於是，警方分開囚禁嫌疑犯A、B，並向雙方提供以下相同的選擇：

若一人認罪並作證檢控對方，而對方不認罪，此人將即時獲釋，對方將判監6年。
若二人都不認罪，則二人同樣判監1年。
若二人都認罪，則二人同樣判監4年。

		B
		不認罪 deny the crime	認罪 confess
A	不認罪 deny the crime	(-1,-1)	(-6,0)
A	認罪 confess	(0,-6)	(-4,-4)

對 A 而言:
當 B 選擇「不認罪」時，π_A（認罪, 不認罪）> π_A（不認罪, 不認罪）
當 B 選擇「認罪」時，π_A（認罪, 認罪）> π_A（不認罪, 認罪）
所以，不論 B 選擇啥，A 都會選擇「認罪」。

反之亦然，對 B 而言，不論 A 選擇啥，B 都會選擇「認罪」。

警方採隔離偵詢方式，他們沒辦法達成協議；對Ａ而言，認罪是優勢策略，對 B 而言，認罪也是優勢策略，所以當兩個理性的犯人陷入困境時，他們一定會認罪。

因此，他們的優勢策略均衡點為(-4,-4)，雙方都會認罪。也就是說，我們可以預測此賽局的結果會傾向「雙方都會認罪」。

◎◎社會困境（Social Dilemmas）

事實上，上面的虛擬案例中，可以發現，最好的狀況是點(-1,-1)，也就是雙方都不認罪。但是，因為「自利」的因素，所有賽局中的參賽者所做的決策，都會導致結果為點(-4,-4)

◎什麼是「劣勢策略（Weakly Dominated Strategy）」

賽局中存在一些可能可以接受，而且永遠也不會更差的策略。在某些策略組合中有偏高的收益，而也永遠不會產生更低的收益。
參賽者手中的牌很差，不管對手怎麼出牌，參賽者出的牌都沒有意義。

[數學表示]
如果存在s_i''，則s_i' 為劣勢策略
π_i( s_i,s_-i ) ≤ π_i( s_i", s_-i), ∀s_-i
AND
π_i( s_i,s_-i ) < π_i( s_i", s_-i), for some s_-i

◎逐次優勢均衡（Iterated Dominance Equilibrium）

反覆刪去「劣勢策略」，所得到的均衡。

◎奈許均衡（Nash equilibrium）
◎◎定義
如果每個參賽者都知道其他參賽者的均衡策略的情況下，其他參賽者沒有動機偏離其策略，也就是說，沒有參賽者可以透過改變自身策略使自身受益時，則策略組合（ s_i*，s_-i* ）稱為「奈許均衡」。總之，賽局的結果會傾向「奈許均衡」。

<PS.>「奈許」，人名。全名是：小約翰·富比士·奈許（John Forbes Nash Jr.）。1928年6月13日－2015年5月23日，美國數學家，麻薩諸塞理工學院摩爾榮譽講師、普林斯頓大學資深研究數學家。主要研究賽局理論、微分幾何學和偏微分方程。

[數學表示]
For all i
π_i( s_i* , s_-i* ) ≥ π_i( s_i' , s_-i' ), ∀s_i'

◎電台節目的音樂類型選擇

		B電台
		搖滾	鄉村	談話
A 電台	搖滾	(35 , 35)	(50 , 40)	(80 , 10)
	鄉村	(40 , 50)	(20 , 20)	(40 , 10)
	談話	(10 , 80)	(10 , 40)	(5 , 5)

對 A 而言，不管 B 電台放什麼節目，「談話」節目的收益永遠都是最差的，這是「劣勢」。
對 B 而言，不管 A 電台放什麼節目，「談話」節目的收益永遠都是最差的，這是「劣勢」。

所以，刪去「劣勢」之後，剩下：

		B電台
		搖滾	鄉村
A 電台	搖滾	(35 , 35)	(50 , 40)
A 電台	鄉村	(40 , 50)	(20 , 20)

此時，

對 A 而言，當 B 放「搖滾」節目時，A 放「鄉村」節目的收益（40）最好。
對 A 而言，當 B 放「鄉村」節目時，A 放「搖滾」節目的收益（50）最好。

反之亦然，

對 B 而言，當 A 放「搖滾」節目時，B 放「鄉村」節目的收益（40）最好。
對 B 而言，當 A 放「鄉村」節目時，B 放「搖滾」節目的收益（50）最好。

此時，我們可以預測此賽局的結果會傾向兩種狀況之一：

有一種狀況：
當 A 放「搖滾」節目，B 放「鄉村」節目時，A 或 B 都不可能換其他節目，因為換節目後，自身收益不會更好。
再一種狀況：
當 A 放「鄉村」節目，B 放「搖滾」節目時，A 或 B 也都不可能換其他節目，因為換節目後，自身收益也不會更好。

總之：

在囚犯困境的例子中，不論對方選啥，自身都會選擇「認罪」，此賽局的結果傾向：兩人都會認罪的這種情況。這種情況稱為「奈許均衡」。（當然，這種情況也是「優勢策略均衡」）
在電台選音樂類型的例子中，賽局的結果傾向：對方選「搖滾」，自身會選擇「鄉村」，或者，對方選「鄉村」，自身會選擇「搖滾」。這兩種情況，也都被稱為「奈許均衡」。（但不是「優勢策略均衡」）

所以，賽局中，「優勢策略均衡」不一定存在，但是「奈許均衡」一定會存在，而且「奈許均衡」有可能超過一個。

<PS.>好吧，有些特殊賽局並不存在「奈許均衡」。世上總有特例，此時暫不討論，最下面會提。

◎賽局中，超過一個「奈許均衡」，怎麼選擇？
想想其他的因素，進行「淬煉（Refinements）」

例如：思考「謝凌點（ Schelling Point）」或稱為「聚焦點（Focal Point）」。
每個人期望的聚焦點是他人期望他本人期望被期望做出的選擇。可能跟社會文化或法規有關。比方：日本人比較仔細一點、WTO國際慣例等等。

prisoner of war 戰俘：日內瓦第三公約
交戰國要如何對待戰俘？以人道對待？或是極刑對待？
對於敵國的戰俘，假設都是人道對待，會得到國際社會的認同，都有好處。
對於敵國的戰俘，假設都是極刑對待，反正兩國正在交戰，大家沒話可說。
假設一國是人道對待，另一國是極刑對待；因為有比較，使用極刑的那一國，會被國際社會抨擊。

		B國
		人道	極刑
A 國	人道	(2 , 2) *	(0 , -2)
A 國	極刑	(-2 , 0)	(0 , 0) *

<PS.>「謝凌」，人名。全名是：瑪斯·克倫比·謝凌（Thomas Crombie Schelling)。1921年4月14日－2016年12月13日，美國經濟學家，馬里蘭大學公共政策學院教授，2005年諾貝爾經濟學獎得主。研究領域是外交事務、國家安全、核策略和武器控制。

◎賽局中，沒有「奈許均衡」。
如果沒有找到「奈許均衡」，就代表此賽局可能沒有純策略可以導致「奈許均衡」。此時要考慮混合策略。

例如，賽局所有的決策都是隨機的，就沒有「奈許均衡」。
A 跟 B 猜拳：剪刀、石頭、布

		B
		剪刀	石頭	布
A	剪刀	(0 , 0)	(-1 , 1)	(1 , -1)
	石頭	(1 , -1)	(0 , 0)	(-1 , 1)
	布	(-1 , 1)	(1 , -1)	(0 , 0)

<PS.>到此為止，前面提到的所有賽局，被稱為「同步賽局(simultaneous game)」或「靜態賽局 (static game)」。簡單說就是：在同一時間，每個參賽者在不知道其他參賽者會選擇哪一選項的情況下，選擇自己行動。

<PS.>所有英翻中的詞：以「國家教育研究院」所屬「雙語詞彙、學術名詞暨辭書資訊網」的「經濟學領域」的翻譯為主，一般常用翻譯為輔。

網站頁籤

2019年11月24日星期日

賽局-02

歡迎隨時指教討論

網站頁籤

2019年11月24日 星期日

賽局-02

歡迎隨時指教討論

2019年11月24日星期日