WFU

2019年12月20日 星期五

賽局-09


作者:蔡東霖

前面提到的,都是賽局完成後就結束了。有沒有可能,同一個賽局,完了之後再來一次,再再來一次,再再再來一次...
來想想「重覆賽局(Repeated Game)」




A 與 B 兩家公司在市場上,決定要不要殺價競爭。
雙方都不殺價,利潤都是 10
雙方都殺價,利潤都是 5
一方殺價,利潤是 15;另一方不殺價,利潤剩 2

◎只來一次:(A的報酬, B的報酬)
B
不殺價
殺價
A
不殺價
(10, 10)
(2,15)
殺價 
(15 , 2)
(5,5)*
  • A 與 B 互相不知道對方的策略。
  • 沒有時間先後次序的因素,所以畫表格分析
  • 傳統的囚犯困境。(細節:請回看前面內容)
  • 此賽局的解(奈許均衡)為:(5,5)。也就是,兩家都殺價競爭。
◎來兩次:
A 不殺價 B 不殺價 A 不殺價 B 不殺價 (20,20)
ε


α


殺價 (12,25)





殺價 B 不殺價 (25,12)







殺價 (15,15)*



殺價 A 不殺價 B 不殺價 (12,25)



β


殺價 (4,30)





殺價
B
不殺價 (17,17)







殺價 (7,20)*

殺價 B 不殺價 A 不殺價
B
不殺價 (25,12)



γ


殺價 (17,17)





殺價
B
不殺價 (30,4)







殺價 (20,7)*



殺價 A 不殺價
B
不殺價 (15,15)



δ


殺價 (7,20)





殺價
B
不殺價 (20,7)







殺價 (10,10)*
  • 有時間先後次序的因素,所以畫樹狀圖分析。
  • 以「A不殺價>B不殺價>A不殺價>B不殺價」為例,最後報酬的計算是:(10+10,10+10)
    以「A殺價>B不殺價>A不殺價>B殺價」為例,最後報酬的計算是:(15+2,15+2)
    以「A殺價>B殺價>A殺價>B殺價」為例,最後報酬的計算是:(5+5,5+5)
    其餘計算省略,不再列舉。
  • A 與 B 互相不知道對方的策略。所以,第一輪的 B 的資訊集節點不是獨立的(用藍色:代表用虛線圈起來);第二輪的 B 的資訊集節點也不是獨立的(上下兩個B中間用「》」及黃色:代表用虛線圈起來)。
  • 這裡面共有5子賽局:原始起點ε開始、分別由α、 β、 γ、 δ 點開始。
  • α、 β、 γ、 δ 點開始的四個子賽局,可以單獨畫表格找均衡。
    可以發現,所有子賽局的均衡都是(殺價,殺價)。
  • 四個子賽局的均衡結果,併到 ε 點開始的子賽局
    畫表格找均衡。
B
不殺價
殺價
A
不殺價
(15 , 15)
(7, 20)
殺價 
(20 , 7)
(10 , 10)*
  • 可以發現,最後的子賽局的均衡也是(殺價,殺價)。
  • 此賽局的解(奈許均衡)為:(10 , 10)。也就是,兩家都殺價競爭。
◎來兩百次:
  • 同上原理,會找到所有子賽局的均衡都是(殺價,殺價)。
  • 此賽局的解(奈許均衡)也會是:兩家都殺價競爭。
◎來無限次:
  • 所謂「無限次」是指:A 與 B 雙方有很大的機率會相遇,沒有一個明確的最後一局。
  • 所以「無限重覆賽局(Infinitely Repeated Game)」的解(奈許均衡),有三個:
  1. 兩家都殺價競爭。(延續有限次數的結果)
  2. 兩家都不殺價競爭。( 有制約的規範存在時)
  3. Nash Reversion Strategy:
    第一輪參賽者都選「不殺價」,所有參賽者會一直選擇「不殺價」;
    直到某一輪有某一參賽者選擇「殺價」,則往後所有參賽者都會選擇「殺價」。
    (失去信任,背叛的意思)
    N.R.S 此一均衡,只會出現在「無限重覆賽局」,只要有參賽者選擇「N.R.S」就會導致新的「解」出現。
◎◎數學算看看
假設 A 決定採取 「Nash Reversion Strategy」; A 與 B 再相遇的機率是 r 。
  • 第一輪,狀況一:A 不殺價;B 殺價。所以兩者的報酬分別是(2,15)
    B 背叛了,A啟動對應策略,也開始殺價。
    從第二輪開始,兩者的報酬分別是(5,5)。
    B 的總報酬:(考慮「期望值」及「無限級數和」)
    π = 15 + 5 r + 5 r2 + 5 r3 + 5 r4 + 5 r5 + ... = 15 + [ 5 r / (1-r) ]
  • 第一輪,狀況二:A 不殺價;B 不殺價。所以兩者的報酬分別是(10,10)
    兩者都不殺價。從第二輪開始,兩者的報酬分別是(10,10)。
    B 的總報酬:(考慮「期望值」及「無限級數和」)
    π' = 10 + 10 r + 10 r2 + 10 r3 + 10 r4 + 10 r5 + ... = 10 + [ 10 r / (1-r) ]
  • B 兩種狀況的報酬差 Δπ = π - π' = 5 - [ 5 r / (1-r) ]
    若 Δπ ≥ 0,代表「狀況一的報酬」 > 「狀況二的報酬」,所以 B 會選狀況一。
    令 Δπ ≥ 0,則解出 r ≤ 1/2
    這代表,當 r > 1/2 時,B 會選狀況二。
    白話文的意思就是:只要相遇的機率大於 1/2,B 將會選擇「 不殺價」(不背叛)。
 白話文説「Nash Reversion Strategy」,就是「相堵會到」的一種恐怖平衡。

◎無名氏定理(folk theorem)
  • 一次的賽局的奈許均衡只有一個, 但當它無限重覆時, 均衡的數目可以是暴漲到幾乎是任何可能的報酬都是均衡報酬。
  • 參賽者對未來足夠有耐心,對於任意可行、滿足個人理性假設的報酬 π,都存在著一個均衡,使得參與者的平均報酬就是報酬 π。換言之,任何程度的合作(只要是可行的且滿足個人理性)都可以來達成奈許均衡。
  • 以「囚犯困境」來說,一次的賽局中,兩個參賽者都選擇「認罪」並非奈許均衡,唯一的納許均衡就是兩個人都選擇背叛。然而,如果「囚犯困境」重複無窮多次,並且參賽者足夠有耐心,就會存在兩個參賽者都合作「不認罪」的奈許均衡。


<PS.>所有英翻中的詞:以「國家教育研究院」所屬「雙語詞彙、學術名詞暨辭書資訊網」的「經濟學領域」的翻譯為主,一般常用翻譯為輔。


歡迎隨時指教討論