ゲーム理論(GTO)とは?ポーカーのGTO戦略の基礎をわかりやすく説明します。

ゲーム理論とは、ある種の意思決定を人間が行った結果何が起きるかを推測する理論です。

こちらの記事で、ゲームとは何か、を取り扱いました。
>>「戦略的状況=ゲーム」

ゲームを簡単に言えば、相手の予測に対して、こちら側は相手の予測の予測を立てていく、というのを繰り返していく状態のことです。

「ゲーム理論入門の入門」(鎌田雄一郎)参照


>>ゲーム理論入門の入門

そのゲームに対して、ナッシュ均衡は基本的な考え方です。

GTOをナッシュ均衡という観点から具体例で説明していきます。

(今回ポーカーのGTOをイメージして書いていますが、学術的には正確でない部分が含まれます。)

ゲーム理論(GTO)|ナッシュ均衡とは

ナッシュ均衡「ゲームでの行動=相手が何をするかに対するベストな反応」
相手の予測に一番いい答えを出すことだね
ナッシュは人の名前ですが、そのナッシュが論文で説明したときは「均衡点」という用語で説明しています。
ナッシュ均衡を具体例で説明します。

例えば、あなたは夕食を母親に用意してもらっているとします。

なぜ夕食があるのかといえば、夕食がない状態が一番悪い状態だからです。

労力をかける<夕食がある

この夕食がある状態にするために、あなたと母親はお互いに考えます。

母親「私が用意するしかないか。あなたに用意して欲しいけど、そうなると私は手伝いたい。」

あなた「夕食がないのは嫌だけど、僕がやると母さんが手伝ってくれる。母さんが用意してくれるなら、僕はやらないのが一番いい

あなたは母親の行動を読んで、その上で最適解を出しました。

母親のベストは自分が用意しないのが良いと思っていますが、「母とあなた」のどちらかが用意しなければならないとなれば、あなたが手伝うとしてもしなくても、どのみち夕食を作ることが母親の最適解になります。

母の主観的予想⇨あなたの主観的予想⇨母の主観的予想⇨あなたの主観的予想

このようなゲームから、「母親が用意してあなたは用意しない」という最適解になりました。

ここでのナッシュ均衡は「母親だけ用意する」になります。

ナッシュ均衡は日常に潜んでいるんだね
少し、専門用語で説明してみます。

支配戦略と逐次消去とは

「母親がどのみち夕食を用意する」というを支配される戦略と言います。
支配戦略とは、「相手の行動に関わりなくベストである戦略」です。
母親⇨支配される
「どのみち夕食を用意する」

あなた⇨支配される
「母親の行動によらずに手伝わないという選択をとるのがベスト」

母親が夕食の支度をしないという選択肢は支配されているので(母は夕食がないよりはあったほうがいいと考えているから)、この選択肢を消去します。
それを消去した上で、あなたが用意すれば母親が手伝ってくれるという状況からあなたは用意しないことを選ぶ、というのも支配されます。
あなたは自分で用意するという選択肢を消去します。
この選択肢を消去することを逐次消去といいます。
逐次消去⇨最適解を考えた結果、ある選択肢を消去する。
逐次消去によって、ナッシュ均衡を見つけることができます。

ゲーム理論(GTO)|ナッシュ均衡のジレンマとは

しかし、ゲーム理論にはジレンマがあります。
日々食事を用意している母親は、このナッシュ均衡に納得いかない、と思いませんか?
そのナッシュ均衡(夕食を用意する)が続いていくことが最適だとは思えないはず。
この理論のジレンマをクイズから説明します。

30人である数字の目標値あてゲームをします。

①みんなが1から100の中でどの数字を書くのかを各々が予想して投票する。
②その合計を人数で割る。
③目標値はその②の数字を0.7で割った数字。

「X+Y+Z+・・・・・・」÷30×0.7=目標値

数字が目標値に近い人が優勝です。
あなたはどの数字を書きますか?

予想してみて下さい。
真ん中をとって50!
ナッシュ均衡でいくと答えは「0」です。
なんで?
目標値というものが0.7をかける性質をもっています。
なので、まず答えを予想してそれに0.7をかけます。
みんなが書く最大の数は100なので100とすると、「100×0.7=70」。
この70よりも最大になることはないのです。
では、あなたは70よりも最大になることはないと知りました。
「70より大きい数字は70に支配される」という支配戦略からすれば、ナッシュ均衡において70以上を書こうとは思いません。
あ、目標値ってそんなに考えてなかった!
次の行動は「70×0.7」です。
その次は「49×0.7」
これを繰り返していきます。
すると、限りなく0に近い数字が出てきます!
なのでナッシュ均衡に従えば、みんなが0を書くはずです。
ところが、本では授業でこのゲームをやると0で優勝する人はいないと言います。
実際の授業ではみんながいろいろな数字を書くからです。
これがナッシュ均衡のジレンマです。
ゲーム理論といって一番有名なのが「囚人のジレンマ」ですが、これもナッシュ均衡にしたがった戦略が一番良い結果とはならない、というジレンマに陥ることを表現しています。
さて、これらの戦略をポーカーに当てはめてみましょう!

ゲーム理論(GTO)とエクスプロイト戦略

ポーカーでGTOに従うことは、最適解です。

最適解は、みんながその戦略からはずれたくない状況をいいます。

その行動をとり続けることが最もよい状態だからです。

しかし、ポーカーは複雑で、ときにGTOに従えない状況が多々でてきます。

そのGTOに従えない状況をミスと表現します。

例えば、相手がじゃんけんでグーしか出していない状態。

GTOはゲーム理論で、ゲームとは相手の予測を読んでさらに予測行動をとっていくこと。

ミスをしている相手には、そのミス状況にとって一番よい状態をあなたは考えようとします。

ミスに対しての搾取がエクスプロイト戦略です。

この例の場合ならば、あなたは相手を搾取するために、パーを出し続ける戦略を取ります。

エクスプロイト戦略とは

相手がグーしか出さない。

相手が最適解をとらないことを予測して、そこから戦略を立てる(パーを出す)ことをエクスプロイト戦略と言います。

相手のミスに対して、ゲーム状況下で相手をどうしたら搾取できるかを考えます。

ただし、ミスに対してミスを搾取する行動をとるので、あなたも元々のゲーム理論からは外れます。

相手のミス行動⇨ミス行動に対してエクスプロイト戦略をとる

この行動で終わればこれはエクスプロイト戦略です。

ところが、相手はあなたがパーしかだしてこないことに気が付きます。

あなたの行動を予測して、それならばチョキをだそうと考えるのです。

相手が自分のミスに気がつき、あなたに搾取されていると気がついたので、自分の行動を変えたのです。

相手のミス行動⇨エクスプロイト戦略⇨エクスプロイト戦略に対する最適解⇨‥‥‥

さて、この状況ですが、またゲーム理論(GTO)に戻ります。

エクスプロイト戦略を極めていけば、またゲーム理論に戻るのです。

相手への最適解を求めていけば求めていくほどに、ゲーム理論になっていきます。

相手がずっとミスプレイをしていれば、それに対するエクスプロイトをとっていけばいい。

けれど、相手がゲームをしているのならば、状況は変わってくるのです。
>>ゲームとは

相手のミス⇨相手のミス行動の搾取=エクスプロイト戦略

エクスプロイト戦略⇨エクスプロイト戦略の予測からの最適解行動⇨・・・・「ゲーム理論(GTO)」

さきほどの数字あてゲームをエクスプロイト戦略にあてはめてみます。

エクスプロイト戦略の具体例

数字あてゲームの最適解は0ですが、あなたはみんながみんな0とは書かないと知っています。

なのであなたは12くらいの数字を書いて優勝を狙いにいきます。

これはみんなのミスをつくのでエクスプロイト戦略です。

さて、あなたのエクスプロイト戦略の最適解を考えてみましょう。

相手「あなたはエクスプロイト戦略をとって12くらいと書くはずだから、それに0.7をかけてみて8と書いてみようかな」

これがエクスプロイト戦略の予測に基づいた予測です。

あなたはこれに気が付きます。

あなた「ん?相手が不穏な動きをしてるから、もっと小さい数字を書こう」

・・・・

さて、このゲーム状態が繰り返されたとすると、やはりまたナッシュ均衡にそった回答の0が選ばれそうです。
ミスに対しての搾取がエクスプロイト戦略ですが、エクスプロイトの上でなりたっていくゲームでは、ナッシュ均衡を求めていきます。
ゲーム理論にはジレンマがあるから、その度ごとに考えてゲームをプレイしていきたいね
GTOの演習問題はこちら。
ポーカーGTOの基礎問題
>>GTOの問題集
KKpokerの登録方法
詳細はこちら
KKpokerの登録方法
詳細はこちら