ゲーム理論とは、ある種の意思決定を人間が行った結果何が起きるかを推測する理論です。
こちらの記事で、ゲームとは何か、を取り扱いました。
>>「戦略的状況=ゲーム」
ゲームを簡単に言えば、相手の予測に対して、こちら側は相手の予測の予測を立てていく、というのを繰り返していく状態のことです。
「ゲーム理論入門の入門」(鎌田雄一郎)参照
そのゲームに対して、ナッシュ均衡は基本的な考え方です。
GTOをナッシュ均衡という観点から具体例で説明していきます。
(今回ポーカーのGTOをイメージして書いていますが、学術的には正確でない部分が含まれます。)
ゲーム理論(GTO)|ナッシュ均衡とは

例えば、あなたは夕食を母親に用意してもらっているとします。
なぜ夕食があるのかといえば、夕食がない状態が一番悪い状態だからです。
労力をかける<夕食がある
この夕食がある状態にするために、あなたと母親はお互いに考えます。
母親「私が用意するしかないか。あなたに用意して欲しいけど、そうなると私は手伝いたい。」
あなた「夕食がないのは嫌だけど、僕がやると母さんが手伝ってくれる。母さんが用意してくれるなら、僕はやらないのが一番いい」
あなたは母親の行動を読んで、その上で最適解を出しました。
母親のベストは自分が用意しないのが良いと思っていますが、「母とあなた」のどちらかが用意しなければならないとなれば、あなたが手伝うとしてもしなくても、どのみち夕食を作ることが母親の最適解になります。
母の主観的予想⇨あなたの主観的予想⇨母の主観的予想⇨あなたの主観的予想
このようなゲームから、「母親が用意してあなたは用意しない」という最適解になりました。
ここでのナッシュ均衡は「母親だけ用意する」になります。

支配戦略と逐次消去とは
「どのみち夕食を用意する」
あなた⇨支配される
「母親の行動によらずに手伝わないという選択をとるのがベスト」
ゲーム理論(GTO)|ナッシュ均衡のジレンマとは
30人である数字の目標値あてゲームをします。
①みんなが1から100の中でどの数字を書くのかを各々が予想して投票する。
②その合計を人数で割る。
③目標値はその②の数字を0.7で割った数字。
「X+Y+Z+・・・・・・」÷30×0.7=目標値
数字が目標値に近い人が優勝です。
あなたはどの数字を書きますか?



ゲーム理論(GTO)とエクスプロイト戦略
ポーカーでGTOに従うことは、最適解です。
最適解は、みんながその戦略からはずれたくない状況をいいます。
その行動をとり続けることが最もよい状態だからです。
しかし、ポーカーは複雑で、ときにGTOに従えない状況が多々でてきます。
そのGTOに従えない状況をミスと表現します。
例えば、相手がじゃんけんでグーしか出していない状態。
GTOはゲーム理論で、ゲームとは相手の予測を読んでさらに予測行動をとっていくこと。
ミスをしている相手には、そのミス状況にとって一番よい状態をあなたは考えようとします。
ミスに対しての搾取がエクスプロイト戦略です。
この例の場合ならば、あなたは相手を搾取するために、パーを出し続ける戦略を取ります。
エクスプロイト戦略とは
相手がグーしか出さない。
相手が最適解をとらないことを予測して、そこから戦略を立てる(パーを出す)ことをエクスプロイト戦略と言います。
相手のミスに対して、ゲーム状況下で相手をどうしたら搾取できるかを考えます。
ただし、ミスに対してミスを搾取する行動をとるので、あなたも元々のゲーム理論からは外れます。
相手のミス行動⇨ミス行動に対してエクスプロイト戦略をとる
この行動で終わればこれはエクスプロイト戦略です。
ところが、相手はあなたがパーしかだしてこないことに気が付きます。
あなたの行動を予測して、それならばチョキをだそうと考えるのです。
相手が自分のミスに気がつき、あなたに搾取されていると気がついたので、自分の行動を変えたのです。
相手のミス行動⇨エクスプロイト戦略⇨エクスプロイト戦略に対する最適解⇨‥‥‥
さて、この状況ですが、またゲーム理論(GTO)に戻ります。
エクスプロイト戦略を極めていけば、またゲーム理論に戻るのです。
相手への最適解を求めていけば求めていくほどに、ゲーム理論になっていきます。
相手がずっとミスプレイをしていれば、それに対するエクスプロイトをとっていけばいい。
けれど、相手がゲームをしているのならば、状況は変わってくるのです。
>>ゲームとは
相手のミス⇨相手のミス行動の搾取=エクスプロイト戦略
エクスプロイト戦略⇨エクスプロイト戦略の予測からの最適解行動⇨・・・・「ゲーム理論(GTO)」
エクスプロイト戦略の具体例
数字あてゲームの最適解は0ですが、あなたはみんながみんな0とは書かないと知っています。
なのであなたは12くらいの数字を書いて優勝を狙いにいきます。
これはみんなのミスをつくのでエクスプロイト戦略です。
さて、あなたのエクスプロイト戦略の最適解を考えてみましょう。
相手「あなたはエクスプロイト戦略をとって12くらいと書くはずだから、それに0.7をかけてみて8と書いてみようかな」
これがエクスプロイト戦略の予測に基づいた予測です。
あなたはこれに気が付きます。
あなた「ん?相手が不穏な動きをしてるから、もっと小さい数字を書こう」
・・・・
