人工知能は火かき棒の男を破った、次は何ですか？

人工知能は再び人間を打ち負かしました。今回AIはポーカーゲームに勝ちました。このゲームでは人工知能が初めてだったので、これは驚くにはあたらないようです。しかし、今ではすべてが異なります。車はすぐにテキサスホールデムで5人のプレーヤーを獲得し、同時に可能な限り最高の利益を狙っていました。

テキサスホールデムとは何ですか？

あなたがゲームのルールの詳細に入らない場合は、これはポーカーの最も一般的な種類の1つです。プレイヤーがテーブルの周りに座り、順番に賭けをするときにあなたがたくさんの映画で見たそれらのまさにそのシーンでは、それは現れるのです。テーブルには6人のプレーヤーがいて、彼らは徐々に賭けをします。あなたはいつでもゲームを終了することができますが、それからあなたは戻ってお金を受け取ることはありません。これは緊張感のある1対1の戦いまで続き、そこでは勝者がすべてを取ります。

最近の実験では、開発の専門家Facebookとカーネギーメロン大学のAIは、可能な限り多くのお金を勝ち取るという1つの課題を抱えていたプレイヤーに、テーブルに人工知能を当てました。

なぜ人工知能が人に勝てるのか

収益性の高いポーカーアルゴリズムを開発する何人かのプレイヤーと同時に（そして理論的には同時に複数のテーブルで） - タスクはAIにチェスをしたり行ったりするように教えるよりはるかに困難です。基本的に、これはポーカーではポーカーテーブルで何が起こるかについて非常に限られた情報しか与えられていないからです。つまり、同じチェスで対戦相手の駒の配置を含む全体像をコンピュータが「見る」場合、ポーカーは自分の手にあるカードとテーブルに配置されているカードだけを認識します。彼らが言うように、それらのうちのどれが既に「なくなった」かを予測して「カードを数える」ことも可能であり、それは可能な組み合わせを予測することを可能にするだろう。しかし、それは「開かれた」チェスフィールドを分析することよりもさらに困難です。

新しい学習アルゴリズムのおかげで、システムは12日間のPluribusという名前と1万回のハンドが、12人のプロのポーカープレイヤーと戦った。その結果、Pluribusは1ハンドあたり平均5ドル、1時間あたり約1000ドルを獲得しました。

参照：人工知能がどのようにして最高のポーカープレイヤーに勝ったか。

AIがポーカーをすることをどのように学んだか

まず第一に、開発者はAIにプレイを強いる自分自身に対してそして試行錯誤によって最も適切な戦術を選択する。これは、一般的に、標準的な学習方法です。ここでもう一つ興味深いことがあります。Pluribusはたった8日間で、わずか512 GBのRAMを搭載した64コアのサーバーステーションを使って作成されました。このトレーニングの費用は約150ドルでした。

しかし、AIトレーニングはそれだけでは終わりませんでした。プログラマーは人工知能を働かせる方法を思いついた、それは彼が非常に効果的に遊ぶのを許した。彼の対戦相手がゲームの終わりまでどのように振る舞うかを予測することを試みる代わりに、Pluribusは先に2つか3つの動きだけを「見る」ように設計されました。これにより、システムリソースをより有用なアクションに使用できます。例えば、ブラフする機会の開発についてです。

「意図的にブラフする能力が考慮されている人々の排他的特権、 " - 出版物The Vergeの作者。「同時に、実験に参加したほぼすべての参加者が指摘したように、Pluribusは長期的な戦略的思考を欠いていますが、非常にうまくブラフしました。アルゴリズムについては、これはディストリビューションに勝つための方法の1つにすぎませんでしたが、最も基本的な方法からはほど遠いものでした。」

研究者は彼らがレイアウトしないことを発表しましたアルゴリズムとその開発に関連するすべてが自由に利用可能です。同時に、最近の実験で得られた進展は非常に重要です。たとえば、証券市場の金融詐欺を識別し、自動交通管制システムを助け、より効率的なオートパイロットの開発にも役立つでしょう。

あなたは私たちの電報のニュースチャンネルでさらに興味深い資料を読むことができます。