La technologie

L'intelligence artificielle a battu l'homme du poker, et ensuite?

L'intelligence artificielle à nouveau vaincu l'homme. Cette fois, l'IA a remporté le jeu de poker. Et cela, semble-t-il, n'est pas surprenant, car dans ce jeu, l'intelligence artificielle était la première avant. Mais maintenant, tout est différent: la voiture a immédiatement remporté cinq joueurs au Texas Hold'em et visait en même temps le gain le plus élevé possible.

Qu'est-ce que le Texas Hold'em?

Si vous n'entrez pas dans les détails des règles du jeu, alorsC'est l'un des types de poker les plus courants. Dans ces scènes que vous avez vues dans de nombreux films lorsque les joueurs sont assis autour d'une table et misent à tour de rôle, c'est le hold'em qui apparaît. Il y a 6 joueurs à la table et ils parient progressivement. Vous pouvez quitter le jeu à tout moment, mais vous ne récupérerez pas l'argent investi. Cela continue jusqu'à un "combat" tendu, au cours duquel le vainqueur prend tout.

Dans une expérience récente, des spécialistes du développementL'intelligence artificielle de Facebook et l'Université Carnegie Mellon ont mis l'intelligence artificielle à la table des joueurs, qui n'avaient qu'une tâche: gagner autant d'argent que possible.

Pourquoi l'intelligence artificielle pourrait battre un homme

Développer un algorithme de poker rentablesimultanément avec plusieurs joueurs (et en théorie et à plusieurs tables en même temps) - la tâche est beaucoup plus difficile que d'apprendre à l'IA à jouer aux échecs ou à jouer. En gros, cela est dû au fait qu'au poker, très peu d'informations sont données sur ce qui se passe à la table de poker. C’est-à-dire que si, aux mêmes échecs, l’ordinateur «voit» l’ensemble du tableau, y compris la disposition des pièces de l’adversaire, dans l’AI, le poker ne sait que quelles cartes sont entre ses mains et lesquelles sont disposées sur la table. Il est également possible, comme on dit, de "compter les cartes", en ayant prévu celles qui sont déjà "parties", ce qui permettra de prédire les combinaisons possibles. Mais c’est encore plus difficile que d’analyser le champ «ouvert».

Grâce aux nouveaux algorithmes d'apprentissage, le système estLe nom Pluribus a duré 12 jours et 10 000 mains se sont affrontées avec 12 joueurs de poker professionnels. En conséquence, Pluribus a gagné en moyenne 5 dollars par main et environ 1 000 dollars par heure.

Voir aussi: Comment l'intelligence artificielle bat les meilleurs joueurs de poker.

Comment l'IA a appris à jouer au poker

Pour commencer, les développeurs ont fait jouer l'IAcontre vous-même et par essais et erreurs pour choisir la tactique la plus appropriée. C’est en général la méthode standard d’apprentissage. Une autre chose est intéressante ici: Pluribus a été créé en seulement huit jours en utilisant un poste de serveur à 64 cœurs doté de seulement 512 Go de RAM. Cette formation n'a coûté à l'entreprise que 150 dollars environ.

Mais l'entraînement pour l'IA ne s'est pas arrêté là. Les programmeurs ont trouvé un moyen de faire fonctionner l'intelligence artificielle, ce qui lui permettait de jouer extrêmement efficacement. Au lieu d'essayer de prédire comment ses adversaires se comporteront jusqu'à la fin du jeu, Pluribus a été conçu pour ne «donner» que deux ou trois coups d'avance. Cela a permis d'utiliser les ressources du système pour des actions plus utiles. Par exemple, sur le développement d’occasions de bluffer.

"La capacité de bluffer délibérément est considéréela prérogative exclusive du peuple ", - les auteurs de la publication The Verge. «Dans le même temps, Pluribus, dépourvu de pensée stratégique à long terme, a presque réussi à bluffer, comme l'ont noté presque tous les participants à l'expérience. Pour l’algorithme, c’était l’un des moyens de gagner la distribution, mais loin d’être le plus fondamental. ”

Les chercheurs ont annoncé qu'ils ne poseraient pasl'algorithme et tout ce qui concerne son développement sont disponibles gratuitement. Dans le même temps, les développements de la récente expérience sont très importants: ils permettront par exemple d’identifier les fraudes financières sur le marché des valeurs mobilières, d’aider les systèmes de contrôle automatique de la circulation et seront utiles même pour développer des pilotes automatiques plus efficaces.

Vous pouvez lire des documents encore plus intéressants dans notre chaîne d'informations Telegram.