Technology

Штучний інтелект обіграв людини в покер, що далі?

Штучний інтелект знову переміг людини. Цього разу ІІ взяв верх в покер. І в цьому, здається, немає нічого дивного, адже в цій грі штучний розум опинявся першим і раніше. Однак зараз все інакше: машина перемогла відразу п'ятьох гравців в «Техаський холдем» і при цьому була націлена на максимально високий виграш.

Що таке «Техаський холдем»

Якщо не вдаватися в подробиці правил гри, тоце один з найпоширеніших видів покеру. У тих самих сценах, які ви бачили в безлічі фільмів, коли гравці сидять навколо столу і по черзі роблять ставки, фігурує саме холдем. За столом розташовуються 6 гравців і поступово вони роблять ставки. У будь-який момент можна вийти з гри, але тоді назад вкладених грошей ви не отримаєте. Так триває до тих пір, поки не настане напружена «битва» один на один, в якій переможець забирає все.

У недавньому експерименті фахівці з розробкиІІ з Facebook і Університету Карнегі-Меллон «посадили» за стіл до гравців штучний інтелект, який мав одну задачу: виграти якомога більше грошей.

Чому штучний інтелект зміг обіграти людини

Розробка прибуткового алгоритму для гри в покеродночасно з декількома гравцями (а в теорії і за декількома столами одночасно) - завдання куди складніше, ніж навчити ІІ грати в шахи або го. В основному це від того, що в покері дається лише дуже обмежена інформація про те, що відбувається за столом покеру. Тобто, якщо в тих же шахах комп'ютер «бачить» всю картину цілком, включаючи розташування фігур противника, в покері ІІ знає лише те, які карти у нього на руках і які викладені на стіл. Також можна, що називається, «порахувати карти», передбачивши, які з них вже «пішли», що дозволить передбачити можливі комбінації. Але це все одно складніше, ніж аналізувати «відкрите» шахове поле.

Завдяки новим алгоритмам навчання, система підназвою Pluribus за 12 днів і 10 000 роздач воювали з 12 професійними гравцями в покер. В результаті Pluribus вигравав в середньому по 5 доларів за роздачу і приблизно по 1000 доларів за годину.

Читайте також: Як штучний інтелект обіграв найкращих гравців в покер.

Як ІІ навчився грати в покер

Для початку розробники змусили ІІ гратипроти самого себе і методом проб і помилок підбирати найбільш відповідну тактику. Це, в загальному то, стандартний спосіб навчання. Цікаво тут інше: Pluribus був створений всього за вісім днів з використанням 64-ядерної серверної станції, оснащеної лише 512 ГБ оперативної пам'яті. Це навчання коштувало компанії всього близько 150 доларів.

Але на цьому тренування ІІ не закінчилася. Програмісти придумали спосіб роботи штучного інтелекту, який дозволив йому грати вкрай ефективно. Замість того, щоб намагатися передбачити, як його противники будуть вести себе до кінця гри, Pluribus був спроектований так, щоб «дивитися» тільки на два чи три ходи вперед. Це дозволило пустити ресурси системи на більш корисні дії. Наприклад, на розвиток можливості блефувати.

«Здатність до усвідомленого блефу вважаєтьсявиключною прерогативою людей », - зазначають автори видання The Verge. «При цьому позбавлений довгострокового стратегічного мислення Pluribus, як відзначають майже всі учасники експерименту, дуже успішно блефував. Для алгоритму це був лише один із способів виграти роздачу, але далеко не найголовніший ».

Дослідники оголосили, що не будуть викладатиалгоритм і все, що було пов'язано з його розробкою, у вільний доступ. При цьому напрацювання, отримані під час недавнього експерименту, дуже важливі: вони дозволять, наприклад, виявляти фінансові махінації на ринку цінних паперів, допоможуть автоматичним системам регулювання трафіку і будуть корисні навіть при розробці більш ефективних автопілотів.

Ще більше цікавих матеріалів ви можете прочитати в нашому новинному каналі в телеграм.