الذكاء الاصطناعي تغلب على رجل البوكر ، ماذا بعد؟

الذكاء الاصطناعي هزم الرجل مرة أخرى. هذه المرة فازت منظمة العفو الدولية بلعبة البوكر. ويبدو أن هذا ليس مفاجئًا ، لأنه في هذه اللعبة ، كان الذكاء الاصطناعي هو الأول من قبل. ولكن الآن أصبح كل شيء مختلفًا: فقد فازت السيارة على الفور بخمسة لاعبين في Texas Hold'em وفي الوقت نفسه كانت تهدف إلى تحقيق أكبر مكسب ممكن.

ما هو تكساس هولدم؟

إذا لم تدخل في تفاصيل قواعد اللعبة ، إذنهذا واحد من أكثر أنواع البوكر شيوعًا. في تلك المشاهد ذاتها التي شاهدتها في الكثير من الأفلام عندما يجلس اللاعبون حول الطاولة ويتناوبون على المراهنة ، فإن ذلك سيظهر. هناك 6 لاعبين على الطاولة وهم يراهنون تدريجياً. في أي وقت ، يمكنك الخروج من اللعبة ، لكنك لن تسترد الأموال المستثمرة. يستمر هذا حتى "معركة" متوترة واحدة على واحد ، حيث يأخذ الفائز كل شيء.

في تجربة حديثة ، المتخصصين في التنميةوضعت الذكاء الاصطناعي من Facebook وجامعة كارنيجي ميلون الذكاء الاصطناعي على الطاولة للاعبين ، الذين كان عليهم مهمة واحدة: الفوز بأكبر قدر ممكن من المال.

لماذا الذكاء الاصطناعي يمكن أن يضرب الرجل

تطوير خوارزمية بوكر مربحةفي وقت واحد مع العديد من اللاعبين (ونظريًا وعلى عدة طاولات في نفس الوقت) - تكون المهمة أكثر صعوبة من تعليم الذكاء الاصطناعي للعب الشطرنج أو الذهاب. في الأساس ، هذا لأنه في البوكر يتم تقديم معلومات محدودة للغاية حول ما يحدث على طاولة البوكر. هذا هو ، إذا كان الكمبيوتر في نفس الشطرنج "يرى" الصورة كاملة ، بما في ذلك التصرف في قطع الخصم ، في لعبة الذكاء الاصطناعي يعرف البوكر فقط البطاقات الموجودة في يديه والتي وضعت على الطاولة. يمكنك أيضًا ، كما يقولون ، "حساب البطاقات" ، بعد أن توقعت أيًا منها قد "رحل" بالفعل ، مما سيسمح بالتنبؤ بالمجموعات المحتملة. لكن الأمر لا يزال أكثر صعوبة من تحليل حقل الشطرنج "المفتوح".

بفضل خوارزميات التعلم الجديدة ، فإن النظام هواسم Pluribus لمدة 12 يومًا وحارب 10000 توزيع ورق مع 12 لاعب بوكر محترف. نتيجة لذلك ، فاز Pluribus بمعدل 5 دولارات لكل يد وحوالي 1000 دولار في الساعة.

انظر أيضًا: كيف تغلب الذكاء الاصطناعي على أفضل لاعبي البوكر.

كيف علمت منظمة العفو الدولية أن تلعب لعبة البوكر

بالنسبة للمبتدئين ، أجبر المطورين منظمة العفو الدولية على اللعبضد نفسك وعن طريق التجربة والخطأ لاختيار التكتيكات الأنسب. هذه ، بشكل عام ، هي الطريقة القياسية للتعلم. شيء آخر مثير للاهتمام هنا: تم إنشاء Pluribus في ثمانية أيام فقط باستخدام محطة خادم 64 نواة مزودة فقط 512 جيجابايت من ذاكرة الوصول العشوائي. كلف هذا التدريب الشركة فقط حوالي 150 دولار.

لكن التدريب على الذكاء الاصطناعى لم ينته عند هذا الحد. ابتكر المبرمجون طريقة للعمل الذكاء الاصطناعي ، مما سمح له باللعب بفعالية كبيرة. بدلاً من محاولة التنبؤ بكيفية تصرف خصومه حتى نهاية اللعبة ، تم تصميم Pluribus "للنظر" فقط في خطوتين أو ثلاث خطوات إلى الأمام. هذا يسمح لموارد النظام لاستخدامها في المزيد من الإجراءات المفيدة. على سبيل المثال ، على تطوير فرص لخداع.

"القدرة على خداع عمدا يعتبرالامتياز الحصري للشعب ، "- مؤلفي المنشور The Verge. "في الوقت نفسه ، يخلو Pluribus من التفكير الاستراتيجي طويل الأجل ، كما لاحظ جميع المشاركين في التجربة تقريبًا ، فقد تم خداعهم بنجاح كبير. بالنسبة إلى الخوارزمية ، كانت هذه مجرد طريقة من طرق الفوز بالتوزيع ، ولكنها أبعد ما تكون عن الأساسيات ".

أعلن الباحثون أنهم لن يضعواالخوارزمية وكل ما يتعلق بتطورها متاح مجانًا. في الوقت نفسه ، تعد التطورات التي تم تحقيقها خلال التجربة الأخيرة مهمة للغاية: فهي ستسمح ، على سبيل المثال ، بتحديد الاحتيالات المالية في سوق الأوراق المالية ، والمساعدة في أنظمة التحكم التلقائي في حركة المرور وستكون مفيدة حتى في تطوير الطيار الآلي الأكثر كفاءة.

يمكنك قراءة مواد أكثر إثارة للاهتمام في قناة أخبار Telegram.

مقالات ذات صلة