בין אם משחק הסחה בRed Dead Redemption 2או משחק שלם בפני עצמו, מעריצי פוקר נסערים באופן שגרתי מבינה מלאכותית ללא תשומת לב לעצותיו הנצחיות של קני רוג'רס לגבי החזקה, קיפול וכדומה. חלק מהבוטים בשולחן ניתנים לבלוף מכל יד; אחרים לעולם לא יבלוף. חלקם יתקפלו בפרובוקציה הקלה ביותר, בעוד שאחרים יקפלו עם קלפים גרועים עוד יותר ממה שיש לכם. לשחקנים יש חשיפה רבה להתנהגות יריביהם של המעבדים שלהם כמו שהם עושים לכרטיסים שלהם, כלומר אף אחד.
מסיבה זו,מחקר שפורסםעל ידי פותרי בעיות ברמה גבוהה בפייסבוק ובאוניברסיטת קרנגי מלוןמשך את תשומת ליבי בתחילת השבוע. רק אל תצפה שזה יופיע במשחק וידאו בזמן הקרוב. אבל ה-Pluribus poker AI שלהם משמעותי בכך שבאמצעות משחק, מהנדסי מחשבים חיקו שוב התנהגות שהתקבלה בעבר כאדם בלבד בטבע. וזה בלוף.
"זה נכון להרבה פריצות דרך של AI", אמר לי ביום חמישי נועם בראון, מדען מחקר עם פייסבוק והשותף ליצירת הבוט. "הרבה מהדברים שאנו מניחים שהם מוגבלים ליכולת האנושית הם למעשה אפשריים לעשות עם AI.
"אנשים חשבו בשנות החמישים שמשחק שחמט הוא דבר מאוד אנושי שמחשבים לא מסוגלים לעשות", פירט בראון. "אז אנשים חשבו שזה משחקלָלֶכֶתברמת מאסטר גדול, זה דבר מאוד אנושי שבינה מלאכותית לא הייתה מסוגלת לעשות. ואז אנשים חשבו שבלוף זה הדבר האנושי מאוד שבינה מלאכותית לא תוכל לעשות. ואנחנו רואים שלמעשה, AI יכול לבלף טוב יותר מכל אדם בחיים."
הראשון המדעי שמחקרו של בראון מייצג מגיע עם כמה מאפיינים. מדענים השתמשו בפוקר כדי ללמוד התנהגות ולמידה של AI בעבר. בשנת 2015, חוקרים מאוניברסיטת אלברטה בנו פוקרבוט שבעצם היה בלתי מנוצח בגבול טקסס הולדם של שני שחקנים. וכמובן, יישומים נפוצים כמו משחקי וידאו הציבו מספר משתתפי AI ליד שולחן פוקר, במיוחד בשיא שיגעון הפוקר בתחילת המאה.
ה-AIs שאנשים כמוני מכירים יותר הם לא כל כך אנליטיים שכן הם התדירות של סוג של התנהגות המוחלת על סיטואציה מסוימת, בין אם זה כוח היד הכללי או להיות הראשון להעלות בפלופ. במשך שנים, סימולטורים של פוקר מציגים מחוונים של AI למשחק אגרסיבי ושמרני, שהתועלת שלהם היא רק באימון אדם לשחק ידיים ממושמעות ללא קשר למה שמישהו אחר עושה.
זה עוד לפני שהגענו לבלוף, שנחשב לצורת אמנות אנושית בגלל ההסברים או הנטיות של שחקנים אחרים המוותרים על הביטחון שלהם, או היעדרו, בידיהם. של Coresoftאליפות העולם בפוקרסדרה עבורפלייסטיישן 2אפילו היה מיני-משחק מבלף, שניסה להפוך אותו לטקטיקה יותר מעשית. אבל לעתים קרובות יותר, היית מקבל ריצות שבהן היריבים קראו לכל דבר, העלו בצורה בלתי מוסברת, או החזיקו בידיים זבל כאילו היו זוג ג'קים. המשחקים האלה לא היו משעשעים בר קיימא מכיוון שרוב השחקנים היו מנצחים את עצמם מרוב שעמום או קוצר רוח.
Pluribus שונה מכיוון, פחות או יותר, הוא מנתח את השפעת הבלוף - כלומר הימור ביד חלשה - במקום למכור מתחרים על בסיס מה שהוא מחזיק. "הבוט לא רואה בזה מטעה או משקר בשום אופן, הוא רק רואה בזה 'זו הפעולה שתעשה לי הכי הרבה כסף במצב הזה'", אמר בראון.
מה מגדיר בלוף יותר: ההתנהגות או התוצאה?
Pluribus, אותו יצרו בראון ועמיתו ל-CMU Tuomas Sandholm, דומה במקצת לבינה מלאכותית של שחמט שתהיה מחשוב תוצאות והיפותטיות צעדים רבים קדימה. ההבדל הוא שהבוט של בראון וסנדהולם נראה רק שניים או שלושה מהלכים מראש. מיקוד קצר טווח זה עזר להפוך את נטיות הבלוף שלו לאטומות לחלוטין לחמשת אנשי המקצוע האנושיים שפלוריבוס ניצח ברציפות מעל 10,000 ידיים.
זה סוג של מעלה שאלה קיומית של מה מגדיר יותר בלוף: ההתנהגות או התוצאה?
בראון לא התכוון לענות על כך. העניין שלו בפוקר, כסביבת מחקר כלומר, חוזר לימי התואר הראשון שלו באוניברסיטת רוטגרס לפני כ-15 שנה. "כל הרעיון הזה שיש את האסטרטגיה המתמטית הזו למשחק, האסטרטגיה המושלמת הזו, שאם אתה יכול לשחק בה, אף אחד לא יוכל לנצח אותך", ריתק את בראון.
מהמרים מקצועיים הציגו מערכות למשחקים שונים, עם רמות שונות של קפדנות אינטלקטואלית ויושר, במשך שנים. פוקר נראה חסין למערכת מכיוון שהוא תלוי במידע לא שלם או לא מושלם, בניגוד לבלאק ג'ק, גו או שחמט, שבהם המידע ידוע לכל המשתתפים (כאשר הדילר בבלאק ג'ק אינו יכול לפעול באופן עצמאי).
אבל במובן מסוים, בראון הוכיח שניתן לפתח אסטרטגיה לזכייה עקבית (1,000 דולר לשעה) בפוקר - זה פשוט שאף אדם אינו מסוגל למתמטיקה מיידית הדרושה כדי לשחק בו.
"זה אחד הדברים המעניינים ב-AI הזה, הוא לא מסתגל ליריב שלו", אמר בראון. "יש לזה האסטרטגיה שלה. זה תוקן, זה לא שינה את מה שהוא מנגן על סמך איך בני האדם משחקים. את כל הרעיון הזה שיכול להיות שיש אסטרטגיה כזו במשחק, מצאתי ממש מרתק וזה מה שבאמת משך אותי ללמוד את זה יותר. זה היה סוג של מיסטי, במובן מסוים, יש את האסטרטגיה הזו שאנחנו יודעים שקיימת, אבל אנחנו לא יכולים למצוא אותה".
מהדורת חדשות עבור Pluribus הציגה את האופי הכמעט-מוסך-מעבדתי של החומרה המניעה אותו - שרת בעל 64 ליבות עם פחות מ-512GB של זיכרון RAM, שעובד במשך שמונה ימים, פיתח את ה-AI. חוקרים העריכו ששימוש בשרתי ענן כדי להכשיר את התוכנית יעלה רק 150 דולר.
אבל אל תצפה מ-Pluribus להיכנס לחדרי פוקר וירטואליים ולהתחיל לזרוק את כולם, או לאמן דור של שחקנים אנושיים אדירים שגוזלים לכיסו סכום גדול של שעה. בראון אמר שאין תוכניות להפוך את פלוריבוס ליצירה מסחרית כלשהי. הבינה המלאכותית היא פשוט הוכחה לקונספט, שלקחיה יעזרו לבראון ולחוקרים אחרים כשהם מתמודדים עם התנהגות מחשבים במצבים מורכבים עוד יותר.
למשל, מכוניות בנהיגה עצמית. "אחד הדברים שהזכרנו לכתבים הוא האפשרות ליישם את זה על משהו כמו ניווט בתנועה עם מכונית בנהיגה עצמית", אמר בראון.
זה גם חוזר לאפליקציה ברורה נוספת של משחקי וידאו, ועוד בינה מלאכותית המוכרת לחובבי משחקי וידאו רבים: נהגי מכוניות מירוץ, שעמיתיהם המעבדים אינם מתוחכמים בהרבה ממהירות, קו אופטימלי ומהמקום שהם יעניקו לנהגים אחרים.
"משחקי ספורט מוטוריים הם דוגמה מצוינת לאופן שבו ניתן ליישם את העבודה הזו בעתיד, כי זו אינטראקציה מרובת סוכנים, יש מספר שחקנים, ויש גם רמה מסוימת של מידע נסתר", הרהר בראון. "הרבה AI של משחקים, ממה שאני מבין, הם לא משתמשים בטכניקות מאוד עקרוניות בימינו, הם מקודדים יותר, ספציפיים יותר לסוג המשחק שהוא. זה מקל על ניפוי באגים ולהבין מה קורה, כמובן.
"אבל כשאנחנו מפתחים את טכניקות ה-AI הבסיסיות האלה, אני חושב שנתחיל לראות את זה חודר לתעשיית משחקי המחשב ומתחיל להיות בולט יותר", הוסיף. "לא אתפלא. זה אחד המקומות הראשונים שזה באמת חודר ליישומים תעשייתיים".
קובץ רוסטרהוא הטור של Polygon על המפגש בין ספורט ומשחקי וידאו.