
Pluribus Poker: בוט ה-AI שמטלטל את עולם הפוקר
בשנת 2019, צוות מאוניברסיטת קרנגי מלון ו־Facebook AI Research הפילו פצצה על עולם הפוקר ועל עולם הבינה המלאכותית עם Pluribus, בוט שיכול היה למעשה לנצח את טובי המקצוענים ב־טקסס הולדם ללא הגבלה עם שישה שחקנים.
קפיצה לשנת 2025, ו־Pluribus עדיין נושא חם בדיונים על בינה מלאכותית. בעוד כולם מדברים על מערכות מחוללות טקסט כמו ChatGPT, Claude ו־Gemini, חוקרים רבים מאמינים כי Pluribus היה מהפכני—דבר שעדיין מעצב אסטרטגיות, סייבר, משא ומתן ואפילו גילוי תרופות עד היום.
איך הצליח הבוט הזה להתמודד עם משחק הקלפים הקשה בעולם, שבו בלופים וחוכמת משחק הם המפתח? ואולי השאלה הגדולה יותר עכשיו: האם גרסה של Pluribus יכולה להשתחל בשקט לחדרי פוקר אונליין?
למה Pluribus חשוב
לפני ש־Pluribus הגיע, רוב ההצלחות של בינה מלאכותית בפוקר היו מוגבלות ל־פורמטים של heads-up (רק שני שחקנים). בוטים כמו DeepStack ו־Libratus הגיעו למה שכינו “על־אנושי” במשחקי שני שחקנים באמצעות מתמטיקה מתוחכמת להשגת שיווי משקל נאש—בעצם אסטרטגיה שקשה לנצח.
אבל במשחקי פוקר מרובי־שחקנים, זה היה עולם שונה לגמרי. בניגוד לשחמט או גו שבהם הכול גלוי, פוקר כולו על מידע חלקי—אתה אף פעם לא יודע בדיוק אילו קלפים יש ליריב שלך. במבנה רב־משתתפים המשחק מסתבך בהרבה. חולשות שלא נחשפות ראש־בראש יכולות להיחשף על שולחן של שישה, שבו בריתות, בלופים וגודל הערימות משתנים כל הזמן.
באמת, ב־2018, רבים חשבו שבינה מלאכותית לא תצליח לפצח את טקסס הולדם ללא הגבלה לשישה שחקנים במשך שנים—אם בכלל.
ואז הגיע Pluribus.
בתוך המכונה
לפי מאמר Science פורץ הדרך מ־2019, Pluribus נבנה על שתי רעיונות מבריקים:
- אימון עצמי (Self-Play)
במקום להטביע אותו במיליארדי ידיים של פוקר, הצוות נתן ל־Pluribus לשחק מול עותקים של עצמו. במשך שמונה ימים על שרת עם 64 ליבות (בעלות של כ־150$), הבינה מלאכותית למדה לבדה אסטרטגיות על ידי ניסוי וטעות. גישה זו זולה בהרבה מהישגים אחרים בלמידת חיזוק שעלותם מיליונים. - חיפוש מוגבל קדימה
בניגוד ל־AI של שחמט שמתכננות מהלכים רבים קדימה, Pluribus הסתכל רק כמה צעדים קדימה. הוא חיבר זאת עם "תוכניות אב" הסתברותיות למצבים נפוצים, והשיג איזון בין חוסר צפיות ליעילות. השיטה העניקה לו יתרון דינמי, כמעט אנושי, בלי להיצמד לתבניות קבועות.
התוצאה? בינה מלאכותית שעשתה מהלכים כל כך מוזרים אך יעילים, שגם שחקנים ותיקים הטילו ספק באינסטינקטים שלהם.
סגנון משחק ייחודי
מה שבאמת גרם ל־Pluribus לבלוט לא היה רק הניצחונות אלא איך הוא שיחק.
- לא עושה Limp
שחקנים מקצוענים לפעמים עושים limp (רק משלמים את ה־big blind לפני הפלופ), אבל Pluribus ויתר על זה לחלוטין—תובנה שהפרו־פליירים הבינו אחר כך שהיא חזקה יותר. - שימוש ב־“Donk Betting”
בדרך כלל מוקע, מהלך של donk bet (הובלה מול התוקף הראשי) הפך לסימן ההיכר של Pluribus. התברר שהימורים אלו תוזמנו בצורה מושלמת והפכו קופות בדרכים מפתיעות. - בלופים חריגים
אצל בני אדם, בלוף הוא הימור. אצל Pluribus זו פשוט מתמטיקה. הוא לא נתקע ברגשות וביצע בלופים שמקסמו רווח עתידי. - Check-raises לא צפויים
מהלכים שבדרך כלל נחשבים “מוגזמים” הופיעו אצלו באופן עקבי, והראו שמכונה לא משחקת לפי הכללים האנושיים של פוקר.
מול מקצוענים כמו Darren Elias (שיאן זכיות WPT) ו־Chris Ferguson (אלוף WSOP Main Event לשנת 2000), Pluribus גרף כ־5$ ליד—שהצטברו לכ־1,000$ לשעה לאורך 10,000 ידיים.
כפי שאמר Elias אחרי שהובס שוב ושוב:
“אתה מרגיש שהוא משחק ברמה גבוהה משלנו… לא ראיתי פגמים משמעותיים בגישתו.”
מדוע עדיין מתעניינים ב־Pluribus בשנת 2025
אז, שש שנים אחרי, למה עדיין מדברים על הבוט הזה?
כי הקפיצה שעשה Pluribus—התמצאות במשחקים מרובי־משתתפים עם מידע חלקי—עדיין מהווה אחת האתגרים הגדולים של AI.
- AI מחולל כמו מודלי GPT מצוינים בניבוי טקסט אבל חלשים באסטרטגיות תחרותיות.
- מערכות רובוטיות עוצבו ברובן לסביבות מבוקרות.
- הרבה בעיות בעולם האמיתי דומות יותר לפוקר מאשר לשחמט: סייבר, שווקים פיננסיים, עסקאות רב־צדדיות, ואפילו סימולציות צבאיות—כולן כוללות מידע חסר, בריתות משתנות, ושחקנים שלא משתפים פעולה.
כפי שAAAS ציינו, העיצוב של Pluribus עשוי לעזור ל־AI בעתיד לנהל אסטרטגיות סייבר, לפתח תרופות לזיהומים עמידים, ואפילו לתמוך בסימולציות צבאיות.
אבל לאנשים רגילים יש שאלה גדולה יותר—האם מישהו יכול להחדיר את Pluribus או יורשיו לחדרי פוקר אונליין?
האם Pluribus יכול לפרוץ את הפוקר האונליין?
Pluribus מעולם לא שוחרר לשימוש הציבור. החוקרים הבהירו: הם חששו משימוש לרעה בעולם הפוקר האמיתי, שבו אפילו AI טוב מעט יותר יכול לרוקן אלפי דולרים משחקנים אנושיים.
עם זאת, הדרישות הפשוטות—אימון של שמונה ימים בלבד על שרת אחד בעלות 150$—מצביעות שזה לא פרויקט רחוק מדי. לעומת GPT-4 שעלה הון לפתח, חובב נלהב בשנת 2025 יכול לשחזר בוט בסגנון Pluribus קטן יותר בעזרת כלים בקוד פתוח ללמידת חיזוק.
זה הופך למסובך:
- אתרי פוקר אונליין כמו PokerStars או WSOP.com כבר משתמשים באמצעי זיהוי בוטים, מחפשים דפוסי החלטות מוזרים.
- אבל AI בסגנון Pluribus יכול לגוון מספיק כדי לחמוק מתחת לרדאר. חוסר הצפיות שלו—מה שבלבל את Elias ו־Ferguson—קשה לזיהוי.
- אם אחד כזה היה צץ, הוא כנראה היה מוחץ משחקי בינוני וגבוה אונליין, מרוקן גם חובבנים וגם מקצוענים.
נכון לעכשיו, אין הוכחה ש־Pluribus או עותק מדויק שלו פעל אונליין. אבל ככל שעוצמת מחשוב זולה יותר ולמידת חיזוק מתפשטת, הרגולטורים ואתרי הפוקר עלולים למצוא עצמם במרדף אינסופי של חתול ועכבר. אפשר לומר שהמשחק הזה התחיל עם Pluribus.
התמונה הגדולה: פוקר כמודל למציאות
פוקר הוא לא רק קלפים—הוא משקף את החיים. אנשים מקבלים החלטות עם מידע חלקי, מנסים להערים על יריבים בעזרת רמזים, בלופים והחלטות לא ודאיות.
לכן DARPA, משרד ההגנה וחברות פיננסיות התעניינו במחקר AI לפוקר. Pluribus לא רק ניצח במשחק; הוא הראה שמכונות יכולות להצליח במצבים מבולגנים, תחרותיים ורב־משתתפים.
כמה תחומים למחשבה:
- סייבר: הגנה על מערכות מול האקרים באסטרטגיות משתנות היא סוג של משחק בלופים ארוך.
- מסחר פיננסי: השווקים הם משחקים מרובי־משתתפים עם מידע חלקי—בדיוק הסביבה שבה Pluribus הצטיין.
- בריאות: תכנון תרופות נגד חיידקים מתפתחים דורש לחשוב מראש על צעדים נסתרים של הפתוגנים.
כל אחד מהתחומים הללו זקוק למה שהוכיח Pluribus: היכולת להצליח בלי ראייה מלאה, תוך שימוש ב־אסטרטגיות משולבות וגמישות.
מגבלות שעדיין קיימות
למרות ש־Pluribus היה מרשים, הוא לא היה AI כללי.
- הוא היה סטטי: לאחר שאומן, הוא לא קיבל עדכונים בזמן אמת. בניגוד למודלי GPT של היום שסופגים מידע כל הזמן.
- הוא התמקד רק ב־טקסס הולדם ללא הגבלה בפורמט שישה שחקנים—ב־PLO או Hold’em מוגבל אולי היה מתפקד פחות טוב.
- הוא הצטיין בסביבות מובנות ובנפח גבוה—כמו cash games אונליין—שבהן הווריאנס מתאזן. בטורנירים חיים עם מעט ידיים, התוצאות יכלו להשתנות.
קריטי לציין: אסטרטגיית התוכנית של Pluribus לא הוכחה כאופטימלית; היא פשוט קשה לניצחון לאורך הרבה ידיים.
סיכום: הצל של Pluribus ב־2025
שש שנים אחרי שהדהים את עולם הפוקר והבינה המלאכותית, Pluribus נותר נקודת ציון מרכזית שמאלצת אותנו לחשוב אחרת על אסטרטגיה, סיכון ותבונה.
ההשפעה האמיתית שלו עשויה להיות לא רק בפוקר אלא באיך השיעורים שלו חוצים לתוך סייבר, ביוטכנולוגיה ומשאים־ומתנים בעולם האמיתי. ועדיין, המחשבה על בוטים מסוג Pluribus שמסתתרים בשקט בחדרי פוקר אונליין ב־2025 היא גם מטרידה וגם מסקרנת.
כפי שאמר שחקן הפוקר המקצועי Chris Ferguson אחרי משחקו מול Pluribus:
“הוא לא מתעייף. אין לו רגשות. הוא פשוט משחק.”
זה כנראה בלב הבינה המלאכותית—ולכן ההישג של Pluribus ממשיך להדהד הרבה מעבר לשולחן הפוקר.
מקורות
- Brown, N., & Sandholm, T. "בינה מלאכותית על־אנושית לפוקר רב־משתתפים." Science (2019)
- AAAS, "בינה מלאכותית כובשת את משחק הפוקר המורכב ביותר בעולם" (2019)
- Science: "בינה מלאכותית על־אנושית לפוקר heads-up ללא הגבלה" (2017)
שאלות נפוצות על Pluribus AI
מה זה Pluribus AI ולמה הוא חשוב?
Pluribus הוא בינה מלאכותית לפוקר שפותח ב־2019 על ידי קרנגי מלון ו־Facebook AI Research. זהו הראשון שניצח מקצוענים בפורמט טקסס הולדם ללא הגבלה לשישה שחקנים—פריצת דרך במשחקי מידע חלקי מרובי־משתתפים.
כמה כסף Pluribus ניצח מול שחקנים מקצועיים?
בממוצע Pluribus זכה בכ־5$ ליד וכ־1,000$ לשעה. ב־10,000 ידיים מול Elias ו־Ferguson, הוא שמר על שיעור ניצחון עקבי של כ־30 mili big blinds.
האם ניתן להשתמש ב־Pluribus לרמות בפוקר אונליין?
הקוד לא שוחרר כדי למנוע שימוש לרעה. עם זאת, האימון דרש רק 8 ימים ו־150$, ולכן ייתכן שתיבנה גרסה דומה. מערכות גילוי קיימות, אך סגנון Pluribus הלא צפוי מקשה על זיהוי.
מה מבדיל את Pluribus משחקני פוקר אנושיים?
הוא לא עשה limp, השתמש ב־donk bet הרבה יותר, bluff מתמטי קר, וצעד לא צפוי כמו check-raise. שחקנים חוו תחושת חוסר אונים מולו.
כיצד אומן Pluribus ואילו משאבים נדרשו?
הוא אומן מול עצמו שמונה ימים על שרת 64 ליבות, בעלות 150$. השתמש בחיפוש מוגבל וסט אסטרטגיות הסתברותיות.
מהן היישומים של Pluribus מחוץ לפוקר?
הטכנולוגיה שלו מתאימה לסייבר, פיתוח תרופות, רובוטיקה צבאית, מסחר ועסקאות רב־משתתפים. כל תחום עם מידע חלקי יכול להרוויח.
Pluribus מתעדכן עדיין ב־2025?
לא. הוא נותר סטטי. בניגוד ל־AI לומד, הוא עם אסטרטגיה קבועה. החידושים ממשיכים להשפיע במחקר.
מה היו המגבלות של Pluribus?
הוא שימש רק לפורמט טקסס הולדם לשישה שחקנים. לא הסתגל בזמן אמת, והאסטרטגיה לא אופטימלית תאורטית. הכי אפקטיבי ב־cash games גדולים, לא בטורנירים קטנים.