Kênh tin tức

Liên hệ chính thức

     

Pluribus Poker: Bot AI Đang Làm Chao Đảo Thế Giới Poker

Vào năm 2019, một nhóm từ Đại học Carnegie MellonFacebook AI Research đã gây chấn động thế giới poker và lĩnh vực AI với Pluribus, một bot có thể đánh bại các tuyển thủ hàng đầu trong Texas Hold’em sáu người không giới hạn.

Bước sang năm 2025, Pluribus vẫn là một chủ đề nóng trong các cuộc thảo luận về AI. Trong khi mọi người đang bàn tán về các hệ thống sinh ngôn ngữ như ChatGPT, Claude và Gemini, nhiều nhà nghiên cứu tin rằng Pluribus là một bước ngoặt—một bước ngoặt vẫn đang định hình chiến lược, an ninh mạng, đàm phán và thậm chí cả khám phá thuốc cho đến ngày nay.

Làm sao bot này có thể chinh phục trò chơi bài khó nhất thế giới, nơi bluff (đánh lừa) và tư duy thông minh là chìa khóa? Và có lẽ câu hỏi lớn hơn bây giờ: liệu một phiên bản của Pluribus có thể lén lút xâm nhập vào các phòng poker trực tuyến không?


Tại sao Pluribus quan trọng

Trước khi Pluribus xuất hiện, phần lớn các chiến thắng AI trong poker đều giới hạn ở định dạng heads-up (chỉ hai người chơi). Các bot như DeepStackLibratus đã đạt được mức gọi là “siêu nhân” trong trò chơi hai người bằng cách sử dụng toán học phức tạp để tiếp cận cân bằng Nash—cơ bản là một chiến lược rất khó bị đánh bại.

Nhưng khi nói đến poker nhiều người chơi, đó là một trò chơi hoàn toàn khác. Không giống như cờ vua hay cờ vây, nơi cả hai người chơi đều nhìn thấy mọi thứ, poker dựa trên thông tin không hoàn hảo—bạn không bao giờ biết đầy đủ đối thủ có gì trong tay. Trong thiết lập nhiều người, trò chơi trở nên phức tạp gấp nhiều lần. Những điểm yếu không lộ ra trong trận đấu một đấu một lại có thể bị khai thác trên bàn sáu người, nơi liên minh, bluff và kích thước chip thay đổi liên tục.

Thực tế, vào năm 2018, nhiều chuyên gia nghĩ rằng AI sẽ không thể phá vỡ Texas Hold’em sáu người không giới hạn trong nhiều năm—nếu không muốn nói là không bao giờ.

Rồi Pluribus xuất hiện.


Bên trong cỗ máy

Theo bài báo Science năm 2019 mang tính cột mốc, Pluribus được xây dựng dựa trên hai ý tưởng sáng tạo:

  1. Huấn luyện tự chơi
    Thay vì nạp vào hàng tỷ ván bài poker, nhóm nghiên cứu để Pluribus tự chơi với các bản sao của chính nó. Trong tám ngày trên một máy chủ 64 lõi (chi phí khoảng 150 đô la), AI đã học các chiến lược riêng qua vô số thử và sai. Cách tiếp cận này rẻ hơn nhiều so với các đột phá học tăng cường khác tốn hàng triệu đô la.
  2. Tìm kiếm nhìn trước giới hạn
    Khác với AI cờ vua lên kế hoạch từ rất xa, Pluribus chỉ nhìn trước một vài bước. Nó kết hợp điều này với các “bản thiết kế” dựa trên xác suất cho các tình huống thường gặp, đạt sự cân bằng giữa bất ngờ và hiệu quả. Phương pháp này mang lại cho nó lợi thế năng động, giống con người mà không bị gò bó trong các chiến lược cứng nhắc.

Kết quả? Một AI tung ra những nước đi kỳ lạ nhưng hiệu quả đến mức ngay cả những tay chơi dày dạn cũng phải nghi ngờ bản năng của mình.


Phong cách chơi độc đáo

Điều thực sự khiến Pluribus khác biệt không chỉ là chiến thắng mà là cách nó chơi trò chơi.

  • Không bao giờ Limp
    Các tuyển thủ đôi khi limp (chỉ theo big blind trước flop), nhưng Pluribus hoàn toàn bỏ qua điều này—một hiểu biết mà sau đó các pro phát hiện ra là tối ưu hơn.
  • Sử dụng “Donk Betting”
    Thường bị coi là sai, donk bet (đặt cược trước người tấn công ban đầu) trở thành một trong những dấu ấn của Pluribus. Hóa ra, các donk bet của nó được đặt đúng lúc, xoay chuyển pot theo cách bất ngờ.
  • Bluff hiếm gặp
    Với con người, bluff là canh bạc. Với Pluribus, đó chỉ là toán học. Nó không bị chi phối bởi cảm xúc và thực hiện những bluff tối ưu hóa tiềm năng dài hạn.
  • Check-raise ở những tình huống bất ngờ
    Những nước đi vốn bị xem là “quá màu mè” lại thường xuyên xuất hiện trong lối chơi của Pluribus, cho thấy máy móc không tuân theo luật poker của con người.

Chống lại các pro như Darren Elias (giữ kỷ lục danh hiệu WPT nhiều nhất) và Chris Ferguson (vô địch WSOP Main Event 2000), Pluribus kiếm trung bình khoảng 5 đô la mỗi ván—tức là khoảng 1.000 đô la mỗi giờ sau 10.000 ván.

Như Elias nói sau khi liên tục bị đánh bại:

“Bạn có cảm giác nó chơi ở cấp độ cao hơn chúng tôi… Tôi không thấy lỗ hổng lớn nào trong cách tiếp cận của nó.”


Tại sao năm 2025 vẫn quan tâm đến Pluribus

Vậy, sáu năm sau, tại sao chúng ta vẫn bàn luận về con bot poker này?

bước tiến mà Pluribus đạt được—xử lý trò chơi nhiều người thông tin không hoàn hảo—vẫn là một trong những thử thách lớn nhất của AI.

  • AI sinh ngôn ngữ như các mô hình GPT rất giỏi dự đoán văn bản nhưng yếu trong chiến lược cạnh tranh.
  • Hệ thống robot chủ yếu được thiết kế cho môi trường kiểm soát.
  • Nhiều vấn đề trong đời thực giống poker hơn cờ vua: an ninh mạng, thị trường tài chính, thương lượng nhiều bên, thậm chí mô phỏng quân sự đều liên quan đến thông tin ẩn, liên minh thay đổi và người chơi không hợp tác.

Như AAAS đã lưu ý, thiết kế của Pluribus có thể giúp AI sau này đàm phán chiến lược an ninh mạng, thiết kế thuốc cho các bệnh nhiễm khó trị và hỗ trợ mô phỏng quân sự.

Còn với người bình thường, câu hỏi lớn hơn—ai đó có thể lén lút đưa Pluribus hoặc các hậu duệ của nó vào các phòng poker trực tuyến không?


Pluribus có thể phá vỡ poker trực tuyến?

Pluribus chưa bao giờ được phát hành ra công chúng. Các nhà nghiên cứu đã rõ ràng: họ lo ngại về việc lạm dụng trong các trò chơi poker thật, nơi chỉ một AI nhỉnh hơn một chút cũng có thể hút hàng nghìn đô la từ người chơi.

Tuy nhiên, yêu cầu phần cứng đơn giản—chỉ tám ngày huấn luyện trên một máy chủ đơn giá 150 đô la—cho thấy đây không phải là dự án xa vời. So với GPT-4, có chi phí phát triển khổng lồ, một người đam mê tận tâm vào năm 2025 có thể tái tạo một bot kiểu Pluribus nhỏ hơn bằng công cụ học tăng cường mã nguồn mở.

Điều này trở nên phức tạp:

  • Các trang poker trực tuyến như PokerStars hoặc WSOP.com đã sử dụng biện pháp phát hiện bot, tìm kiếm các mẫu quyết định lạ.
  • Nhưng một AI kiểu Pluribus có thể đa dạng lối chơi đủ để lẩn tránh sự giám sát. Tính khó lường—điều từng làm Elias và Ferguson bối rối—khiến nó khó bị nhận diện.
  • Nếu một trong những bot này xuất hiện, có thể nó sẽ nghiền nát các bàn trung và cao, vét sạch cả người chơi giải trí lẫn dân chuyên nghiệp.

Cho đến nay, chưa có bằng chứng chắc chắn rằng Pluribus hoặc một bản sao chính xác đã xuất hiện trực tuyến. Nhưng khi sức mạnh tính toán rẻ đi và học tăng cường lan rộng, cơ quan quản lý và các trang poker có thể sẽ phải tham gia trò chơi mèo vờn chuột vô tận. Và có thể nói trò chơi đó đã bắt đầu với Pluribus.


Bức tranh lớn hơn: Poker như mô hình của thực tế

Poker không chỉ là những lá bài—nó phản ánh đời thật. Con người ra quyết định với thông tin không đầy đủ, cố gắng vượt mặt đối thủ bằng gợi ý, bluff và lựa chọn đầy bất định.

Đó là lý do tại sao DARPA, Bộ Quốc phòng và các công ty tài chính đã quan tâm đến nghiên cứu AI poker. Pluribus không chỉ thắng ở bàn bài; nó chứng minh rằng máy móc có thể xuất sắc trong các tình huống hỗn loạn, cạnh tranh, nhiều người chơi.

Một vài lĩnh vực đáng nghĩ đến:

  • An ninh mạng: phòng thủ hệ thống trước hacker với chiến lược thay đổi giống như một trò chơi bluff kéo dài.
  • Giao dịch tài chính: thị trường là trò chơi nhiều người với thông tin không đầy đủ—chính là môi trường Pluribus từng vượt trội.
  • Y tế: thiết kế thuốc chống vi khuẩn tiến hóa cần dự đoán được các “nước đi ẩn” của mầm bệnh.

Mỗi lĩnh vực này đều cần điều mà Pluribus đã chứng minh: khả năng hoạt động hiệu quả mà không cần nhìn thấy toàn bộ, sử dụng chiến lược hỗn hợp linh hoạt.


Những hạn chế vẫn còn

Mặc dù Pluribus ấn tượng, nó không phải là một AI tổng quát.

  • Nó là tĩnh: Khi đã được huấn luyện, nó không cập nhật theo thời gian thực. Khác với các mô hình GPT ngày nay, vốn liên tục hấp thụ dữ liệu mới.
  • Nó chỉ tập trung vào Texas Hold’em không giới hạn sáu người—thử với PLO hoặc giới hạn khác thì có thể không hiệu quả.
  • Nó hoạt động tốt hơn trong môi trường có cấu trúc, khối lượng ván lớn—tương tự các cash game trực tuyến—nơi phương sai được cân bằng. Trong giải trực tiếp ít ván, kết quả có thể khác.

Điều quan trọng: chiến lược blueprint của nó không được đảm bảo là tối ưu; nó chỉ đơn giản chứng minh được khó bị đánh bại qua số lượng lớn ván.


Kết luận: Bóng dáng Pluribus năm 2025

Sáu năm sau khi làm chấn động thế giới poker và AI, Pluribus vẫn là một cột mốc quan trọng buộc chúng ta nghĩ khác về chiến lược, rủi ro và sự thông minh.

Ảnh hưởng thực sự của nó có thể không chỉ nằm ở poker mà còn ở cách các bài học của nó lan tỏa vào an ninh mạng, công nghệ sinh học và đàm phán đời thực. Tuy nhiên, ý nghĩ về những bot giống Pluribus âm thầm lẩn khuất trong phòng poker trực tuyến năm 2025 vừa đáng lo vừa hấp dẫn.

Như tay chơi chuyên nghiệp Chris Ferguson đã nói sau trận đấu với Pluribus:

“Nó không mệt. Nó không có cảm xúc. Nó chỉ chơi thôi.”

Đó có lẽ là cốt lõi của trí tuệ máy móc—và đó là lý do thành tựu của Pluribus vẫn còn vang vọng vượt xa ngoài bàn poker.


Tài liệu tham khảo

Câu hỏi thường gặp về Pluribus AI

Pluribus AI là gì và tại sao nó quan trọng?

Pluribus là AI chơi poker do Đại học Carnegie Mellon và Facebook AI Research phát triển năm 2019. Đây là AI đầu tiên đánh bại tuyển thủ con người trong Texas Hold’em sáu người không giới hạn, mở ra bước đột phá cho trò chơi nhiều người thông tin không hoàn hảo.

Pluribus đã thắng bao nhiêu tiền trước các tuyển thủ chuyên nghiệp?

Trung bình, Pluribus thắng khoảng 5 đô la mỗi ván và 1.000 đô la mỗi giờ. Trong 10.000 ván với Darren Elias và Chris Ferguson, nó giữ tỷ lệ thắng khoảng 30 mili big blind, chứng minh trình độ siêu phàm.

Pluribus có thể được dùng để gian lận poker trực tuyến không?

Các nhà phát triển không công bố mã nguồn để tránh lạm dụng. Nhưng với việc được huấn luyện chỉ 8 ngày trên server 150 đô, về lý thuyết các bản sao có thể xuất hiện. Hệ thống phát hiện bot tồn tại, nhưng lối chơi khó đoán của Pluribus giúp nó có thể thoát khỏi giám sát.

Điều gì làm Pluribus khác người chơi poker?

Nó chưa từng limp, dùng donk bet thường xuyên, bluff theo toán học mà không bị cảm xúc chi phối, và check-raise ở nơi hiếm thấy. Các pro cảm thấy bất lực trước chiến lược của nó.

Pluribus được huấn luyện ra sao và dùng tài nguyên nào?

Pluribus tự chơi với bản sao trong 8 ngày trên server 64 lõi, chi phí 150 đô. Nó dùng tìm kiếm giới hạn, dự đoán vài bước, kết hợp chiến lược xác suất.

Ứng dụng thực tế của Pluribus ngoài poker là gì?

Kỹ thuật này có thể dùng cho an ninh mạng, thiết kế thuốc, robot quân sự, giao dịch tài chính, đàm phán nhiều bên—nơi có thông tin thiếu, nhiều tác nhân cạnh tranh và quyết định chiến lược.

Pluribus có còn được cập nhật năm 2025 không?

Không. Nó vẫn là chương trình tĩnh. Khác AI hiện đại vừa học, vừa cập nhật, nó giữ nguyên chiến lược cố định. Nhưng ý tưởng của nó vẫn ảnh hưởng tới nghiên cứu AI.

Những hạn chế của Pluribus?

Nó chỉ dành cho Texas Hold’em sáu người không giới hạn, không hiệu quả với biến thể khác. Là hệ thống tĩnh, không thích ứng tức thời. Chiến lược blueprint cực mạnh nhưng không chắc tối ưu. Tốt nhất cho cash game nhiều ván, không phù hợp giải ngắn.