Blog

Cómo crear un bot de póquer con Python

Q: ¿Por qué la IA de póker es diferente de la IA de ajedrez?

El ajedrez y el Go son juegos de información perfecta, en los que todas las piezas son visibles. El póker es un juego de información imperfecta con cartas ocultas, faroles y modelado de oponentes, lo que lo hace mucho más parecido a la toma de decisiones del mundo real bajo incertidumbre.

Q: ¿Cuántos recursos computacionales se necesitan para entrenar una IA de póker?

Para prototipos académicos típicos, 100–1000 horas de GPU suelen ser suficientes. Pero los sistemas de vanguardia, como Libratus o Pluribus, necesitaron decenas de miles a millones de horas de núcleo en supercomputadores.

Q: ¿Vale la pena estudiar IA de póker si no voy a construir un bot?

Sí. Comprender CFR, GTO y el razonamiento multiagente es conocimiento aplicable a áreas como ciberseguridad, negociaciones y mercados financieros.

Q: ¿Qué direcciones de investigación en IA de póker son interesantes más allá de 2025?

Áreas clave serán la IA explicable (XAI), el aprendizaje multiagente a gran escala y la aplicación más amplia de estrategias basadas en CFR más allá del póker.

Written by

PokerBotAI Updates Team

Published enero 11, 2023 • Updated septiembre 11, 2025

Get the latest software updates, patch notes, and new features for our poker bots and AI. Straight from the developers' den at PokerBotAI.com

Exención legal y ética: Este contenido es solo para fines educativos/de investigación. Los bots de póker automatizados en sitios comerciales de póker en línea pueden violar los términos de servicio y pueden ser ilegales en ciertas jurisdicciones. Por favor, verifique las leyes locales y las políticas de sus aplicaciones o sitios web de póker antes de aplicar cualquier software de póker automático. Este contenido se centrará únicamente en la investigación académica, las aplicaciones de la teoría de juegos y el desarrollo educativo de la IA.

Introducción: Mi experiencia en la investigación de IA en póker

Como investigador interesado tanto en la inteligencia artificial como en la teoría de juegos, he dedicado mucho tiempo a reflexionar sobre la IA en póker y los sorprendentes logros de la IA en la última década. En 2017, cuando conocí por primera vez a Libratus de la Universidad Carnegie Mellon, que acababa de derrotar a varios jugadores humanos profesionales en partidas heads-up no-limit Texas Hold’em, me quedó claro que estábamos en un momento histórico de la IA. Me interesé en cómo funcionaban estos sistemas y cómo los posibles implementadores podían aprender de estos éxitos.

La IA de póker es una de las áreas más complejas en la investigación de inteligencia artificial y utiliza todo el rango de técnicas posibles para un juego de información imperfecta con componente porcentual, como la teoría de juegos aplicada, el razonamiento estratégico bajo incertidumbre y el modelado de oponentes. A diferencia del ajedrez o el Go, el póker combina pocas reglas, información oculta, faroles y factores sociales, lo que lo hace normal y similar a muchos problemas de decisión que enfrentamos en la vida.

Poker Bots Dev

El gran avance: de Libratus a Pluribus

Todo el panorama de la IA en póker cambió con estos tres grandes logros y, a su vez, cambió nuestra percepción de las capacidades de la IA en juegos de información imperfecta.

Libratus: El campeón de heads-up (2017)

Desarrollado por Tuomas Sandholm y Noam Brown en Carnegie Mellon University, Libratus fue noticia cuando derrotó a cuatro de los mejores profesionales en una competencia de 20 días de heads-up no-limit Texas Hold’em. En su publicación en *Science*, Sandholm dijo: «Libratus no intenta averiguar cómo juegan los humanos. Desarrolla una estrategia que es demostrablemente óptima contra cualquier oponente» (Brown & Sandholm, 2019, *Science*).

La razón del éxito de Libratus fue que ejecutaba algoritmos de Minimización de Arrepentimiento Contrafactual (CFR) en enormes cálculos, con más de 13 millones de horas de núcleo en el clúster Bridges del Centro de Supercomputación de Pittsburgh. Lo especial de Libratus es que fue capaz de calcular estrategias para todo el árbol de juego de heads-up no-limit Hold’em, lo que antes se consideraba intratable computacionalmente.

DeepStack: Razonamiento estratégico en tiempo real (2017)

Al mismo tiempo, investigadores de la Universidad de Alberta, dirigidos por Michael Bowling, desarrollaron DeepStack, conocido por combinar el aprendizaje profundo con el razonamiento de teoría de juegos. «DeepStack es el primer programa de computadora que supera a profesionales humanos en póker heads-up no-limit Texas Hold’em», dijo Bowling en su artículo en *Science* (Moravčík et al., 2017).

La innovación de DeepStack fue que podía calcular la estrategia en tiempo real mientras jugaba, en lugar de tener que precomputar todo el árbol de juego. Este método facilitó mucho más lograr un alto rendimiento.

Pluribus: Libertad del póker de seis jugadores (2019)

El mayor logro vino después, con Pluribus, desarrollado nuevamente por el equipo de CMU, que fue la primera IA en derrotar a profesionales humanos en partidas de seis jugadores de no-limit Texas Hold’em. Esto es mucho más impresionante, ya que el póker multijugador tiene una complejidad exponencialmente mayor que el heads-up.

«Las técnicas que desarrollamos para Pluribus pueden aplicarse más ampliamente a otras interacciones estratégicas, incluidas subastas, negociaciones, ciberseguridad y otros dominios», dijo Sandholm en su posterior publicación (Brown & Sandholm, 2019).

Fundamentos técnicos: Comprendiendo la arquitectura de la IA moderna en póker

Poker GTO

Estrategias GTO (Game-Theoretic Optimal)

Las soluciones modernas de IA en póker se implementan fundamentalmente con estrategias de Óptimo de Teoría de Juegos, definidas matemáticamente como la jugada ideal que no puede ser explotada por el oponente. Según el jugador profesional y entrenador Darren Elias, «el juego GTO proporciona una estrategia base que es inexplotable, pero la verdadera habilidad consiste en saber cuándo y cómo desviarse del GTO para explotar las debilidades del rival».

Las matemáticas se apoyan en especificaciones de equilibrio de Nash, en las cuales la estrategia de cada jugador es óptima dado lo que hacen los demás. En términos de póker, esto implica lograr la mejor estrategia de forma que, a largo plazo, no se pueda perder dinero, independientemente de las elecciones del rival.

Minimización de Arrepentimiento Contrafactual (CFR)

Los algoritmos CFR son una de las partes más importantes de la IA moderna en póker. El algoritmo opera y rastrea el «arrepentimiento» mientras juega numerosas iteraciones en el entorno virtual, donde la estrategia del algoritmo evoluciona como una función de dicho «arrepentimiento», es decir, la diferencia entre la recompensa recibida y la que se hubiera podido conseguir con otra acción distinta.

Recientes avances incluyen el Monte Carlo CFR (MCCFR) y el Deep CFR, que integran redes neuronales, mientras se usa el CFR tradicional cuando es útil, lo que permite muestrear razonablemente vastos espacios de estados. Desde 2020 hasta 2025, metaanálisis publicados han demostrado fuerte convergencia y memoria (Steinberger et al., 2019; Li et al., 2020).

Counterfactual Regret Minimization (AGT 26)

Ver este vídeo en YouTube

Integración de redes neuronales

Muchos sistemas modernos de IA en póker han utilizado el aprendizaje profundo. Facebook AI Research publicó recientemente una nueva versión de CFR llamada Deep CFR, que utilizó redes neuronales para aproximar funciones de arrepentimiento y estrategia, mejorando notablemente el uso de memoria sin sacrificar rendimiento.

La integración de redes neuronales suele incluir:

Redes de valor que aproximan el valor esperado en cada estado del juego
Redes de política o política estocástica que definen las probabilidades de acción
Redes de modelado de oponentes que estiman tendencias de comportamiento basadas en jugadores

Ejemplo del mundo real: Creando tu propia IA educativa de póker

Bibliotecas y frameworks clave de Python

Según la investigación actual y los términos aplicados al desarrollo de IA en póker, existen algunas bibliotecas comunes que están convirtiéndose en estándares:

OpenSpiel: el framework multijuegos de Google

import pyspiel
import numpy as np
from open_spiel.python.algorithms import cfr

# Inicializar un juego de póker
game = pyspiel.load_game("leduc_poker")
state = game.new_initial_state()

import pyspiel

import numpy as np

from open_spiel.python.algorithms import cfr

# Inicializar un juego de póker

game = pyspiel.load_game("leduc_poker")

state = game.new_initial_state()

OpenSpiel es una biblioteca desarrollada por Google DeepMind que incluye implementaciones para múltiples algoritmos de teoría de juegos, incluidas variantes de CFR. Tiene potencial para convertirse en la principal biblioteca para investigación en IA de póker en la academia.

PyPokerEngine: Entorno de simulación

from pypokerengine.api.game import setup_config, start_poker
from pypokerengine.players import BasePokerPlayer

class ResearchBot(BasePokerPlayer):
def declare_action(self, valid_actions, hole_card, round_state):
# Implementa tu estrategia aquí
return action, amount

from pypokerengine.api.game import setup_config, start_poker

from pypokerengine.players import BasePokerPlayer

class ResearchBot(BasePokerPlayer):

def declare_action(self, valid_actions, hole_card, round_state):

# Implementa tu estrategia aquí

return action, amount

PokerRL: Framework de aprendizaje por refuerzo

PokerRL ofrece una vía para aplicar técnicas de aprendizaje por refuerzo en un entorno de póker, con soporte para variantes y distintas configuraciones de entrenamiento.

Demandas computacionales y métodos de entrenamiento

Una IA moderna de póker requerirá muchos recursos computacionales para ser entrenada. Como se destaca en registros:

Libratus: más de 13 millones de horas de núcleo en clústeres de supercomputadoras
Pluribus: 12400 horas de núcleo para el entrenamiento inicial y cómputo en tiempo real
Uso académico: normalmente entre 100-1000 horas de GPU para obtener algo útil

Para ponerlo en contexto académico, las universidades pueden usar implementaciones más simples:

Leduc Poker: muy simple, diseñado para aprender la implementación de algoritmos CFR.
Kuhn Poker: implementación muy básica para entender las piezas generales.
Heads-up Limit Hold’em: significativamente más simple que las variantes sin límite.

Arquitectura de implementación de ejemplo

import numpy as np
from typing import Dict, List, Tuple
import pyspiel

class EducationalPokerAI:
def __init__(self, game_name: str = "leduc_poker"):
self.game = pyspiel.load_game(game_name)
self.cfr_solver = cfr.CFRSolver(self.game)
self.training_iterations = 0

def train(self, iterations: int = 10000):
"""Entrenar la IA usando el algoritmo CFR"""
for i in range(iterations):
self.cfr_solver.evaluate_and_update_policy()
if i % 1000 == 0:
exploitability = self.calculate_exploitability()
print(f"Iteración {i}: Explotabilidad = {exploitability}")

self.training_iterations += iterations

def get_strategy(self, state):
"""Obtener la estrategia actual para un estado dado"""
return self.cfr_solver.average_policy()

def calculate_exploitability(self) -> float:
"""Calcular cuán explotable es la estrategia actual"""
return cfr.exploitability(self.game, self.cfr_solver.average_policy())

import numpy as np

from typing import Dict, List, Tuple

import pyspiel

class EducationalPokerAI:

def __init__(self, game_name: str = "leduc_poker"):

self.game = pyspiel.load_game(game_name)

self.cfr_solver = cfr.CFRSolver(self.game)

self.training_iterations = 0

def train(self, iterations: int = 10000):

"""Entrenar la IA usando el algoritmo CFR"""

for i in range(iterations):

self.cfr_solver.evaluate_and_update_policy()

if i % 1000 == 0:

exploitability = self.calculate_exploitability()

print(f"Iteración {i}: Explotabilidad = {exploitability}")

self.training_iterations += iterations

def get_strategy(self, state):

"""Obtener la estrategia actual para un estado dado"""

return self.cfr_solver.average_policy()

def calculate_exploitability(self) -> float:

"""Calcular cuán explotable es la estrategia actual"""

return cfr.exploitability(self.game, self.cfr_solver.average_policy())

Ejemplo real y estudios de caso

Dado los ejemplos de experiencia académica e investigadora

La IA de póker tiene usos fuera de los juegos, por ejemplo:

Ciberseguridad: razonamiento estratégico para defender una red
Mercados financieros: mecanismos de subasta, estrategias de trading
Negociación: situaciones con múltiples partes negociando la asignación de recursos
Estrategia militar: razonamiento estratégico bajo información incompleta e incertidumbre

Valor académico como parte del currículo de informática

Varias universidades líderes, como Carnegie Mellon, University of Alberta, MIT, incluyen proyectos de IA de póker en el currículo de ciencias de la computación. Los proyectos de investigación exponen a los estudiantes a:

Diseño de algoritmos: implementación y optimización de algoritmos CFR.
Teoría de juegos: búsqueda de equilibrios de Nash, razonamiento estratégico con grafos/redes.
Aprendizaje automático: para complementar algoritmos clásicos y generar mayor inteligencia general mediante redes neuronales.
Ingeniería de software: incluye el desarrollo de sistemas complejos y sus múltiples componentes.

Perspectiva experta e industrial

Desde una perspectiva académica

Como lo describe el Dr. Michael Bowling, de la Universidad de Alberta: «La investigación en IA de póker expande los límites de lo posible en razonamiento estratégico bajo incertidumbre. Las técnicas que desarrollamos tienen aplicaciones en ciberseguridad, subastas y en cualquier dominio donde sea necesario tomar decisiones con información incompleta.»

Recuerdo de un jugador experto

El jugador recreativo y entrenador Darren Elias explicó el componente educativo del póker: «Comprender los conceptos de GTO mediante la investigación en IA ha revolucionado nuestra forma de pensar en la estrategia del póker. Incluso si nunca construyes un bot, estudiar estos algoritmos te convierte en un pensador estratégico más eficaz.»

Aplicaciones en la industria

Los recientes desarrollos en IA de póker han despertado interés en grandes empresas tecnológicas. Google DeepMind, Facebook AI Research y otros continúan apoyando esta área e invierten en ella por sus implicaciones en campos más amplios de la IA.

Desarrollos recientes en la academia (2020-2025)

El campo aún se desarrolla rápidamente. Ha habido algunos avances importantes, en particular:

Variantes avanzadas de CFR

Neural Fictitious Self-Play (NFSP): la versión neuronal de CFR pudo manejar espacios de estados grandes de manera más eficaz.
Deep CFR con aproximación de funciones: redujo los requisitos de memoria en el proceso de aprendizaje.
Métodos de poda basados en arrepentimiento: enfatizaron una rápida convergencia en la práctica.

Aprendizaje multiagente

La agenda de investigación se ha expandido de dos jugadores a múltiples jugadores y dominios multiagente, con algunas aplicaciones de interés para estudiantes e investigadores, como:

Diseño de subastas
Asignación de recursos
Interacción y colaboración con sistemas de IA

IA explicable en entornos estratégicos

Finalmente, desarrollos recientes centrados en explicar las decisiones de la IA de póker son esenciales para la educación y la eventual implementación en el mundo real.

Direcciones futuras y caminos de aprendizaje

Para futuros investigadores

Cualquier estudiante interesado en la IA de juegos y en la IA de póker en particular debería considerar lo siguiente:

Formación sólida en matemáticas para una base en teoría de juegos, probabilidad y optimización.
Experiencia en programación, idealmente en Python o C++, con familiaridad en arquitecturas de aprendizaje automático.
Comprensión de algoritmos de decisión, en particular CFR, MCTS y redes neuronales.
Experiencia implementando tu propia versión de póker simulado en forma simplificada.

¿Cuál es el mejor orden de estudio para la IA de póker?

Comenzar con Kuhn Poker: implementar un algoritmo CFR simple.
Pasar a simular Leduc Poker: más complicado pero aún manejable.
Explorar implementaciones existentes como OpenSpiel, PokerRL.
Explorar las posibles mejoras que la IA puede aportar con redes neuronales y variantes de Deep CFR.
Estudiar aplicaciones más allá del póker hacia otros agentes estratégicos.

Granja de Bots de Póker

Conclusión sobre el valor educativo

Las aplicaciones de la IA de póker representan una de las actividades académicas más intelectualmente estimulantes en la educación en informática. La oportunidad de explorar teoría matemática rigurosa mientras se abordan problemas prácticos de programación permite a los estudiantes involucrarse plenamente en el estudio de la inteligencia artificial, la teoría de juegos y la ingeniería de software.

Aunque las capacidades de Libratus, DeepStack y Pluribus muestran que hemos alcanzado alturas increíbles en relación con el desarrollo de la IA, el mayor valor de la IA de póker no está en desarrollar sistemas que exploten juegos de póker, sino en comprender cómo el razonamiento estratégico bajo incertidumbre genera resultados fundamentados.

Mientras lidiamos con desafíos importantes en ciberseguridad, mercados financieros y sistemas multiagente, las estrategias generadas en nuestra investigación de IA de póker sirven como herramientas valiosas para considerar problemas del mundo real. Para estudiantes e investigadores, la IA de póker representa una puerta de entrada accesible a algunos de los aspectos más sofisticados de la inteligencia artificial contemporánea.

El desarrollo futuro consiste en expandirse de la IA de póker para aplicar las técnicas generadas en dominios más amplios, sin perder el valor académico inherente a nuestra investigación de IA en póker. Si logramos mantenernos fieles a la educación, la transparencia open-source, el desarrollo responsable y la sensibilidad hacia las implicaciones de trabajar con sistemas inteligentes y capacidades de razonamiento estratégico, entonces la IA de póker tendrá un significado duradero.

Referencias y lecturas adicionales

Brown, N., & Sandholm, T. (2019). Superhuman AI for multiplayer poker. Science, 365(6456), 885-890.
Moravčík, M., et al. (2017). DeepStack: Expert-level artificial intelligence in heads-up no-limit poker. Science, 356(6337), 508-513.
Steinberger, E. (2019). Single Deep Counterfactual Regret Minimization. arXiv preprint arXiv:1901.07621.
Li, X., et al. (2020). Neural Fictitious Self-Play in Imperfect Information Games. Proceedings of the AAAI Conference on Artificial Intelligence.
Lanctot, M., et al. (2019). OpenSpiel: A framework for reinforcement learning in games. arXiv preprint arXiv:1908.09453.

How to build a poker bot (Part 1 Counterfactual Regret minimization)

Ver este vídeo en YouTube

Preguntas Frecuentes (FAQ)

¿Son ilegales los bots de póker?

No hay una única respuesta correcta. Los bots automatizados en sitios comerciales en línea suelen estar prohibidos por los términos de servicio del propio sitio comercial y también pueden estar en contra de las leyes locales de la jurisdicción. Estos sistemas automatizados solo deben usarse para educación e investigación.

¿Por qué la IA de póker es diferente de la IA de ajedrez?

El ajedrez y el Go son juegos de información perfecta, lo que significa que todas las piezas del juego son visibles. El póker es un juego de información imperfecta, con cartas ocultas, faroles y modelado de oponentes, lo que hace que la estrategia de póker se asemeje mucho más a la toma de decisiones del mundo real bajo incertidumbre.

Si quiero aprender IA de póker, ¿por dónde empiezo?

Comienza con juegos educativos simples: Kuhn Poker → Leduc Poker → implementación básica de CFR → frameworks más grandes, p. ej., OpenSpiel; esto te dará un punto de entrada accesible para poder estudiar sistemas más complejos, como PokerRL o Deep CFR.

¿Cuántos recursos computacionales se necesitan para entrenar una IA de póker?

Para prototipos académicos típicos, a menudo son suficientes 100–1000 horas de GPU. Pero los sistemas de última generación, como Libratus o Pluribus, necesitaron decenas de miles a millones de horas de núcleo en supercomputadores.

¿Vale la pena estudiar IA de póker si no voy a construir un bot?

Por supuesto. Si entiendes CFR, GTO y el razonamiento multiagente, ese conocimiento puede aplicarse a una amplia gama de áreas, como la ciberseguridad, las negociaciones y los mercados financieros.

¿Qué direcciones de investigación en IA de póker son interesantes más allá de 2025?

Las áreas que serán importantes son la IA explicable (XAI), el aprendizaje multiagente a gran escala y la aplicación más amplia de estrategias basadas en CFR en ámbitos más allá del póker.

Cómo crear un bot de póquer con Python

PokerBotAI Updates Team

Introducción: Mi experiencia en la investigación de IA en póker

El gran avance: de Libratus a Pluribus

Libratus: El campeón de heads-up (2017)

DeepStack: Razonamiento estratégico en tiempo real (2017)

Pluribus: Libertad del póker de seis jugadores (2019)

Fundamentos técnicos: Comprendiendo la arquitectura de la IA moderna en póker

Estrategias GTO (*Game-Theoretic Optimal*)

Minimización de Arrepentimiento Contrafactual (CFR)

Integración de redes neuronales

Ejemplo del mundo real: Creando tu propia IA educativa de póker

Bibliotecas y frameworks clave de Python

OpenSpiel: el framework multijuegos de Google

PyPokerEngine: Entorno de simulación

PokerRL: Framework de aprendizaje por refuerzo

Demandas computacionales y métodos de entrenamiento

Arquitectura de implementación de ejemplo

Ejemplo real y estudios de caso

Dado los ejemplos de experiencia académica e investigadora

Valor académico como parte del currículo de informática

Perspectiva experta e industrial

Desde una perspectiva académica

Recuerdo de un jugador experto

Aplicaciones en la industria

Desarrollos recientes en la academia (2020-2025)

Variantes avanzadas de CFR

Aprendizaje multiagente

IA explicable en entornos estratégicos

Direcciones futuras y caminos de aprendizaje

Para futuros investigadores

¿Cuál es el mejor orden de estudio para la IA de póker?

Conclusión sobre el valor educativo

Referencias y lecturas adicionales

Preguntas Frecuentes (FAQ)

Related posts:

Estrategias GTO (Game-Theoretic Optimal)