Blog

Como Treinar um Bot de Pôquer com Logs de Históricos de Mãos

Written by

Raul Moriarty

Published julho 31, 2025 • Updated agosto 3, 2025

Raul Moriarty is a business specialist with over 15 years of experience in the computer software industry. Expert in business development, project management, and online poker technology. Passionate about innovation, global networking, and the intersection of AI and gaming.

Aqui está o negócio com bots de pôquer: eles não se importam com a sua bad beat story. Eles nem gostam do “beat” quando acontece. Eles se importam com o log. O arquivo em texto simples com carimbo de data e hora, posições na mesa, profundidade de stack, valores em dólares e centavos — o relato detalhado do que realmente aconteceu.

Você sabe, aqueles arquivos que a grande maioria dos jogadores salva apenas para conferir novamente após um call duvidoso no river. Já passei noites inteiras analisando, assistindo até as mãos se misturarem, até que “UTG aumenta para $3” parecesse menos uma ação e mais uma falha na Matrix.

Em algum ponto desse processo, um bot de pôquer aprende. É aqui que o treinamento de bots com históricos de mãos começa — transformando logs crus e caóticos na base do conhecimento estratégico de uma IA.

Limpando e Fazendo o Parsing dos Históricos de Mãos

Os históricos de mãos são bagunçados. PokerStars, GGPoker, WSOP — todos têm suas peculiaridades. Às vezes os blinds estão no topo do arquivo, às vezes enterrados algumas linhas abaixo, às vezes em um formato que parece de 2004 (porque realmente é).

A primeira tarefa é limpá-los. Tamanhos de stack em big blinds. Ações em formato consistente. Cartas em vetores binários legíveis por máquina. Um bot não “vê” Ás de Espadas — ele vê um 1 na posição 12 de um array de 52 bits. Romântico, eu sei.

Quanto melhor for o parsing, menos lixo entra na mente do bot. Já passei três dias rastreando um erro de parsing que fazia metade dos small blinds parecerem raises fantasmas. O bot estava dando hero fold em KK pré-flop. Embaraçoso? Com certeza. Educativo? Ainda mais.

Transformando Históricos de Mãos em Dados de Treinamento para Bots de Pôquer

Aqui está a mágica: um bot de pôquer não precisa do seu discurso motivacional estratégico para jogar bem. Ele precisa de pares estruturados de estado e ação.

Nós desmontamos cada mão em pontos de decisão: tamanho do pote, posição, profundidade do stack, textura do board, apostas anteriores. Acrescentamos elementos artificiais como pot odds, implied odds, SPR, fold equity. E as palavras-chave: fold, call, raise, com os diferentes tipos de apostas.

Se for aprendizado supervisionado, o bot apenas imita. Clonagem comportamental. Milhares, milhões de decisões de jogadores fortes. É como ensinar um papagaio a falar, exceto que o papagaio às vezes dá 3-bet light do cutoff. Essa fase é crucial no treinamento de bots com históricos de mãos, onde ações estruturadas extraídas dos logs se transformam em modelos de decisão executáveis.

Se for aprendizado por reforço, os históricos de mãos funcionam mais como um espelho. Eles não são o combustível essencial (o autojogo gera dados mais diversos), mas ajudam a ajustar o comportamento em relação a fenômenos do mundo real.

Usando CFR e Deep Learning no Treinamento de Bots de Pôquer

O Counterfactual Regret Minimization (CFR) ainda é o rei. O bot toma decisões como se estivesse analisando cada ponto de decisão, calculando o arrependimento por não executar cada ação e ajustando gradualmente. Faça isso um bilhão de vezes e você terá jogo no Game Theory Optimal (GTO).

Depois entra o deep reinforcement learning para lidar com as partes mais bagunçadas. O DeepStack tratou o jogo futuro com uma rede neural, o Pluribus olhava o suficiente à frente para se adaptar ao caos do six-max. Os melhores números de IA de pôquer acabam em um bot híbrido — GTO no núcleo, exploratório nas bordas.

Seus históricos de mãos aqui? Eles são a ferramenta de calibração. Mostram o que jogadores reais fazem, para que o bot possa jogar de maneira mais conservadora quando há dinheiro em jogo.

Erros, Bugs e o Fator Humano

Treinar um bot não é apenas sobre números. É depurar a matemática.

Já vi bots darem fold em ases no pocket devido a um rag offsuit ser mal rotulado no vetor de features. Já vi bots tentarem dar bluff shove em Limit Hold’em porque o normalizador de tamanho de aposta estava quebrado.

Cada erro no parsing e na engenharia de features se acumula. Seus algoritmos de IA de pôquer não são mais inteligentes do que os dados que você fornece. Lixo entra, IA ruim sai.

E aí está a questão: históricos de mãos não são precisos. Eles carregam os vieses dos jogadores que os geraram: overfold, underbluff, linhas estranhas. Se você treinar cegamente neles, seu bot aprende essas peculiaridades. Às vezes isso é bom (força exploratória contra um grupo específico), às vezes é uma armadilha.

Testando e Avaliando um Bot de Pôquer Após o Treinamento

Depois que o treinamento termina, você tem um modelo. Mas não um bot pronto.

Você precisa de uma interface que alimente os modelos com estados de jogo ao vivo na mesa; sua lógica de apostas deve lidar bem com spots desconfortáveis fora do conjunto de treinamento; ter planos de contingência para que, quando a confiança do modelo for baixa, ele possa voltar a uma base mais segura.

O objeto resultante não é simplesmente uma coisa matemática. É software. Um projeto de IA de pôquer que você pode testar, avaliar e, talvez, até jogar contra.

Em círculos de pesquisa, você faz AIVAT para reduzir variância e estimar a taxa de vitória do bot. Em testes privados, você simplesmente roda 100.000 mãos e torce para que o gráfico suba.

E Então Você Assiste Ele Jogar

É aqui que começa a parte divertida.

Você vê o bot fazer algo estranho — dar check-raise em um flop seco com terceira par. Você confere o log. Ele está aproveitando uma tendência que descobriu, escondida em algum canto do dataset: esse tipo de oponente dá fold demais diante de agressão em potes multiway.

Você o vê jogar de forma lenta com ases de um jeito que você nunca ensinou. Você o vê dar hero call em uma situação em que você teria desistido. Às vezes é brilhante. Às vezes é um desastre.

E esse é o ponto. Um bot treinado com históricos de mãos aprende de forma instintiva cada decisão presente nesses arquivos. Essa é a essência do treinamento de bots de pôquer com históricos de mãos — adaptar estratégias de milhares de mãos registradas em jogadas acionáveis na mesa. Os padrões de milhares de jogadores, suavizados, ponderados e convertidos em probabilidades.

Não é perfeito. Mas, afinal, nós também não somos.