ReBel — Nuevo bot de póker de Facebook

Autor
Vargoso
Publicado
31/7/2020
Actualizado
31/7/2020

El departamento de investigación de inteligencia artificial de Facebook publicó hace poco un paper con los detalles de la creación y pruebas exitosas de un nuevo bot de póker llamado ReBel. Los desarrolladores dicen que sus algoritmos son más poderosos y eficientes que los utilizados en Libratus — el único bot conocido que les ha ganado a jugadores profesionales.

ReBeL-new-poker-bot-Facebook_1

¿El departamento de IA de Facebook es líder en el desarrollo de bots?

En el 2019 Facbeook publicó información acerca de un poderoso bot de póker — Pluribus, que resultó en otro paso en el desarrollo de la IA, pero no un "killer del póker" como muchos anticiparon. Pluribus podía no solo jugar HU sino 6-max contra jugadores habilidosos.

Sin embargo, esta vez no hubo comunicados ruidosos sobre el impacto del nuevo bot — ReBel — en la industria del póker y sus capacidades avanzadas. No hubo vídeos tampoco. En vez de, el equipo de investigación de IA de Facebook escribió un paper de 27 hojas describiendo los principios generales del bot y lo compararon con otros programas.

¿Qué es ReBel?

El nombre del bot es un acrónimo de "Recursive Belief-based Learning" (algo que puede traducirse como Aprendizaje Recursivo Basado en Creencias), que se enfoca en autoaprendizaje en condiciones de información incompleta. Esto se confirma con el título del Paper: Combinando el aprendizaje de refuerzo profundo y la búsqueda de juegos de información incompleta, escrito por Noam Brown, Anton Bakhtin, Adam Lerer, y Qucheng Gong, del Equipo de IA de Facebook.

ReBel fue creado con base al bot de póker AI DeepsTack, el primer bot que venció a un humano en el 2017. Su principal diferencia con los desarrollos preliminares es lo que llaman "estados de creencia pública (PBS, public belief states).

PBS es un nuevo mecanismo de autoaprendizaje utilizado por el bot, que no solo incluye el análisis de la información actual, sino también una decisión intuitiva con base en decisiones previas tomadas por los oponentes, haciendo iteraciones para evitar que abusen del bot.

En otras palabras, ReBel no solo analiza la mano en sí, sino también el como la evalúa el oponente, tal como lo hacen jugadores de póker exitosos.

¿Qué resultados muestra el bot?

En comparación con sus predecesores, ReBel es mucho más rápido: gasta al menos 2 segundos menos que Libratus, y en general no más de 5 segundos en tomar una decisión.

El único jugador de póker que ha jugado contra ReBel es Dong Kim (que también fue uno de los jugadores que perdió contra Libratus).

Después de 7,500 manos, la IA venció al jugador humano por 0,165BB, mientras que Libratus lo hizo por 0,147BB.

Por supuesto, para una prueba más realista se requieren más manos contra más jugadores, especialmente para entender como operan los PBS.

¿Qué tan peligroso es ReBel para el póker online?

Los desarrolladores del bot dejaron claro que su meta no era atacar al póker online. Su producto debe ayudar a las personas a organizar sistemas complejos con información imperfecta como la logística, subastas, y ciberseguridad. Tampoco pretenden liberar el código.

Para calmar a los jugadores de póker, podemos decir que:

  • Tal como en Pluribus, la tasa de ganancias fue calculada utilizada AIVAT, una técnica de reducción de varianza que automáticamente sobreestima las ganancias;
  • ReBel fue creado y trabaja solo en juegos de suma cero, lo cual querría decir por ejemplo que no hay rake en las mesas de póker.
  • El bot solo fue diseñado para juegos HU.

Por lo tanto, en la batalla de toda la industria contra el juego deshonesto y la inteligencia artificial, ReBel no tomará de ninguna manera el lado de los bots.

Síguenos en Twitter y Telegram para estar al tanto de todas las noticias EV+ que publicamos

Posts relacionados