Inteligencia artificial & CienciaAprendizaje profundo

La inteligencia artificial ya es mejor que los humanos en el póker

La máquina llegó a acumular 1,8 millones de dólares en fichas de casino

logo
La inteligencia artificial ya es mejor que los humanos en el póker
IA de Carnegie Mellon desafían a los mejores jugadores de póker

IA de Carnegie Mellon desafían a los mejores jugadores de póker

Resumen:

Científicos de la Universidad Carnegie Mellon concluyen que Libratus, su IA, tiene mejores estrategias que los humanos para ganar al póker.

El pasado enero, su máquina consiguió derrotar a los mejores jugadores y acumular 1,8 millones de dólares en fichas de casino.

Ningún humano le ha enseñado a jugar. Aprende de sus contrincantes y los posibles errores propios.

Su estrategia se divide en tres fases, simplificando posibles jugadas y resultados.

Estos resultados se pueden aplicar a campos que van de la ciberseguridad al comercio electrónico.

A principios de 2017, Libratus, una inteligencia artificial de la Universidad Carnegie Mellon consiguió derrotar a cuatro jugadores profesionales de póker jugando al Texas Hold’em. Ahora acaban de confirmar que Libratus tiene una capacidad sobrehumana para ganar a este juego.

En el estudio, publicado en Science, Tuomas Sandholm, profesor de Ciencias de Computación, y Noam Brown, alumno suyo, detalla cómo su inteligencia artificial logró dividir el juego en partes manejables computacionalmente y, con a partir del juego de sus oponentes, solucionar posibles debilidades en su estrategia durante la competencia. Lo hizo con más puntos de decisión que átomos tiene el universo.

Los programas de IA han derrotado a los mejores humanos en damas, ajedrez y go, todos juegos de desafío, pero en los que ambos jugadores conocen el estado exacto del juego en todo momento. Los jugadores de póker, por el contrario, lidian con información oculta: qué cartas tienen sus oponentes y si un oponente está tirando un farol.

En una competición de 20 días que involucró 120.000 manos en Rivers Casino en Pittsburgh, Libratus se convirtió en la primera máquina en derrotar a los mejores jugadores humanos en el heads-up sin límite Texas Hold’em.

Libratus venció a cada uno de los jugadores individualmente en el juego de dos jugadores y colectivamente acumuló más de 1,8 millones de euros en fichas.

Ganar sin analizar las caras de póker

“Las técnicas en Libratus no utilizan conocimiento experto (no le enseña un profesional) o datos humanos y no son específicas del póker”, señalan Sandholm y Brown en el documento. “Por lo tanto, se aplican a una gran cantidad de juegos de información imperfecta”. Tal información oculta es omnipresente en las interacciones estratégicas del mundo real, señalaron, incluida la negociación comercial, la ciberseguridad, las finanzas, los precios y las aplicaciones militares.

Libratus incluye tres módulos principales, el primero de los cuales calcula una abstracción del juego que es más pequeña y más fácil de resolver que considerando 10^161 (el número 1 seguido de 161 ceros) posibles puntos de decisión en el juego. A continuación, crea su propia estrategia detallada para las primeras rondas de Texas Hold’em y una estrategia aproximada para las rondas posteriores.

Un ejemplo de estas abstracciones en el poker es agrupar manos similares y tratarlas de manera idéntica.

“Intuitivamente, hay poca diferencia entre una escalera de color King-high y una color Queen-high“, dijo Brown. “Tratar esas manos como idénticas reduce la complejidad del juego y, por lo tanto, hace que sea más fácil desde el punto de vista computacional”.

Pero en las rondas finales del juego, un segundo módulo construye una nueva abstracción basada en el estado del juego. Durante la competencia de enero, Libratus realizó este cálculo utilizando la computadora Bridges del Centro de Supercomputación de Pittsburgh.

Libratus aprendió a partir de las apuestas de sus rivales y de los errores propios, el lugar de los ajenos

Cada vez que un oponente realiza un movimiento que no está en la abstracción, el módulo calcula una solución para este subjuego que incluye el movimiento del oponente. Sandholm y Brown llaman a esta solución de subjuego anidado.

El tercer módulo está diseñado para mejorar la estrategia del plan a medida que avanza la partida. Típicamente, dijo Sandholm, los robots usan el aprendizaje automático para encontrar errores en la estrategia del oponente y explotarlos.

En cambio, el módulo de autoejecución de Libratus analiza el tamaño de las apuestas de los oponentes para detectar agujeros potenciales en la propia estrategia. Luego, Libratus agrega estas ramas de decisión faltantes, calcula estrategias para ellas y las agrega al plan.

Además de vencer a los profesionales humanos, Libratus fue evaluado contra las mejores inteligencias artificiales anteriores en el póker. Estos incluyen Baby Tartanian8, un bot desarrollado por Sandholm y Brown que ganó el Concurso Anual de Póker por Ordenador 2016 celebrado conjuntamente con la Asociación para el Avance de la Conferencia Anual de Inteligencia Artificial.

La inteligencia artificial, como un árbol

Esquema de una red neuronal imaginaria

Esquema de una red neuronal imaginaria E.I.

Las máquinas ven un juego como un árbol. Simplificando, de cada nudo salen dos ramas, que son las posibles decisiones o caminos a tomar. Por cada una de estas ramas brotan frutos, que son las posibles reacciones del contrincante. Según por donde haya salido el fruto, así brotarán otras dos ramas. Follaje y frutos compiten por un objetivo: alcanzar la luz del sol.

Obviamente, ni todas las ramas son tan frondosas, ni todos los frutos tan comprometedores para éstas. Digamos que la máquina puntúa cada juagada (ramas/frutos). Mirar el árbol en su conjunto, de abajo a arriba, nos daría una visión de cuál es el recorrido óptimo para alcanzar el sol. Pero eso lleva tiempo. Por ello se pueden podar algunas ramas con sus frutos, dejándolo más estrecho.

Las redes neuronales son como jardineros con experiencia. Pueden aprender qué ramas son típicamente las que más alto llegan o las que darán más fruto. La experiencia le hace puntuar a las ramas en función de si son más productivas o frondosas y así ayudan a tomar decisiones de por dónde podar.