DQN fue diseñado con una ambiciosa meta: vencer a todos los jugadores del mundo en todos los juegos posibles de la empresa Atari. No es poca cosa, pero para sorpresa de todos, en muy poco tiempo, el sistema ya estaba a la altura de los mejores jugadores y los estaba venciendo sin parar.
Los investigadores que se habían puesto esta meta pertenecían a la compañía Deepmind, de Londres, conocida por especializarse precisamente en Inteligencia Artificial. Ahí surgió la idea de crear una máquina que pudiera vencer a todos los jugadores en todos los juegos de Atari (que hizo un divertido regreso a la industria de los videojuegos en 2017, con una consola de la compañía) y en tan solo dos años, este sistema se posicionaba como uno de los mejores, creando una supermáquina que fue sometida a varias pruebas de juego con contrincantes, ganándoles a todos… o casi todos.
Resulta que el único juego en donde DQN no resultaba vencedora era en un juego llamado “La venganza de Moctezuma”. Si este sistema ya había resultado campeón en otros juegos de Atari como pinball, tetris, boxing, y más, en los cuales tenía resultados hasta 25 veces más altos que los jugadores humanos, entonces ¿qué tenía “La venganza de Moctezuma” que lo hacía tan difícil para esta máquina? Y es que, incluso de jugar durante semanas, la Inteligencia Artificial no lograba anotar ni un punto.
Lo más extraño de esta experiencia es que la respuesta para la investigación en torno a DQN estaba en donde menos se esperaba: en los bebés. Cuando los investigadores de Deepmind comenzaron a indagar en por qué en este juego DQN no lograba los resultados esperados, se dieron cuenta de que tenía que ver con un sistema de aprendizaje muy básico en la vida de todos los seres humanos: el condicionamiento por recompensa.
En juegos como pinball, el sistema de recompensa ya existe de manera natural pues conforme se acumulan puntos, la máquina puede ir identificando qué es lo que tiene que hacer para obtener mayores números: qué botones presionar, qué movimientos hacer y otras claves para tener buenos resultados. Sin embargo, en juegos como “La venganza de Moctezuma”, el sistema no es tan sencillo de detectar para la Inteligencia Artificial.
En juegos como “La venganza de Moctezuma”, por su parte, un simple error en la prueba causa que el personaje muera, por lo que no hay oportunidad de aprender las claves con base en la repetición y absorción de información, que es la clave de la Inteligencia Artificial.
Y aquí es cuando inicia la participación de los bebés. Los investigadores de Deepmind recordaron que los bebés suelen mirar por más tiempo las fotografías de imágenes que no conocen o no han visto antes que las que ya conocen, demostrando que hay algo en la simple sensación de novedad que emociona a los bebés (y probablemente a todos los humanos, si pensamos en cómo nos causa felicidad ir de compras, entre otras formas en que el dinero llega a dar felicidad).
Ellos aprovecharon esto y agregaron a DQN la capacidad de emocionarse y sentir atracción por la novedad, así que cada vez que aparecía algo nuevo en la pantalla, esto llamaba su atención y lo hacía adquirir las recompensas, como las monedas y otros premios de este tipo de juegos, permitiéndole convertirse en jugador estrella también de este tipo de juegos.
Con información de GQ