Vous vous souvenez de Twitch PlaysPokémon ? Lorsque des milliers de personnes ont collaboré (ou non) dans un tchat pour essayer de terminer le jeu Pokémon en direct sur Twitch ? C’était il y a presque dix ans et depuis, il semblerait qu’on n’ait même plus besoin d’humain… enfin presque.
Puisque Peter Whidden est bien humain lui, et il est ingénieur software à Seattle. Récemment, il a publié une vidéo YouTube dans laquelle il explique avoir passé les dernières années à entraîner un algorithme soutenu par l’intelligence artificielle pour réussir à jouer à Pokémon Rouge.
Lorsqu’on dit “entraîner une IA”, et même si la dénomination n’est pas tout à fait juste, cela signifie qu’il est parti d’un programme quasiment vierge et que celui-ci a joué des millions de fois à ce jeu vidéo, pour en comprendre les règles et espérer avancer dans l’aventure, et pas qu’un peu : l’IA a accumulé 50 000 heures sur Pokémon Rouge.
L’algorithme d’apprentissage, aussi appelé “reinforcement learning” repose sur un système de “récompense” lorsque l’IA faisait une action qui allait dans le sens de l’avancée dans le jeu vidéo. Cela va de simplement avancer, passer un dialogue jusqu’à capturer ou gagner un combat contre un Pokémon tout en récupérant un badge d’arène et en explorant le monde. Parfois, l’IA ne fait rien et contemple le paysage mais à d’autres moments, elle arrive à gagner des combats.
Au début, l’IA combat uniquement avec la “Charge” de son Carapuce, mais elle finira par réussir à, par exemple, battre Pierre, le premier Champion d’Arène lorsque cette attaque ne pourra plus être utilisée (manque de PP). L’IA décide donc d’utiliser “Pistolet à O” et détruit l’équipe de Pierre. À partir de ce moment-là, toutes les IA qui suivent vont donc utiliser cette attaque “eau” dans cette arène.
Sur cette même logique, l’IA progresse tout au long de l’aventure mais à son rythme et avec son lot d’erreurs. Par exemple, elle évite les Centres Pokémon puisqu’un jour, une de ses occurrences a vu qu’on pouvait déposer un Pokémon de son équipe et donc le lieu entier a été perçu comme “négatif” pour la progression.
Après plusieurs ajustements, l’IA a réussi à sortir de la grotte et à atteindre la ville de Céladopole. La méthode utilisée par Whidden n’est pas nouvelle, le reinforcement learning a été utilisé pour construire DeepBlue, l’IA d’échecs qui a réussi à battre l’humain. Mais le fait de l’appliquer à un jeu sensiblement plus “humain” donnerait presque un certain sens de l’émotion à l’intelligence artificielle.
À noter que Whidden a laissé en accès libre sur GitHub son programme.
À voir aussi sur Konbini