Le 2048 et le machine learning : comment une IA apprend à atteindre les plus hautes tuiles
Un joueur humain exceptionnel atteint la tuile 2048 dans environ 50 % de ses parties. Les meilleurs atteignent 4096 régulièrement, et 8192 occasionnellement. Mais les IA les plus avancées atteignent la tuile 32768 dans plus de 95 % de leurs parties, et certaines ont produit la tuile 65536 - une tuile que presque aucun humain n'a jamais vue. Comment ces programmes surpassent-ils si radicalement les meilleurs joueurs du monde ? La réponse se trouve dans les techniques de machine learning qui, appliquées au puzzle des puissances de 2, révèlent des stratégies que l'intuition humaine ne peut pas concevoir.
Pourquoi le 2048 est un défi fascinant pour l'IA
Le 2048 possède des caractéristiques qui en font un problème de machine learning particulièrement intéressant. Contrairement aux échecs ou au Go, ce n'est pas un jeu adversarial : il n'y a pas d'adversaire qui essaie de vous battre. L'ennemi est le hasard - la tuile 2 ou 4 qui apparaît aléatoirement après chaque mouvement. Ce mélange de décision stratégique et d'aléatoire place le 2048 dans la catégorie des processus décisionnels de Markov stochastiques, un domaine où le machine learning excelle.
L'espace d'états du 2048 est considérable. Une grille 4x4 peut contenir des tuiles allant de 2 à 131072 (en théorie), avec 16 cases pouvant être vides ou occupées. Le nombre d'états possibles se compte en milliards. C'est trop grand pour être exploré exhaustivement comme le Morpion, mais suffisamment structuré pour que des algorithmes intelligents trouvent des patterns exploitables.
De plus, le 2048 offre un signal de récompense riche. Chaque fusion de tuiles produit un score. Contrairement à un jeu où la récompense n'arrive qu'à la fin (victoire ou défaite), le 2048 fournit un feedback continu qui guide l'apprentissage de l'IA à chaque coup.
L'approche heuristique : les premières IA du 2048
Les premières IA performantes au 2048 n'utilisaient pas de machine learning à proprement parler. Elles s'appuyaient sur des heuristiques - des règles empiriques codées à la main par des programmeurs humains. La plus célèbre est la stratégie du coin : maintenir la tuile la plus haute dans un coin et organiser les tuiles par valeur décroissante le long des bords.
Ces heuristiques étaient traduites en fonctions d'évaluation numériques. Par exemple : +10 points si la tuile maximale est dans un coin, +5 points par case vide sur la grille, -3 points si la tuile maximale n'est pas adjacente à la deuxième plus grande tuile. L'IA évaluait chaque mouvement possible selon ces critères et choisissait celui qui maximisait le score heuristique.
Combinées avec un algorithme Expectimax - une variante du Minimax adaptée aux jeux avec hasard - ces heuristiques atteignaient la tuile 2048 dans environ 90 % des parties et 4096 dans 60 % des cas. C'était déjà bien au-dessus du joueur humain moyen. Mais le plafond de cette approche était clair : la qualité de l'IA dépendait entièrement de la pertinence des heuristiques choisies par le programmeur. Si le programmeur n'avait pas pensé à un facteur important, l'IA ne pouvait pas le découvrir seule.
Monte Carlo Tree Search : simuler des milliers de futurs possibles
L'approche Monte Carlo Tree Search (MCTS) a représenté un bond en avant. Au lieu de s'appuyer sur des règles fixes, le MCTS explore l'avenir par simulation statistique. Pour chaque mouvement possible (haut, bas, gauche, droite), l'algorithme simule des centaines ou des milliers de parties aléatoires jusqu'à leur conclusion, et choisit le mouvement qui conduit aux meilleurs résultats en moyenne.
L'idée est élégante dans sa simplicité. L'IA ne sait pas pourquoi un mouvement est bon - elle ne comprend pas les concepts de "coin", de "monotonie" ou de "cases vides". Elle sait simplement que, sur 1000 simulations, le mouvement "gauche" a produit un score moyen de 45 000 tandis que le mouvement "haut" a produit un score moyen de 32 000. Elle choisit donc "gauche".
Le MCTS pur au 2048 atteint des performances remarquables : la tuile 2048 dans plus de 98 % des parties, avec des scores moyens supérieurs à ceux des heuristiques codées à la main. Le temps de calcul est le principal facteur limitant : plus on simule de parties pour chaque décision, meilleur est le choix, mais plus le temps de réflexion augmente. Avec quelques milliers de simulations par coup, l'IA joue en quelques secondes. Avec des millions de simulations, elle peut prendre plusieurs minutes par mouvement, mais atteindre des tuiles extrêmement élevées.
Les réseaux de neurones : apprendre à évaluer les positions
La véritable révolution est venue des réseaux de neurones. Au lieu de coder des heuristiques à la main ou de simuler des parties aléatoires, l'idée est de laisser un réseau de neurones apprendre directement à évaluer la qualité d'une position. Le réseau reçoit en entrée l'état de la grille (les 16 valeurs des cases) et produit en sortie soit une évaluation de la position, soit directement le meilleur mouvement à jouer.
L'approche la plus efficace combine réseaux de neurones et apprentissage par renforcement. Le réseau joue des millions de parties contre lui-même, ajustant progressivement ses paramètres pour maximiser le score obtenu. C'est un processus lent - l'entraînement peut prendre des heures ou des jours de calcul - mais le résultat est un joueur extrêmement performant qui prend ses décisions en millisecondes.
Les architectures les plus performantes utilisent des réseaux convolutifs qui traitent la grille 4x4 comme une image. Ces réseaux détectent automatiquement des patterns spatiaux - alignements de tuiles croissantes, configurations en L, zones de monotonie - que les heuristiques humaines peinent à capturer dans toute leur subtilité. Le réseau ne connaît pas le concept de "stratégie du coin", mais il a appris, à travers des millions de parties, que certaines configurations spatiales mènent à de meilleurs résultats.
Les N-Tuple Networks : l'arme secrète des champions IA
Parmi les approches les plus performantes au 2048, les N-Tuple Networks occupent une place à part. Développée par des chercheurs comme Marcin Szubert et Wojciech Jaskowski, cette technique utilise un réseau de neurones spécialisé qui évalue les positions en examinant des groupes de cases (tuples) plutôt que des cases individuelles.
L'idée est que la valeur d'une position au 2048 dépend des relations entre les tuiles, pas de chaque tuile isolément. Un 512 dans le coin vaut plus qu'un 512 au centre. Deux tuiles 256 adjacentes valent plus que deux tuiles 256 séparées. Les N-Tuple Networks capturent ces relations en apprenant des poids pour chaque combinaison possible de valeurs dans des groupes de 4 à 6 cases prédéfinis.
Les résultats sont spectaculaires. Les meilleures N-Tuple Networks atteignent la tuile 32768 dans plus de 95 % de leurs parties, avec un score moyen dépassant 400 000 points. Certaines configurations atteignent 65536 dans environ 40 % des cas. Ces performances dépassent de très loin ce qu'un humain peut réaliser, même avec une pratique intensive.
Expectimax profond : regarder loin dans l'avenir
L'algorithme Expectimax reste un pilier des IA de 2048. Contrairement au MCTS qui simule des parties aléatoires, l'Expectimax explore systématiquement l'arbre des possibilités, en alternant entre les noeuds de décision (les quatre mouvements possibles) et les noeuds de hasard (les positions où une tuile 2 ou 4 apparaît aléatoirement).
À chaque noeud de décision, l'algorithme choisit le mouvement qui maximise le score espéré. À chaque noeud de hasard, il calcule la moyenne pondérée de tous les résultats possibles (90 % de chance pour un 2, 10 % pour un 4, dans chaque case vide). En explorant l'arbre sur 6 à 8 coups d'avance, l'Expectimax peut anticiper des situations que le joueur humain ne voit pas.
La combinaison Expectimax + N-Tuple Network est particulièrement redoutable. L'Expectimax utilise le réseau de neurones comme fonction d'évaluation aux feuilles de l'arbre, ce qui lui permet d'explorer profondément tout en bénéficiant d'évaluations de position extrêmement précises. C'est la meilleure des deux approches réunies en un seul système.
Les scores record des IA : des chiffres vertigineux
Les performances des meilleures IA de 2048 sont difficiles à appréhender pour un joueur humain. Un bon joueur humain atteint un score moyen d'environ 20 000 à 40 000 points par partie. Les meilleures IA atteignent des scores moyens supérieurs à 500 000 points.
En termes de tuiles, la distribution est tout aussi impressionnante. Là où un joueur humain compétent atteint la tuile 2048 dans environ la moitié de ses parties, les IA les plus performantes l'atteignent dans plus de 99,9 % des cas. La tuile 4096 est obtenue dans plus de 99 % des parties. La tuile 8192 dans environ 97 %. La tuile 16384 dans 90 %. La tuile 32768 dans plus de 70 % des parties pour les meilleurs systèmes.
Ces chiffres ne sont pas le fruit d'une puissance de calcul brute. Une IA qui jouerait aléatoirement atteindrait la tuile 2048 dans moins de 1 % de ses parties, quel que soit le nombre de simulations. La performance vient de la qualité des décisions, pas de la quantité de calcul. Les IA ont appris, à travers des millions de parties d'entraînement, des subtilités stratégiques que même les meilleurs joueurs humains ne perçoivent pas.
Ce que les humains peuvent apprendre des machines
Étudier le jeu des IA de 2048 révèle des principes stratégiques que les joueurs humains peuvent adopter. Le premier est l'importance de la monotonie : les meilleures IA maintiennent les tuiles organisées en un gradient décroissant depuis le coin, non pas parce qu'on le leur a dit, mais parce que cette organisation maximise les opportunités de fusion future.
Le deuxième principe est la préservation des cases vides. Les IA valorisent les mouvements qui libèrent des cases, même si ces mouvements ne produisent pas de fusion immédiate. Les joueurs humains, attirés par la satisfaction de fusionner des tuiles, négligent souvent ce facteur. Les IA nous rappellent que l'espace libre est une ressource stratégique cruciale.
Le troisième principe est la gestion du risque. Les IA évitent les mouvements qui créent une dépendance au hasard - par exemple, un mouvement qui ne fonctionne que si la tuile aléatoire apparaît dans une case précise. Les joueurs humains prennent souvent ces risques inconsciemment, espérant que "le hasard sera de leur côté". Les IA, elles, calculent les probabilités et préfèrent les mouvements robustes aux mouvements optimistes.
Enfin, les IA révèlent que la stratégie optimale au 2048 n'est pas fixe mais contextuelle. La meilleure action dépend de l'état complet de la grille, pas seulement des deux ou trois plus grandes tuiles. Un mouvement excellent dans une configuration peut être désastreux dans une autre, même si les plus grandes tuiles sont identiques. Cette sensibilité au contexte est difficile à maîtriser pour un humain, mais c'est précisément là que l'entraînement et la pratique font la différence. Chaque partie jouée ajoute une configuration supplémentaire à votre expérience, et votre cerveau, comme un réseau de neurones biologique, apprend progressivement à évaluer les positions avec une finesse croissante.