L'IA Joue à Super Mario : Un Nouveau Benchmark ?

04/03/2025 Intelligence Artificielle

Oubliez Pokémon, certains chercheurs pensent que Super Mario Bros. est le véritable défi pour l'IA ! Le Hao AI Lab de l'UC San Diego a opposé des modèles d'IA au jeu classique, et les résultats ont été surprenants.

Claude Prend la Tête : Claude 3.7 d'Anthropic a réussi le défi, Claude 3.5 n'étant pas loin derrière. Gemini 1.5 Pro de Google et GPT-4o d'OpenAI ont, en revanche, eu du mal à suivre le rythme de l'action.

Framework GamingAgent : Les IA n'ont pas seulement sauté dans une NES originale. Elles ont joué via un émulateur, en utilisant GamingAgent de Hao. Ce framework fournissait des instructions de base comme "éviter les obstacles" et alimentait l'IA avec des captures d'écran. L'IA utilisait ensuite du code Python pour contrôler Mario.

Raisonnement vs. Réflexes : Le Hao Lab a découvert quelque chose d'intéressant. Les modèles de raisonnement, qui résolvent les problèmes étape par étape, n'ont pas aussi bien réussi que les modèles sans raisonnement. Le timing est crucial dans Super Mario Bros., et les modèles de raisonnement mettent plus de temps à prendre des décisions.

La "Crise de l'Évaluation" : Andrej Karpathy d'OpenAI a soulevé des inquiétudes quant à la dépendance excessive aux benchmarks de jeux. Les jeux sont abstraits et offrent des données infinies, contrairement au monde réel. Les compétences en jeu sont-elles vraiment indicatives des progrès globaux de l'IA ? Peut-être pas, mais c'est amusant de regarder l'IA essayer !

1 Image de IA Super Mario:

Source: TechCrunch