Benchmark IA Minecraft

Minecraft comme Benchmark d'IA: Approche Créative de l'Évaluation de Modèles

Les méthodes traditionnelles d'évaluation comparative de l'IA ont du mal à suivre le rythme des progrès rapides de l'IA générative. En conséquence, les développeurs explorent des approches innovantes pour évaluer les capacités de ces modèles. L'une de ces approches consiste à utiliser Minecraft, le jeu de construction de type sandbox populaire appartenant à Microsoft.

MC-Bench : Les Modèles d'IA S'affrontent dans Minecraft

Le site Web Minecraft Benchmark (MC-Bench) est une plateforme collaborative où les modèles d'IA s'affrontent dans la création de constructions Minecraft basées sur des invites données. Les utilisateurs peuvent voter pour le modèle qui fonctionne le mieux, révélant l'IA derrière chaque création uniquement après avoir voté.

Adi Singh, un lycéen et le créateur de MC-Bench, souligne la familiarité de Minecraft comme son principal avantage. En tant que jeu vidéo le plus vendu de tous les temps, même ceux qui ne connaissent pas le jeu peuvent facilement évaluer la qualité d'une représentation d'ananas en blocs.

« Minecraft permet aux gens de voir plus facilement les progrès [du développement de l'IA] », a déclaré Singh à TechCrunch. « Les gens sont habitués à Minecraft, habitués à l'apparence et à l'ambiance. »

MC-Bench compte actuellement huit contributeurs bénévoles. Des entreprises comme Anthropic, Google, OpenAI et Alibaba soutiennent le projet en subventionnant l'utilisation de leurs produits pour exécuter des invites de référence. Cependant, ils n'ont aucune autre affiliation avec le projet.

Singh prévoit d'étendre MC-Bench au-delà des constructions simples pour intégrer des tâches plus complexes et axées sur les objectifs. Il pense que les jeux offrent un environnement plus sûr et plus contrôlable pour tester le raisonnement agentique par rapport aux scénarios de la vie réelle.

« Les jeux pourraient simplement être un moyen de tester le raisonnement agentique qui est plus sûr dans la vie réelle et plus contrôlable à des fins de test, ce qui le rend plus idéal à mes yeux », a déclaré Singh.

Les Défis des Références d'IA Traditionnelles

D'autres jeux comme Pokémon Rouge, Street Fighter et Pictionary ont également été utilisés comme références d'IA expérimentales, soulignant les difficultés des références d'IA traditionnelles.

Les évaluations standardisées offrent souvent aux modèles d'IA un avantage injuste en raison de leur formation. Les modèles excellent dans des tâches de résolution de problèmes spécifiques et limitées, en particulier celles qui impliquent une mémorisation mécanique ou une extrapolation de base.

Par exemple, le score élevé de GPT-4 au LSAT contraste fortement avec son incapacité à compter le nombre de « R » dans « strawberry ». De même, la solide performance de Claude 3.7 Sonnet dans une référence d'ingénierie logicielle est compromise par sa faible performance lors des jeux Pokémon.

MC-Bench : Une Référence Plus Accessible

MC-Bench fonctionne comme une référence de programmation, obligeant les modèles à écrire du code pour créer des constructions basées sur des invites telles que « Frosty the Snowman » ou « une charmante cabane de plage tropicale. »

Cependant, la nature visuelle de Minecraft permet aux utilisateurs d'évaluer plus facilement la qualité d'une construction par rapport à l'analyse du code. Cet attrait plus large permet à MC-Bench de collecter plus de données sur les modèles qui fonctionnent le mieux de manière cohérente.

La corrélation entre les scores de MC-Bench et l'utilité de l'IA dans le monde réel reste un sujet de discussion. Cependant, Singh estime que les scores fournissent des informations précieuses.

« Le classement actuel reflète de très près ma propre expérience d'utilisation de ces modèles, ce qui est différent de nombreuses références de texte pur », a déclaré Singh. « Peut-être que [MC-Bench] pourrait être utile aux entreprises pour savoir si elles vont dans la bonne direction. »

2 Images de Benchmark IA Minecraft:
Benchmark IA Minecraft Benchmark IA Minecraft

Source: TechCrunch