Le PDG d'Anthropic Vise à Décoder la Boîte Noire de l'IA d'ici 2027

25/04/2025 Technologie

Dario Amodei, PDG d'Anthropic, a publiquement souligné la nécessité critique de comprendre le fonctionnement interne des modèles d'IA avancés. Dans son récent essai, Amodei fixe un objectif ambitieux pour Anthropic : détecter et résoudre de manière fiable la plupart des problèmes des modèles d'IA d'ici 2027. Cette initiative souligne l'urgence de l'interprétabilité dans le développement de l'IA.

Le Défi de l'Interprétabilité

Amodei reconnaît les défis importants à venir. Bien qu'Anthropic ait fait des progrès initiaux dans le traçage de la manière dont les modèles d'IA prennent des décisions, il souligne qu'il est nécessaire de mener beaucoup plus de recherches. À mesure que les systèmes d'IA deviennent plus puissants et autonomes, comprendre leurs processus de prise de décision devient fondamental.

« Ces systèmes seront absolument essentiels pour l'économie, la technologie et la sécurité nationale", note Amodei, "et seront capables d'une telle autonomie que je considère qu'il est fondamentalement inacceptable pour l'humanité d'ignorer totalement leur fonctionnement. » Cette déclaration souligne les risques potentiels du déploiement d'une IA avancée sans une compréhension suffisante.

L'Approche d'Anthropic : Interprétabilité Mécaniste

Anthropic est un pionnier de l'interprétabilité mécaniste, un domaine axé sur l'ouverture de la « boîte noire » des modèles d'IA. Malgré les progrès rapides des performances de l'IA, l'industrie manque encore d'une compréhension claire de la manière dont ces systèmes prennent des décisions. Par exemple, les nouveaux modèles d'IA de raisonnement d'OpenAI, bien qu'excellant dans certaines tâches, présentent également une hallucination accrue, dont les raisons restent inconnues.

Selon Amodei, les modèles d'IA sont "plus cultivés que construits", ce qui signifie que bien que les chercheurs puissent améliorer l'intelligence de l'IA, les raisons sous-jacentes de ces améliorations ne sont pas toujours claires. Ce manque de compréhension pose des dangers potentiels à mesure que les systèmes d'IA deviennent plus sophistiqués.

La Vision à Long Terme : Scanners Cérébraux de l'IA

Pour l'avenir, Anthropic prévoit de réaliser des « scanners cérébraux » ou des « IRM » de modèles d'IA de pointe. Ces contrôles complets aideraient à identifier divers problèmes, tels que les tendances à mentir ou à rechercher le pouvoir. Bien que cela puisse prendre de cinq à dix ans, Amodei estime que ces mesures sont cruciales pour les tests et le déploiement en toute sécurité des futurs modèles d'IA.

Premières Percées et Investissements Futurs

Anthropic a déjà réalisé quelques percées, telles que le traçage des voies de pensée des modèles d'IA à travers des circuits. L'entreprise a identifié un circuit qui aide les modèles d'IA à comprendre la relation entre les villes et les États américains. Bien que seuls quelques circuits aient été identifiés jusqu'à présent, on estime que les modèles d'IA contiennent des millions de circuits de ce type.

Outre ses propres efforts de recherche, Anthropic a réalisé son premier investissement dans une startup axée sur l'interprétabilité. Amodei estime que la compréhension de la manière dont les modèles d'IA parviennent à leurs réponses pourrait à terme offrir un avantage commercial.

Appel à l'Action et Recommandations Réglementaires

Amodei exhorte d'autres entreprises d'IA de premier plan, telles qu'OpenAI et Google DeepMind, à accroître leur investissement dans la recherche sur l'interprétabilité. Il suggère également des réglementations gouvernementales "légères" pour encourager la recherche sur l'interprétabilité, telles que l'obligation pour les entreprises de divulguer leurs pratiques de sécurité. En outre, Amodei soutient les contrôles à l'exportation des puces vers la Chine afin d'atténuer les risques d'une course mondiale à l'IA incontrôlée.

L'Engagement d'Anthropic en Matière de Sécurité

Anthropic s'est distinguée des autres entreprises d'IA par son fort accent sur la sécurité. L'entreprise a activement soutenu les initiatives visant à établir des normes de rapports de sécurité pour les développeurs de modèles d'IA. En fin de compte, Anthropic préconise un effort à l'échelle de l'industrie pour comprendre les modèles d'IA, et pas seulement pour améliorer leurs capacités.

La recherche de l'interprétabilité de l'IA n'est pas simplement un exercice académique, mais une étape cruciale pour garantir l'intégration sûre et bénéfique de l'IA dans nos vies. À mesure que les systèmes d'IA deviennent de plus en plus puissants, la compréhension de leur fonctionnement interne sera essentielle pour atténuer les risques et exploiter tout leur potentiel.

Source: TechCrunch