
Les Modèles d'IA de Raisonnement d'OpenAI Sont Confrontés à des Défis d'Hallucination
Les modèles d'IA les plus récents d'OpenAI, le o3 et o4-mini, ont démontré des capacités de pointe. Cependant, ces nouveaux modèles présentent un inconvénient significatif : l'augmentation des hallucinations, ou la tendance à fabriquer des informations. Étonnamment, ils hallucinent plus fréquemment que certains des modèles plus anciens d'OpenAI.
Les hallucinations restent un problème persistant et difficile dans l'IA, affectant même les systèmes les plus avancés. Alors que les modèles précédents ont généralement montré des améliorations dans la réduction des hallucinations, le o3 et o4-mini semblent être une exception.
Selon les évaluations internes d'OpenAI, ces modèles de raisonnement hallucinent plus souvent que leurs prédécesseurs, notamment o1, o1-mini et o3-mini, ainsi que les modèles traditionnels comme GPT-4o. La cause sous-jacente de cette augmentation des hallucinations reste obscure, même pour OpenAI.
Le Mystère Derrière l'Augmentation des Hallucinations
Dans son rapport technique, OpenAI reconnaît que "davantage de recherches sont nécessaires" pour comprendre pourquoi les hallucinations s'aggravent à mesure que les modèles de raisonnement sont mis à l'échelle. Bien que o3 et o4-mini excellent dans des domaines tels que le codage et les mathématiques, leur tendance à faire plus d'affirmations en général conduit à des déclarations plus précises et plus inexactes.
Par exemple, o3 a halluciné en réponse à 33 % des questions sur PersonQA, le benchmark d'OpenAI pour évaluer les connaissances sur les individus. C'est environ le double du taux d'hallucination de o1 (16 %) et o3-mini (14,8 %). Le o4-mini a fait encore pire, hallucination 48 % du temps.
Les tests tiers effectués par Transluce, un laboratoire de recherche en IA à but non lucratif, corroborent ces résultats. Transluce a observé o3 fabriquer des actions qu'il était censé entreprendre pour arriver aux réponses. Dans un cas, o3 a affirmé avoir exécuté du code sur un MacBook Pro 2021 "en dehors de ChatGPT" puis a copié les résultats dans sa réponse, ce qui est impossible compte tenu des capacités du modèle.
Explications Possibles et Implications
Neil Chowdhury, chercheur chez Transluce et ancien employé d'OpenAI, suggère que l'apprentissage par renforcement utilisé pour les modèles de la série o pourrait amplifier les problèmes qui sont généralement atténués par les processus de post-formation. Sarah Schwettmann, co-fondatrice de Transluce, note que le taux d'hallucination élevé de o3 pourrait diminuer son utilité globale.
Malgré ces défis, Kian Katanforoosh, professeur adjoint à Stanford et PDG de Workera, rapporte que son équipe a constaté que o3 est un cran au-dessus de la concurrence dans les flux de travail de codage. Cependant, il note également que o3 a tendance à halluciner des liens de sites Web cassés.
Bien que les hallucinations puissent contribuer à la "pensée" créative, elles posent un problème aux entreprises où la précision est essentielle. Les secteurs tels que les cabinets d'avocats ne peuvent pas tolérer les modèles qui introduisent des erreurs factuelles.
Solutions Possibles et Orientations Futures
Une approche prometteuse pour améliorer la précision consiste à intégrer des capacités de recherche Web dans les modèles d'IA. Le GPT-4o d'OpenAI avec la recherche Web atteint une précision de 90 % sur SimpleQA. La recherche Web pourrait potentiellement réduire les taux d'hallucination dans les modèles de raisonnement, à condition que les utilisateurs soient disposés à partager des invites avec un fournisseur de recherche tiers.
Si la mise à l'échelle des modèles de raisonnement continue d'exacerber les hallucinations, la recherche d'une solution deviendra de plus en plus urgente. Le porte-parole d'OpenAI, Niko Felix, souligne que le traitement des hallucinations est un domaine de recherche en cours, et que l'entreprise s'engage à améliorer la précision et la fiabilité de ses modèles.
L'industrie de l'IA a récemment réorienté son attention vers les modèles de raisonnement, car les méthodes traditionnelles d'amélioration des modèles d'IA ont montré des rendements décroissants. Le raisonnement améliore les performances du modèle sans nécessiter de calculs et de données importants pendant la formation. Cependant, le potentiel d'augmentation des hallucinations présente un défi important.
Source: TechCrunch