Les Chatbots d'IA et la Menace Persistante des Données Exposées : Un Problème de Sécurité

26/02/2025 Technologie, Sécurité

Salut les passionnés de technologie ! Avez-vous déjà pensé aux dangers cachés qui se cachent dans nos outils d'IA préférés ? Les chercheurs en sécurité de Lasso ont mis au jour un problème assez inquiétant : les données brièvement exposées en ligne peuvent persister dans les chatbots d'IA comme Microsoft Copilot, même après avoir été rendues privées. Ce n'est pas un problème mineur. On parle de milliers de référentiels GitHub autrefois publics de grandes entreprises comme Microsoft, Amazon, Google, et plus encore.

Lasso a découvert cela en trouvant son propre référentiel privé – accidentellement rendu public pendant une courte période – apparaissant dans les réponses de Copilot. Même si le référentiel a été rapidement mis en privé, et qu'une erreur « page non trouvée » accueille quiconque essaie d'y accéder directement, Copilot a quand même fourni les informations. C'est un énorme signal d'alarme.

L'ampleur du problème est stupéfiante. Lasso a identifié plus de 20 000 référentiels GitHub autrefois privés dont les données sont accessibles via Copilot, affectant plus de 16 000 organisations. Cela inclut des informations extrêmement sensibles : propriété intellectuelle, secrets d'entreprise et même clés d'accès et jetons. Imaginez les dégâts potentiels !

Un exemple particulièrement alarmant : Copilot a révélé des détails d'un référentiel Microsoft supprimé contenant un outil permettant de générer des images d'IA nuisibles. Aïe !

Lasso a alerté les entreprises concernées, leur conseillant de changer les clés d'accès compromises, mais n'a pas reçu de réponse. La réponse de Microsoft ? Initialement, ils ont minimisé la gravité, qualifiant le comportement de mise en cache d'« acceptable ». Ils ont ensuite désactivé les liens vers le cache de Bing dans leurs résultats de recherche, mais Copilot a toujours accès aux données.

Qu'est-ce que cela signifie pour nous ? Cela souligne une vulnérabilité de sécurité significative dans l'IA générative. La nature transitoire des données en ligne ne signifie pas qu'elles ont vraiment disparu. Les modèles d'IA peuvent conserver des informations longtemps après leur suppression du Web public. Cela souligne la nécessité de mesures de sécurité des données plus robustes et d'une réévaluation critique de la façon dont nous utilisons et faisons confiance à ces puissants outils d'IA.

Ce n'est pas seulement un problème technologique ; c'est une grave préoccupation en matière de sécurité avec des implications de grande portée. Il est temps de poser des questions difficiles sur la confidentialité des données et l'impact à long terme de l'IA sur notre monde numérique.

Source: TechCrunch