Provenance données IA

Microsoft Vise à Suivre l'Influence des Données d'Entraînement de l'IA

Microsoft se lance dans un projet de recherche visant à retracer l'influence d'exemples d'entraînement spécifiques sur les modèles d'IA générative. Cette initiative, révélée dans une offre d'emploi datant de décembre, vise à comprendre comment des données particulières, telles que des photos et des livres, contribuent aux résultats de ces modèles.

L'objectif du projet est de développer des méthodes permettant d'estimer efficacement et utilement l'impact des points de données individuels sur le contenu généré par l'IA. L'offre d'emploi souligne le manque actuel de transparence des architectures de réseaux neuronaux en ce qui concerne les sources de leurs créations, soulignant la nécessité d'un changement. Ce changement pourrait potentiellement conduire à un système d'incitations, de reconnaissance, voire de rémunération pour les personnes qui contribuent des données précieuses aux futurs modèles d'IA.

Le dilemme du droit d'auteur

Cette recherche arrive à un moment crucial, car les générateurs de texte, de code, d'images, de vidéo et de musique alimentés par l'IA sont confrontés à de nombreuses poursuites en matière de propriété intellectuelle. De nombreuses entreprises d'IA entraînent leurs modèles sur de vastes ensembles de données extraits d'Internet, dont certains sont des éléments protégés par le droit d'auteur. Bien que ces entreprises invoquent souvent la doctrine de "l'utilisation équitable" pour justifier leurs pratiques, les créatifs s'opposent à l'utilisation potentiellement illégale de leur contenu.

Microsoft n'est pas à l'abri de ces contestations juridiques. Le New York Times a poursuivi Microsoft et OpenAI, alléguant une violation du droit d'auteur en raison de l'utilisation de millions d'articles du Times dans l'entraînement de leurs modèles. De plus, des développeurs de logiciels ont poursuivi Microsoft pour l'utilisation de leur code dans l'entraînement de GitHub Copilot.

Dignité des données et avenir de l'IA

L'effort de recherche de Microsoft, baptisé "provenance en temps d'entraînement", implique Jaron Lanier, un technologue et scientifique de renom chez Microsoft Research. Lanier est un partisan de la "dignité des données", qui met l'accent sur le lien entre le contenu numérique et les personnes qui l'ont créé.

Lanier envisage un système où les contributeurs les plus importants à un résultat généré par l'IA sont reconnus et récompensés. Par exemple, si un modèle d'IA crée une œuvre de contenu unique, les artistes, les écrivains ou les autres créateurs dont le travail a fortement influencé le résultat seraient reconnus et potentiellement indemnisés.

Plusieurs entreprises explorent déjà des concepts similaires. Bria, un développeur de modèles d'IA, vise à indemniser les propriétaires de données en fonction de leur "influence globale". Adobe et Shutterstock offrent également des paiements aux contributeurs d'ensembles de données. Cependant, ces programmes ne sont pas encore la norme, de nombreux grands laboratoires optant pour des mécanismes de désinscription plutôt que pour une indemnisation des contributeurs.

Bien que ce projet ne soit peut-être qu'une simple preuve de concept, il souligne l'importance croissante de la prise en compte des considérations éthiques et juridiques entourant les données d'entraînement de l'IA. D'autres laboratoires, dont Google et OpenAI, ont plaidé pour un affaiblissement des protections du droit d'auteur pour le développement de l'IA. Il reste à voir si la recherche de Microsoft mènera à un changement significatif, mais elle signale un possible virage vers une plus grande transparence et équité dans le monde de l'IA.

Source: TechCrunch