Modèle de Voix IA

Dia de Nari Labs : Un Nouveau Modèle de Voix IA Rivalise avec NotebookLM

Le domaine de la parole synthétique connaît une croissance rapide, avec de nombreux acteurs en lice pour la domination. Parmi les nouveaux venus, on trouve "Dia", un modèle d'IA développé par Nari Labs, fondé par deux étudiants de premier cycle. Dia vise à offrir aux utilisateurs un plus grand contrôle sur les voix générées et la personnalisation des scripts, s'inspirant du NotebookLM de Google.

Toby Kim, l'un des cofondateurs, a mentionné qu'ils avaient commencé à explorer l'IA vocale il y a seulement trois mois. Tirant parti du programme TPU Cloud de Google, qui offre un accès gratuit aux puces d'IA TPU, ils ont entraîné Dia, un modèle de 1,6 milliard de paramètres capable de générer des dialogues à partir de scripts. Les utilisateurs peuvent affiner les tons des locuteurs et incorporer des signaux non verbaux tels que des toux et des rires.

Accessibilité et Fonctionnalité

Dia est disponible sur des plateformes telles que Hugging Face et GitHub, ce qui le rend accessible à un large public. Il peut fonctionner sur la plupart des PC modernes équipés d'au moins 10 Go de VRAM. Bien qu'il génère des voix aléatoires par défaut, les utilisateurs peuvent le guider avec des descriptions de style ou même cloner des voix.

Les premiers tests ont montré que Dia est assez efficace, générant facilement des conversations bidirectionnelles sur divers sujets. La qualité de la voix est compétitive par rapport aux outils existants, et la fonctionnalité de clonage de voix se distingue par sa facilité d'utilisation.

Considérations Éthiques

Comme de nombreux générateurs de voix, Dia manque de protections robustes contre une mauvaise utilisation. Cela soulève des inquiétudes quant au potentiel de création de désinformation ou d'enregistrements frauduleux. Nari Labs reconnaît ces risques et décourage toute utilisation néfaste, mais décline toute responsabilité en cas de mauvaise utilisation. De plus, les données utilisées pour entraîner Dia n'ont pas été divulguées, ce qui soulève des questions sur une éventuelle violation du droit d'auteur, une pratique courante mais juridiquement ambiguë dans le développement de l'IA.

Projets Futurs

Nari Labs envisage de construire une plateforme de voix synthétique avec des fonctionnalités sociales au-dessus de Dia et de futurs modèles plus importants. Ils prévoient également de publier un rapport technique et d'étendre la prise en charge linguistique au-delà de l'anglais.

1 Vidéo de Modèle de Voix IA:

Source: TechCrunch