Amélioration du texte-à-parole de Gemini

20/05/2025 Technologie et Electronique

Google a présenté des progrès significatifs dans les capacités de synthèse vocale (TTS) de son IA Gemini lors de sa récente conférence I/O pour les développeurs. La nouvelle fonctionnalité, basée sur une sortie audio native, promet une expérience conversationnelle plus naturelle et expressive.

Conversation multilingue transparente

Un point fort est la capacité du système à basculer en douceur entre plus de 24 langues en utilisant une seule voix cohérente. Les démonstrations ont montré l'IA passant aisément de l'anglais à l'hindi, en maintenant un niveau remarquable de cohérence vocale qui renforce l'illusion d'un seul « locuteur ».

Au-delà des mots : nuances expressives

Google souligne l'expressivité accrue et la livraison nuancée du nouveau TTS. La voix de l'IA sonne beaucoup moins robotique, intégrant des inflexions et des tons plus subtils pour créer une expérience auditive plus engageante. Bien que la démonstration ait inclus un mode murmure, sa mise en œuvre mérite un examen plus approfondi compte tenu des commentaires des utilisateurs.

Accessibilité et disponibilité

Cette technologie TTS améliorée est désormais accessible via l'API Gemini. Simultanément, un aperçu de l'API Gemini Live avec dialogue audio natif est disponible. Ces avancées soulignent l'engagement continu de Google à améliorer ses services d'IA, en les rendant plus puissants et plus conviviaux.

1 Image de IA Texte-à-parole:

Source: Engadget