Découvrez comment les sous-titres en direct de Google révolutionnent l’accessibilité grâce à l’intelligence artificielle. Avec des améliorations notables en lisibilité, ces nouvelles fonctionnalités transforment l’expérience utilisateur, rendant les contenus audiovisuels plus inclusifs pour tous. Ne manquez pas cette avancée technologique majeure qui redéfinit notre interaction avec les médias!
Les nouvelles légendes dynamiques de Google grâce à l’IA
Les légendes en direct de Google, qui existent depuis 2019 dans la gamme Pixel, ont reçu une mise à jour majeure avec l’introduction de la fonctionnalité « Expressive Captions ». Cette avancée permet une amélioration significative des sous-titres en intégrant une dimension plus riche et dynamique, grâce à l’intelligence artificielle. L’objectif primordial est de fournir non seulement des sous-titres textuels, mais également de transmettre des informations sur les sons et les actions présents dans les médias.
Le fonctionnement des légendes en direct
La fonction Live Caption utilise le processeur Tensor des téléphones Pixel pour générer des sous-titres en temps réel. Lorsqu’un son est détecté dans un contenu vidéo ou audio, le téléphone capte la parole et l’affiche sous forme de texte. Cette technologie est particulièrement bénéfique pour les utilisateurs sourds ou malentendants, leur permettant de profiter de contenus audiovisuels sans barrière linguistique.
Comment les légendes expressives améliorent l’expérience utilisateur
Avec l’activation des légendes expressives, les utilisateurs pourront observer une représentation plus nuancée des dialogues et des actions dans leurs contenus. Google a annoncé que cette nouvelle fonctionnalité permet de décoder le ton, le volume et même des éléments contextuels de l’environnement, enrichissant ainsi la façon dont la parole est présentée. Par exemple, lorsque quelqu’un crie, les sous-titres apparaîtront en lettres majuscules pour refléter cette intensité. De plus, des bruits vocaux tels que des soupirs ou des grognements seront également captés, offrant une représentation fidèle des sons qui accompagnent le discours.
Des exemples concrets d’utilisation
Google fournit plusieurs exemples pour illustrer le fonctionnement des légendes expressives. Si une personne exprime une émotion forte, comme la colère ou la joie, ces nuances seront traduites dans les sous-titres. Par ailleurs, les sons ambiants, comme le bruit d’une foule ou des bruits de fond, seront également intégrés, permettant ainsi de combler les vides autour de la parole avec des éléments sonores significatifs.
Amélioration des descriptions d’images avec Gemini 1.5
En parallèle, Google a également annoncé l’intégration de descriptions d’images pouvant être lues à haute voix, grâce à la mise à jour du modèle Gemini 1.5 dans l’application Lookout. Cette application, conçue pour aider les personnes malvoyantes, permet désormais aux utilisateurs de poser des questions sur une image et de recevoir des réponses plus détaillées et naturelles. Les descriptions ne se limitent pas à un simple énoncé de ce que l’image représente, mais fournissent également des informations contextuelles enrichies.
Compatibilité et accessibilité
Les légendes expressives sont intégrées à la fonction Live Caption, ce qui signifie qu’elles seront accessibles sur tous les appareils Pixel compatibles. Si la fonction Live Caption est déjà disponible sur un appareil, la mise à jour pour les légendes expressives sera automatiquement appliquée. Toutefois, il est important de noter que cette fonctionnalité ne sera pas disponible pour les appels téléphoniques, bien que cela puisse évoluer à l’avenir.
Pour en savoir plus sur les avancées technologiques de Google
Pour une analyse approfondie des innovations de Google dans le domaine de l’accessibilité et des technologies AI, vous pouvez consulter des ressources sur le site de Google Blog.
Qu’est-ce que les sous-titres expressifs de Google ?
Les sous-titres expressifs de Google sont une fonctionnalité améliorée des sous-titres en direct qui utilisent l’IA pour transmettre des informations supplémentaires, telles que les sons et les actions, au-delà du langage de base. Cela permet de représenter des éléments comme le ton, le volume et les indices environnementaux dans les médias.
Comment fonctionnent les sous-titres expressifs ?
Les sous-titres expressifs traduisent des éléments de la parole, comme l’intensité d’un cri qui sera affiché en lettres majuscules. Ils peuvent également décoder des sons vocaux tels que des soupirs ou des grognements, et inclure des sons ambiants pour enrichir l’expérience de visionnage.
Les sous-titres expressifs sont-ils disponibles sur tous les appareils Pixel ?
Oui, les sous-titres expressifs font partie de la fonctionnalité de sous-titres en direct, donc tous les appareils Pixel qui prennent en charge les sous-titres en direct bénéficieront de cette mise à jour. Cependant, ils ne seront pas compatibles avec les appels téléphoniques pour le moment.
Qu’est-ce que l’application Lookout de Google ?
L’application Lookout de Google aide les personnes malvoyantes en fournissant des descriptions d’images et des réponses à des questions sur ces images. Avec l’ajout de Gemini 1.5 Pro, l’application peut maintenant fournir des descriptions plus naturelles et détaillées des images.