Vidéo | Mona Lisa rappe... mais comment ?

2024-04-25 2024-04-25T12:29:04Z
ندى ماهر عبدربه
ندى ماهر عبدربه
صانع مُحتوى

ArabiaWeather - Une équipe de scientifiques de Microsoft Research Asia a développé un nouveau modèle d'intelligence artificielle appelé VASA-1, qui transforme les images de visages et les clips audio des personnes en vidéos synchronisées avec les mouvements des lèvres, les expressions faciales et les mouvements de la tête de manière précise et réaliste. .

Dans un document de recherche, l'équipe a déclaré avoir présenté le cadre VASA, qui permet la création de visages parlants réalistes dotés de compétences visuelles et émotionnelles attrayantes à partir d'une seule image et d'un clip audio vocal. Le premier modèle, VASA-1, se distingue par sa capacité. pour générer des mouvements de lèvres exquis en synchronisation avec le son, en plus de capturer un large éventail de nuances dans les expressions faciales et les mouvements naturels de la tête qui contribuent à l'authenticité et à la vivacité de la vidéo.

L'équipe affirme que leur méthode offre non seulement une qualité vidéo élevée avec une dynamique réaliste du visage et de la tête, mais prend également en charge la création en ligne de vidéos 512 x 512 jusqu'à 40 images par seconde avec une latence presque négligeable.

Vidéo | Un employé d'une compagnie aérienne saoudienne devient une tendance... Quelle est l'histoire ?

Chanter la Joconde et craintes d'usurpation d'identité

VASA, ou Visual Affective Skills Animator, est un nom qui signifie « Visual Affective Skills Animator » et est capable de créer des vidéos réalistes qui imitent avec précision et réalisme les comportements conversationnels humains.

Le modèle VASA peut créer des vidéos qui semblent totalement réelles, avec des « visages parlants réalistes » reflétant les comportements conversationnels à travers des gestes faciaux naturels, des mouvements des yeux et de la tête, le tout à partir d'une seule image statique de la tête.

L'équipe a utilisé l'ensemble de données VoxCeleb2, qui comprend des vidéos de milliers de célébrités réelles, pour entraîner leur modèle.

Leur modèle se distinguait par sa capacité à traiter divers apports extérieurs au domaine de la formation, tels que des images artistiques et des discours non anglais.

Bien que les capacités du modèle soulèvent des problèmes d'usurpation d'identité, les scientifiques soulignent que leur objectif avec cet outil est de développer les compétences visuelles et émotionnelles des personnages virtuels, et non de se faire passer pour quelqu'un dans le monde réel.

Microsoft confirme qu'il n'est actuellement pas prévu de publier le code prenant en charge le modèle et vise à utiliser la technologie de manière responsable et conformément aux réglementations appropriées à l'avenir.

Lire aussi :

La Chine se noie sous la poussière... Comment ça ?

À l'occasion de la Journée mondiale de la Terre, questions fréquemment posées sur...


Sources:

Ingénierie intéressante

Cet article est rédigé à l'origine en arabe et a été traduit à l'aide d'un service automatisé tiers. ArabiaWeather n'est pas responsable des éventuelles erreurs grammaticales.
Plus
Les nouvelles connexes
Apple dévoile la plus grande mise à jour pour les appareils iPad, découvrez-la

Apple dévoile la plus grande mise à jour pour les appareils iPad, découvrez-la

Pourquoi l’Amérique veut-elle interdire l’application TikTok ?

Pourquoi l’Amérique veut-elle interdire l’application TikTok ?

Arabie Saoudite : Les orages reviennent sur de nombreuses régions du Royaume en fin de semaine

Arabie Saoudite : Les orages reviennent sur de nombreuses régions du Royaume en fin de semaine

Les 10 plus grands buteurs de l'histoire de la Ligue des Champions

Les 10 plus grands buteurs de l'histoire de la Ligue des Champions