Sora, la nouvelle IA pour la création de courtes vidéos

Qu’est-ce que Sora d’Open AI ? Comment ça marche, les cas d’utilisation, etc.
Découvrez Sora d’OpenAI, l’IA texte-vidéo qui devrait révolutionner l’IA multimodale en 2024. Explorez ses capacités, ses innovations et son impact potentiel.

OpenAI a récemment annoncé sa dernière technologie révolutionnaire, Sora. Ce modèle d’IA générative texte-vidéo semble incroyablement impressionnant jusqu’à présent et présente un potentiel énorme dans de nombreux secteurs.

Qu’est-ce que Sora ?

Sora est le modèle d’IA générative texte-vidéo d’OpenAI. Cela signifie que vous écrivez un texte, que Sora interprète votre prompt et restitue une vidéo correspondant à la description du texte.

Exemple d’animation de Sora, présenté par OpenAI

Prompt : Tour of an art gallery with many beautiful works of art in different styles. « Visite d’une galerie d’art avec de nombreuses œuvres d’art de styles divers ».

Génération de données synthétiques

Les données synthétiques sont souvent utilisées lorsque des problèmes de confidentialité ou de faisabilité empêchent l’utilisation de données réelles. Pour les données numériques, les cas d’utilisation les plus courants sont les données financières et les informations personnelles identifiables. L’accès à ces ensembles de données doit être étroitement contrôlé, mais il est possible de créer des données synthétiques présentant des propriétés similaires et de les mettre à la disposition du public.

Les données vidéo synthétiques sont notamment utilisées pour l’entraînement des systèmes de vision artificielle. L’armée de l’air américaine utilise notamment des données synthétiques pour améliorer les performances de ses systèmes de vision artificielle pour les drones afin de détecter les bâtiments et les véhicules la nuit et par mauvais temps. Des outils tels que Sora rendent ce processus beaucoup moins coûteux et plus accessible au grand public.

Quels sont les risques liés à Sora ?

Le produit étant nouveau, les risques ne sont pas encore entièrement décrits, mais ils seront probablement similaires à ceux des modèles texte-image.

Génération de contenu préjudiciable

En l’absence de garde-fous, Sora a le pouvoir de générer des contenus peu recommandables ou inappropriés, notamment des vidéos contenant de la violence, du gore, du matériel sexuellement explicite, des représentations désobligeantes de groupes de personnes et d’autres images haineuses, ainsi que la promotion ou l’apologie d’activités illégales.

Ce qui constitue un contenu inapproprié varie beaucoup en fonction de l’utilisateur (par exemple, un enfant qui utilise Sora et un adulte) et du contexte de la génération de la vidéo (une vidéo mettant en garde contre les dangers des feux d’artifice peut facilement devenir choquante d’un point de vue éducatif).

Mauvaise information et désinformation

D’après les exemples de vidéos partagés par OpenAI, l’une des forces de Sora est sa capacité à créer des scènes fantastiques qui ne pourraient pas exister dans la vie réelle. Cette force permet également de créer des vidéos « deepfake » où des personnes ou des situations réelles sont transformées en quelque chose qui n’est pas vrai.

Lorsque ce contenu est présenté comme la vérité, soit accidentellement (désinformation), soit délibérément (désinformation), il peut causer des problèmes. Comme l’a écrit Eske Montoya Martinez van Egerschot, responsable de la gouvernance et de l’éthique de l’IA chez DigiDiplomacy, « l‘IA est en train de remodeler les stratégies de campagne, l’engagement des électeurs et le tissu même de l’intégrité électorale ».

Des vidéos convaincantes mais fausses de politiciens ou d’adversaires de politiciens ont le pouvoir de « diffuser stratégiquement de faux récits et de cibler des sources légitimes par le harcèlement, dans le but de saper la confiance dans les institutions publiques et d’encourager l’animosité envers diverses nations et groupes de personnes ».

Au cours d’une année marquée par de nombreuses élections importantes, de Taïwan à l’Inde en passant par les États-Unis, cette situation a des conséquences considérables.

Biais et stéréotypes

Les résultats des modèles d’IA générative dépendent fortement des données sur lesquelles ils ont été formés. Cela signifie que les biais culturels ou les stéréotypes présents dans les données d’apprentissage peuvent entraîner les mêmes problèmes dans les vidéos produites. Comme l’a expliqué Joy Buolamwini dans l’épisode de DataFramed intitulé « Fighting For Algorithmic Justice » , les préjugés dans les images peuvent avoir de graves conséquences en matière de recrutement et de maintien de l’ordre.

Comment accéder à Sora ?

Sora n’est actuellement disponible que pour les chercheurs de l’ « équipe rouge ». Il s’agit d’experts chargés d’essayer d’identifier les problèmes liés au modèle. Par exemple, ils essaieront de générer du contenu présentant certains des risques identifiés précédemment pour les rectifier avant de rendre Sora public.

OpenAI n’a pas encore spécifié de date de diffusion publique pour Sora, mais il est probable que ce soit en 2024.

Qu’est-ce que Sora ?