Sora, la nouvelle intelligence artificielle d’OpenAI qui crée des vidéos à partir de textes
OpenAI, l’entreprise qui a développé le chatbot ChatGPT et le générateur d’images artificielles DALL-E, vient de dévoiler sa dernière innovation : Sora, un modèle d’intelligence artificielle capable de créer des vidéos réalistes à partir d’instructions textuelles. Ce nouvel outil ouvre des perspectives inédites pour la création artistique, mais pose aussi des questions éthiques sur la véracité des images.
Sora est le résultat de plusieurs années de recherche et de collaboration entre OpenAI et des experts de différents domaines : artistes, designers, cinéastes, etc. Le principe est simple : il suffit de décrire la scène que l’on souhaite voir apparaître, et Sora se charge de la générer en tenant compte des interactions complexes entre objets et personnages. Par exemple, si l’on écrit « un chat qui joue avec une pelote de laine », Sora va produire une vidéo où l’on voit un chat réaliste qui s’amuse avec une pelote de laine.
Sora utilise une architecture de transformateur, comme les autres modèles GPT d’OpenAI. Les vidéos générées ne sont pas le fruit d’une entité pensante, mais le résultat de différentes connexions faites par des algorithmes puissants. Sora se base sur une énorme base de données, qui contient des millions de petites unités de données, appelées patchs correctifs, qui renferment des informations descriptives et visuelles. En reliant les différentes notions qui apparaissent dans le texte, Sora est capable de reconstituer une vidéo conforme aux instructions.
Sora n’est pas encore parfait, mais il produit déjà des vidéos de qualité impressionnante, qui réduisent de plus en plus la différence entre fiction et réalité. Les utilisateurs peuvent tester Sora sur le site d’OpenAI, où ils peuvent choisir parmi plusieurs exemples de textes ou écrire le leur. Les vidéos générées sont limitées à une minute pour le moment, mais OpenAI espère augmenter la durée et la résolution à l’avenir.
Sora offre des possibilités inédites pour la création artistique, notamment dans les domaines du cinéma, de l’animation 3D ou du jeu vidéo. OpenAI voit Sora comme un élément supplémentaire, qui l’aidera à atteindre l’IAG (ou AGI en anglais) : Intelligence Artificielle Générale. Selon Wikipédia, cette notion désigne la capacité d’une IA à « effectuer ou apprendre pratiquement n’importe quelle tâche cognitive propre aux humains ou autres animaux ». Pour l’instant, cela relève de la science-fiction, mais dans un avenir plus ou moins proche, cela pourrait être la forme d’intelligence qui animera des robots humanoïdes potentiels.
Sora pose aussi des questions éthiques sur la véracité des images. En effet, l’outil donne des résultats très réalistes qui pourraient être utilisés pour la désinformation ou la manipulation. On pense notamment aux deepfakes, ces vidéos truquées qui font dire ou faire n’importe quoi à des personnalités publiques. OpenAI est conscient des risques potentiels de son modèle, et assure faire tout son possible pour protéger le monde contre ces dangers, en développant notamment des outils de détection.
Sora est donc un outil à la fois fascinant et inquiétant, qui montre les progrès fulgurants de l’intelligence artificielle. Il faudra être vigilant sur l’usage qui en sera fait, et ne pas perdre de vue la réalité derrière les images.