OpenAI ha presentado Sora, su nuevo modelo impulsado por Inteligencia Artificial (IA) generativa capaz de crear escenas realistas de vídeo de hasta 60 segundos a partir de instrucciones de texto, con un resultado detallado, un movimiento de cámara complejo y múltiples personajes con emociones.
La tecnológica estadounidense pretende continuar avanzando en las capacidades de la IA, en concreto, entrenando modelos que ayuden a las personas a resolver problemas que requieran interacción con el mundo real. Para ello, ha estado trabajando en formas de enseñar a la IA a comprender y simular el mundo físico en movimiento.
Como resultado Sora, su nuevo modelo de IA de texto a vídeo, con el que permite la creación de vídeos realistas de hasta un minuto de duración a partir de las indicaciones de texto que aporte el usuario.
Así, tal y como ha detallado la compañía en su web y ha compartido a través de una publicación en X, Sora permite la creación de vídeos con escenas "altamente detalladas", así como con un movimiento de cámara "complejo" y la integración de múltiples personajes que, incluso, muestran emociones.
Para la creación de estos vídeos, los usuarios tan solo deberán escribir una serie de indicaciones detallando qué características tiene que incluir la escena, como los personajes y las acciones que llevarán a cabo, el entorno, el clima, y los movimientos de cámara que se deban recrear.
Cómo funciona
En cuanto a su funcionamiento, Sora genera un vídeo a partir de otros vídeos que, según OpenAI, parecen "ruido estático". De esta manera, el modelo lo transforma gradualmente eliminando el ruido en muchos pasos, hasta llegar a la visualización de las imágenes realistas.
Asimismo, al igual que los modelos GPT, utiliza una "arquitectura de transformador" con la que, según la compañía, se desbloquea un rendimiento de escalado superior. Concretamente, las imágenes del vídeo se representan como "colecciones de unidades de datos más pequeñas", a las que se refiere como parches. Así, cada parche es el equivalente a un token en GPT.
Sora es un revolucionario modelo de generación de imágenes en movimiento que puede entender cómo los objetos existen en el mundo físico, así como interpretar con precisión el entorno y generar personajes.
La nueva herramienta también puede generar videos a partir de imágenes fijas, así como rellenar los fotogramas que faltan en un clip existente o ampliarlo. Las demostraciones generadas por Sora incluidas en la web de OpenAI y republicadas en las redes sociales sorprendieron a los usuarios por su hiperrealismo. Sin embargo, la propia empresa advirtió que todavía su IA puede tener problemas para simular con precisión la física de una escena muy compleja.
Por el momento, Sora solo está disponible para los equipos de testers que están evaluando el modelo para detectar posibles daños y riesgos. OpenAI también ofreció acceso a algunos artistas visuales, diseñadores y cineastas para la prueben y dejen sus opiniones.
Sora, es capaz crear escenas complejas, hiperrealistas e imaginativas, con personajes y movimientos, a partir de instrucciones de texto.
Según publicó la firma, el sorprendente modelo de IA puede entender cómo los objetos existen en el mundo físico, así como interpretar con precisión el entorno y generar personajes convincentes que expresen emociones.