"Estamos enseñando a la IA a comprender y simular el mundo físico en movimiento, con el objetivo de entrenar modelos que ayuden a las personas a resolver problemas que requieren interacción con el mundo real. Presentamos Sora, un modelo de IA que puede crear escenas realistas e imaginativas a partir de instrucciones de texto. Puede generar videos de hasta un minuto de duración manteniendo la calidad visual y el cumplimiento de las indicaciones del usuario".

Así ha presentado OpenAI, la compañía de referencia mundial en inteligencia artificial, su nueva herramienta, que promete ser el próximo gran salto. Pero la explicación se queda muy corta para lo increíble que es. Lo mejor es verla en acción con algunos ejemplos que la propia empresa ha publicado tanto en su página web como en redes sociales, que han generado en pocas horas un gran impacto. Y no es para menos porque, de nuevo, la compañía dirigida por Sam Altman ha hecho que nos tengamos que frotar los ojos.

El vídeo de arriba fue creado por la herramienta a partir del siguiente texto: "Una mujer elegante camina por una calle de Tokio llena de luces de neón brillantes y carteles animados de la ciudad. Lleva una chaqueta de cuero negra, un vestido largo rojo, botas negras y un bolso negro. Lleva gafas de sol y lápiz labial rojo. Camina con confianza y despreocupación. La calle está húmeda y refleja, creando un efecto espejo de las luces de colores. Muchos peatones caminan por allí". Así de simple, así de fácil. Y el resultado, como puede verse, es realmente impresionante.

"Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo. El modelo comprende no sólo lo que el usuario ha pedido en el mensaje, sino también cómo existen esas cosas en el mundo físico", expuso OpenAI, que apuntó que espera que esta herramienta sirva como base para desarrollar modelos que puedan "comprender y simular el mundo real".

La empresa considera que este nuevo avance nos puede acercar a alcanzar la inteligencia artificial general (AGI). Es decir, a desarrollar máquinas con las mismas capacidades que los humanos. Se trata de un concepto polémico, porque algunos expertos aseguran que es imposible y otros afirman que ya estamos cerca de conseguirlo. Pero desde el principio OpenAI se ha posicionado asegurando que puede lograrse y que trabajará para que, cuando llegue, sea "en beneficio de toda la humanidad".

El potencial de esta herramienta es ilimitado. En gran parte, como es habitual con la IA generativa, porque para usarla el usuario no requiere grandes conocimientos técnicos. Para realizar el vídeo de arriba tan sólo le ordenaron a Sora que generara unas "Imágenes históricas de California durante la fiebre del oro". Basta con eso.

Según ha explicado la compañía, Sora es capaz de generar vídeos desde cero a partir de instrucciones de texto, pero también puede tomar una imagen estática existente , animarla y generar un vídeo a partir de ella "con precisión y atención al pequeño detalle". Además, también puede tomar un vídeo existente y ampliarlo (o completar los fotogramas que le falten); generar personajes "convincentes" que expresan "emociones vibrantes" y crear múltiples tomas dentro de un solo video generado que reflejen con precisión los personajes y el estilo visual.

A las pocas horas de presentar oficialmente la herramienta, el propio Altman, CEO de OpenAI, quiso "enseñar a la gente" lo que Sora es capaz de hacer. Por eso les pidió a sus seguidores de Twitter -ahora X- que escribieran algunos pequeños textos que les gustaría ver convertidos en vídeo. Luego seleccionó varios de ellos y les fue respondiendo con el resultado final. A pesar de todo, es importante recalcar que Sora no está disponible de momento para los usuarios, y se encuentra aún en fase de pruebas.

Fallos técnicos

No obstante, OpenAI ha admitido que el modelo actual tiene "debilidades". No es para menos, teniendo en cuenta que se trata de una tecnología nueva y completamente rompedora. Pero, como ya hicieron antes con otras de sus herramientas, como Chat GPT o Dall-e, la compañía se ha comprometido a ir afinándola poco a poco.

"Sora puede tener dificultades para simular con precisión la física de una escena compleja, y es posible que no comprenda casos específicos de causa y efecto. Por ejemplo, una persona puede darle un mordisco a una galleta, pero después, es posible que la galleta no tenga la marca del mordisco", explicaron desde la empresa. Y añadieron: "El modelo también puede confundir los detalles espaciales de un mensaje, por ejemplo, mezclando izquierda y derecha. Y puede tener dificultades con descripciones precisas de eventos que tienen lugar a lo largo del tiempo, como seguir una trayectoria de cámara específica".

El equipo rojo de OpenAI, que se encarga de analizar las herramientas para radiografiar sus posibles fallos y amenazas, ya está trabajando con Sora. Pero la empresa ha informado de que, en paralelo, le ha dado acceso a la herramienta a algunos artistas visuales, diseñadores y cineastas, para que les puedan contar su experiencia a la hora de usarla y así poder crear un modelo "más útil para los profesionales creativos".

"Desde el principio estamos compartiendo el progreso de nuestra investigación para comenzar a trabajar y recibir comentarios de personas ajenas a OpenAI y para brindarle al público una idea de las capacidades de IA que hay en el horizonte. Tomaremos varias medidas de seguridad importantes antes de que Sora esté disponible en los productos de OpenAI", aseguró la compañía.

Además, OpenAI está trabajando en el desarrollo de herramientas que detecten cuándo un vídeo fue generado por Sora. Es decir, algo así como el sello español que certifica que un trabajo ha sido realizado por humanos, pero a la inversa. El objetivo final, en cualquier caso, sí es el mismo: que siempre se sepa si algo ha sido desarrollado con IA o de manera completamente humana.

Pero aunque técnicamente en un futuro se podrá hacer cualquier cosa con esta herramienta, OpenAI ha querido dejar claro que habrá límites: "Cuando el producto esté disponible nuestro clasificador verificará y rechazará las solicitudes de ingreso de texto que infrinjan nuestras políticas de uso, como aquellas que solicitan violencia extrema, contenido sexual, imágenes de odio, imágenes de celebridades o la IP de otros. También hemos desarrollado clasificadores de imágenes que se utilizan para revisar los fotogramas de cada video generado para ayudar a garantizar que cumpla con nuestras políticas de uso, antes de mostrarlo al usuario".

La compañía de Altman insiste en que durante todo este proceso de desarrollo de Sora involucrarán a políticos, educadores y artistas de todo el mundo para comprender sus preocupaciones e identificar en qué casos su uso tendrá un impacto positivo. Y también cuando no lo tenga: "A pesar de investigaciones y pruebas exhaustivas, no podemos asegurar que todas las personas utilizarán nuestra tecnología de forma beneficiosa, ni prever todas las formas en que abusarán de ella. Es por eso que creemos que aprender del uso en el mundo real es un componente crítico para crear y lanzar sistemas de IA cada vez más seguros con el tiempo".