Skip to content Skip to footer

Open AI rejón Sora, una revolucionaria útil de vídeo con inteligencia industrial | Tecnología


Cuando aún no ha pasado la fascinación por ChatGPT y los modelos de jerga de inteligencia industrial generativa, OpenAI acaba de presentar una deslumbrante y revolucionaria útil de creación de vídeo citación Sora. Con ella, pespunte dar una descripción de lo que se quiere ver en la pantalla y ahí está el clip, creado por inteligencia industrial. Algunos están más logrados que otros, a veces tienen ese estilo de videojuego que los diferencia de la ingenuidad, pero todos son sorprendentes.

El mentor delegado de OpenAI, Sam Altman, ha hecho el anuncio del tirada en la red social X, que se ha inundado en un momento con las nuevas creaciones. Vídeos realistas, futuristas, alocados, de dibujos animados… Los vídeos incluyen todo tipo de creaciones automáticas creadas con inteligencia industrial generativa. Sora es capaz de producir vídeos enteros de una sola vez o de ampliar los vídeos generados para hacerlos más largos.

En las pruebas mostradas por Altman y su compañía se ven escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo. El maniquí comprende no solo lo que el legatario ha pedido en la solicitud, sino igualmente cómo existen esas cosas en el mundo físico, según OpenAI. El maniquí tiene un profundo conocimiento del jerga, lo que le permite interpretar con precisión las indicaciones y suscitar personajes convincentes que expresan emociones vibrantes, explica la empresa.

“Aquí está Sora, nuestro maniquí de concepción de vídeo”, ha escrito Altman. “Ofrecemos ataque a un número constreñido de creadores”, ha añadido, antaño de pedir a sus seguidores que le hicieran sugerencias para ir creando nuevos vídeos, adicionalmente de las muestras que ya había ofrecido en su página web.

Las instrucciones pueden ser más o menos detalladas. Uno de los ejemplos que ofrece OpenAI rebate a la ulterior descripción: “Una elegante mujer camina por una calle de Tokio llena de cálidos neones brillantes y animada señalización urbana. Lleva una chaqueta de cuero negra, un vestido generoso rojo, botas negras y un bolsa enojado. Lleva anteojos de sol y pintalabios rojo. Camina con seguridad y despreocupación. La calle está húmeda y es reflectante, lo que crea un impresión espejo de las luces de colores. Muchos peatones pasean”. Y el resultado es sorprendente (en lo alto).

Otro señala: “Tráiler de una película sobre las aventuras del hombre del espacio de 30 primaveras que lleva un casco de moto de punto de hebra roja, Gloria garzo, desierto de sal, estilo cinematográfico, rodado en película de 35 mm, colores vivos” (debajo).

Encima de poder suscitar un vídeo sólo a partir de instrucciones de texto, el maniquí es capaz de tomar una imagen fija existente y suscitar un vídeo a partir de ella, animando el contenido de la imagen con precisión y atención a los pequeños detalles. El maniquí igualmente puede tomar un vídeo existente y ampliarlo o rellenar los fotogramas que faltan.

Se puede pedir un contenido, un estilo y dar todo tipo de indicaciones. Altman ha ido publicando vídeos nuevos solicitados por los tuiteros, probando que los resultados son inmediatos. Sora igualmente puede crear varias tomas internamente de un mismo vídeo generado manteniendo con precisión los personajes y el estilo visual.

“Estamos enseñando a la IA a comprender y disimular el mundo físico en movimiento, con el objetivo de entrenar modelos que ayuden a las personas a resolver problemas que requieren interacción en el mundo efectivo”, explica OpenAI al presentar la nueva útil de conversión de texto a vídeo. “Sora puede suscitar vídeos de hasta un minuto de duración manteniendo la calidad visual y la fidelidad a las indicaciones del legatario”, añade.

De momento, la útil se ha puesto a disposición de los llamados equipos rojos. Los miembros de esos equipos tratan de cuestionar un producto o servicio, forzarlo al frontera, ponerlo a prueba y encontrar sus fallos como si fueran enemigos de la empresa. Aquí tienen la tarea específica de evaluar áreas críticas en investigación de potenciales daños o riesgos. Entre ellos hay expertos en áreas como la desinformación, los contenidos que incitan al odio y la parcialidad.

Open AI igualmente está dando ataque a una serie de artistas visuales, diseñadores y cineastas para que les den su opinión sobre cómo mejorar el maniquí para que resulte más útil a los profesionales creativos.

“Estamos compartiendo los avances de nuestra investigación con delantera para despuntar a trabajar con personas ajenas a OpenAI y tomar sus comentarios, así como para dar al divulgado una idea de las capacidades de IA que se vislumbran en el horizonte”, explica la compañía.

Defectos a pulir

La propia firma de inteligencia industrial reconoce que Sora todavía tiene algunos fallos muy evidentes. Puede que le cueste disimular con precisión la física de una cuadro compleja y que no entienda casos concretos de causa y impresión. Pone como ejemplo que una persona puede dar un mordisco a una guantazo, pero a posteriori la guantazo puede no tener la marca del mordisco.

El maniquí igualmente puede confundir detalles espaciales de una indicación, por ejemplo, confundir izquierda y derecha, y puede tener problemas con descripciones precisas de acontecimientos que tienen motivo a lo generoso del tiempo, como seguir una trayectoria específica de la cámara.

Antiguamente de poner la útil a disposición del divulgado, OpenAI promete tomar algunas precauciones. Entre ellas está tomar en cuenta las indicaciones de los equipos rojos. Encima, está creando herramientas para ayudar a detectar contenidos engañosos, con detectores que puedan asegurar cuándo un vídeo ha sido generado por Sora. Incluso ha desarrollado potentes clasificadores de imágenes que se utilizan para revisar los fotogramas de todos los vídeos generados y respaldar que cumplen sus políticas de uso antaño de mostrárselos al legatario.

Encima, reutilizará los métodos de seguridad que creó para sus productos que utilizan DALL-E 3. Por ejemplo, el clasificador de texto comprobará y rechazará las solicitudes de entrada de texto que infrinjan sus políticas de uso, como las que solicitan violencia extrema, contenido sexual, imágenes que inciten al odio, imágenes de famosos o la propiedad intelectual de terceros.

“Nos pondremos en contacto con responsables políticos, educadores y artistas de todo el mundo para conocer sus inquietudes e identificar casos de uso positivos para esta nueva tecnología. A pesar de las numerosas investigaciones y pruebas realizadas, no podemos predecir todas las formas beneficiosas en que la gentío utilizará nuestra tecnología, ni todas las formas en que abusará de ella. Por eso creemos que instruirse de la utilización en el mundo efectivo es un componente fundamental para crear y divulgar con el tiempo sistemas de IA cada vez más seguros”, concluye OpenAI.

Puedes seguir a EL PAÍS Tecnología en Facebook y X o apuntarte aquí para tomar nuestra newsletter semanal.



Creditos a Miguel Jiménez Vanguardia

Fuente

Leave a comment

0.0/5