Sora di OpenAI genera video dal testo con una qualità mai vista

16 Feb 2024

OpenAI ha presentato Sora, sofisticato modello di intelligenza artificiale AI in grado di creare in pochi minuti video ad alta risoluzione lunghi fino a un minuto partendo da semplici indicazioni di testo. Sora, che significa “cielo” in giapponese, non sarà disponibile per tutti a breve: per ora è disponibile olo per un gruppo ristretto di accademici e ricercatori che valuteranno pericoli e potenziali usi impropri.

Questo è necessario per il notevole realismo di video e filmati generati da Sora, non solo privi di deformazioni e incongruenze come visto finora con la maggior parte degli altri modelli in circolazione, ma con risultati indistringuibili dalla realtà che possono essere sfruttati per creare truffe e inganni deepfake.

“Sora è in grado di generare scene complesse con più personaggi, tenere conto di specifiche tipologie di movimenti e dettagli accurati di soggetto e sfondo”, si legge sul sito di OpenAI. “Il modello è in grado di comprendere non solo ciò che l’utente chiede al prompt ma anche di come queste cose funzionano nel mondo reale”.

Preparatevi a scrivere video e film

In uno dei filmati condivisi come esempio da OpenAI si vede una coppia passeggiare in una Tokyo innevata con ciliegi in fiore e fiocchi di neve che svolazzano intorno, una scena di 60 secondi complessa che simula movimenti di una telecamera. In un diverso filmato si vedono mammut lanosi che attraversano una radura innevata, con effetti che derivano dalla loro camminata tra le catene montuose.

OpenAI riferisce che Sora è il risultato di una “profonda comprensione del linguaggio”, elemento che consente al modello di interpretare accuratamente le richieste. Alla stregua di altri strumenti AI per la generazione di immagini, Sora non è sempre perfetto e potrebbe avere difficoltà a comprendere determinati contesti o mostrare assurdità.

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf

— OpenAI (@OpenAI) February 15, 2024

Per esempio un biscotto mangiato solo in parte in una clip, potrebbe comparire di nuovo interno in una clip successiva. Ma come abbiamo già visto in precedenza prina per comprnesione e generazione testo e poi per le immagini, i modelli AI di grandi dimensioni continuano a imparare e migliorare.

Sora di OpenAI non è, come accennato il primo tool di questo tipo: altre AI offrono funzionalità simili ma Sora è la prima a offrire la possibilità di creare filmati fino a 60 secondi, senza bisogno di scriver indicazioni fotogramma per fotogramma, tenendo sempre conto dei soggetti delle riprese in primo piano.

Prompt: “Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance… pic.twitter.com/Um5CWI18nS

— OpenAI (@OpenAI) February 15, 2024

Il successo crescente di questi strumenti pone dei problemi legati alla possibilità di diffondere filmati falsi, video deepfake creati ad arte che, ad esempio, potrebbero dare l’impressione a chi li guarda di azioni commesse da personaggi più o meno famosi o che questi stiano dicendo o facendo qualcosa che, in realtà, non hanno mai detto o fatto.

Per contrastare i pericoli dei deepfake i colossi della tecnologia, OpenAI inclusa, stanno implementando C2PA della Coalition for Content Provenance and Authenticity, una sorta di firma digitale in filigrana che permette di identificare senza equivoci immagini e video generati da AI.

Tutti gli articoli che parlano di Intelligenza Artificiale sono disponibili a partire da questa pagina di macitynet