Sora di OpenAI: La nuova frontiera della generazione di video attraverso l’Intelligenza Artificiale
Giovedì scorso, OpenAI ha svelato Sora, il suo modello text-to-video capace di creare video di fino a un minuto di lunghezza con una qualità e una ricchezza di dettagli sorprendenti.
OpenAI, già leader nel settore dei modelli AI per la generazione di immagini e testo con DALL-E 3 e ChatGPT rispettivamente, sta ora facendo il suo ingresso nel campo della generazione di testo in video con un nuovo modello innovativo.
Secondo quanto dichiarato da OpenAI, Sora è in grado di gestire scene complesse, comprese quelle con più personaggi, movimenti specifici e dettagli elaborati, grazie alla sua profonda comprensione del linguaggio, dei contesti e della rappresentazione degli oggetti nel mondo reale, come nel video seguente:
Un modello di generazione avanzato
Analizzando vari esempi di video dimostrativi, si può notare come OpenAI abbia risolto con successo due delle principali sfide nella generazione di video: la coerenza narrativa e la durata delle sequenze.
Al contrario di molti altri modelli, quello di OpenAI riesce a produrre video fluidi che sembrano estratti direttamente da un film hollywoodiano.
OpenAI sostiene che Sora sia un modello di generazione avanzato in grado di produrre risultati di alta qualità, utilizzando un’architettura simile a quella dei modelli GPT, basata su ricerche precedenti su modelli come DALL-E e GPT. Oltre alla generazione di video da testo, Sora può anche creare video partendo da un’immagine statica o completare fotogrammi mancanti nei video, come nel video seguente:
Tuttavia, nonostante i notevoli progressi compiuti, OpenAI riconosce anche le limitazioni del modello, ammettendo che a volte può incontrare difficoltà nel simulare la fisica di scene complesse e potrebbe non comprendere completamente le cause ed effetti specifici di determinate situazioni. Inoltre, il modello potrebbe occasionalmente confondere i dettagli spaziali di una richiesta.
Sembrerebbe che stiamo assistendo all’inizio di una nuova era in cui le aziende si concentreranno sempre più sulla ricerca, lo sviluppo e il lancio di generatori di testo-video basati sull’intelligenza artificiale. Solo due settimane fa, Google Research ha presentato un documento di ricerca su Lumiere, un altro modello di generazione text-to-video capace di creare video estremamente realistici.
Guarda il video completo sulla presentazione di Sora: