OpenAI, la startup di intelligenza artificiale fondata da Elon Musk dietro il popolare generatore di immagini dal testo DALL-E, ha annunciato il rilascio della sua nuova IA per la creazione di immagini Point-E, che può produrre nuvole di puntini 3D direttamente dai prompt di testo.
Mentre i sistemi esistenti come DreamFusion di Google in genere richiedono più ore – e GPU – per generare le immagini, Point-E ha bisogno solo di una GPU e un minuto o due. La modellazione 3D viene utilizzata in una varietà di settori e applicazioni. Dagli effetti CGI dei moderni blockbuster cinematografici, ai videogiochi, per non parlare della realtà virtuale e dell’AR, delle missioni di mappatura dei crateri lunari della NASA, della visione di Meta per il Metaverso.
Tutte queste applicazioni dipendono dalle capacità di modellazione 3D. Tuttavia, la creazione di immagini 3D fotorealistiche è ancora una risorsa e un processo che richiede tempo, nonostante il lavoro di NVIDIA per automatizzare la generazione di oggetti e l’app mobile RealityCapture di Epic Games, che consente a chiunque abbia uno smartphone iOS di scansionare oggetti del mondo reale e trasformarli in immagini 3D.
I sistemi Text-to-Image come DALL-E 2 di OpenAI e Craiyon, DeepAI, Lensa di Prisma Lab o Stable Diffusion di HuggingFace, hanno rapidamente guadagnato popolarità, notorietà (ma anche infamia) negli ultimi anni. Si tratta di risorse che consentono la creazione di immagini automatizzate partendo da semplici descrizioni. Il funzionamento di Point-E è presto detto:
Per produrre un oggetto 3D da un prompt di testo, prima campioniamo un’immagine utilizzando il modello text-to-image, quindi campioniamo un oggetto 3D condizionato dall’immagine campionata. Entrambi questi passaggi possono essere eseguiti in un certo numero di secondi e non richiedono costose procedure di ottimizzazione
Tutto si traduce in un utilizzo estremamente semplice. Sarà sufficiente scrivere una qualsiasi descrizione per permettere all’intelligenza artificiale Point-E di generare una visione sintetica 3D di quanto richiesto. Il sistema prenderà quanto scritto dall’utente e si servirà di una serie di modelli di diffusione per creare la nuvola di puntini 3D e RGB, producendo unn modello di nuvola da 1,024 punti, poi una più raffinata di 4.096 punti.
Questi modelli di diffusione sono stati addestrati su “milioni” di modelli 3D, tutti convertiti in un formato standardizzato. In tutta onestà il team è consapevole che questo sistema porterà a risultati peggiori rispetto a tecniche più all’avanguardia, ma ha il pregio di restituire campioni all’utente in una piccola frazione di tempo.
Antonio Dini di macitynet ha pensato bene di intervistare l’IA e le risposte fornite permettono di farsi una rapida idea delle enomi capacità raggiunte da questi sistemi. Per tutti gli articoli che parlano di Intelligenza Artificiale è possibile partire da questa pagina di macitynet.