Apple ha pubblicato un documento di ricerca in cui discute ciò che chiama HUGS, una tecnologia AI generativa che può creare un avatar digitale umano e animarlo, il tutto in solamente 30 minuti a partire da un breve video della durata di pochi secondi.
Pubblicato sulla pagina di ricerca di Apple dedicata all’apprendimento automatico e condiviso dal ricercatore di Apple Anurag Ranjan su X, “HUGS: Human Gaussian Splats” discute delle tecniche per creare avatar digitali di esseri umani.
Utilizzando l’apprendimento automatico e la visione artificiale, la ricerca descrive il processo di creazione, utilizzando relativamente pochi materiali di origine. Le tecniche di rendering neurale attuali rappresentano un miglioramento significativo rispetto alle versioni precedenti, ma sono ancora più adatte per “fotogrammetria di scene statiche e non si generalizzano bene per esseri umani che si muovono liberamente nell’ambiente”, spiegano i paragrafi introduttivi.
Il concetto di Human Gaussian Splats, HUGS, utilizza una tecnica chiamata 3D Gaussian Splatting per ricreare l’immagine di un umano animabile all’interno di una scena.
Il metodo stesso richiede una piccola quantità di video del soggetto, tipicamente in movimento all’interno di una scena e che mostri il maggior numero possibile di superfici affinché il sistema possa lavorarci. La tecnica può utilizzare clip molto brevi in alcuni casi, anche solamente due o quattro secondi di video della persona da ricreare e animare con AI.
Il sistema è stato addestrato per “separare la scena statica da un avatar umano completamente animabile entro 30 minuti”, afferma Apple. Viene anche proposta un’ottimizzazione dei pesi di fusione lineare della pelle in modo che possano coordinarsi con i movimenti durante l’animazione, migliorando l’aspetto del modello.
Introducing 🫂HUGS: Human Gaussian Splats – capable of creating animatable (3DGS) avatars from a casual video (50-100 frames) in ~30 mins. Our avatars can easily be embedded into other (NeRF) scenes. (1/4)
Project: https://t.co/ws69aCAUtG
arXiv: https://t.co/yjsR9Vt8RY pic.twitter.com/ADVWw56ats— Anurag Ranjan (@anuragranj) December 19, 2023
Come anticipato, il tempo necessario per passare dal video di input fino alla generazione di un’animazione 3D del modello umano animato, con una velocità di rendering di 60fps e una risoluzione HD, è di circa mezz’ora. Secondo i ricercatori Apple si tratta di una tempistica circa 100 volte più veloce rispetto ad altri metodi, tra cui NeuMan e Vid2Avatar.
Il documento di ricerca elenca come autori Muhammed Kocabas, Rick Chang, James Gabriel, Oncel Tuzel e Anurag Ranjan, ed è stato prodotto in collaborazione con l’Istituto Max Planck per i sistemi intelligenti.
Apple sta lavorando da tempo all’idea di creare avatar digitali, con il concetto di una versione ad alta definizione che appare in Apple Vision Pro.
Per conoscere tutte le novità sui brevetti Apple, fate riferimento alla nostra sezione dedicata.