Ingegneri di Apple hanno condiviso alcuni dettagli tecnici riguardo una collaborazione con NVIDIA per accelerare le prestazioni dei modelli linguistici di grandi dimensioni (LLM)
A inizio anno Apple ha pubblicato e reso open source la tecnica denominata Recurrent Drafter (ReDrafter) nel framework TensorRT-LLM di NVIDIA: si tratta di un metodo per generare testi con LLM che ha la peculiarità di essere molto veloce, indicato come all’avanguardia (“lo stato dell’arte nelle prestazioni”); combina due tecniche: la a ricerca a fascio (beam search) e l’attenzione ad albero dinamico (dynamic tree attention), vantando la possibilità di ottenere testo in modo molto più rapido (fino a 3,5 token per passo di generazione, superiore ad altre tecniche).
Benchmark mostrano un incremento di 2,7 volte nella velocità di generazione dei token per il greedy decoding su GPU NVIDIA, permettendo di ridurre in modo rilvante la latenza e il consumo energetico.
Le GPU Nvidia sono spesso alla base di server specializzati in LLM (che superano anche i 250.00$ cadauno). Il lavoro di Apple con Nvidia i rilevanti per le applicazioni di produzione che utilizzano LLM, perché permette non solo di migliorare l’efficienza dell’inferenza e ridurre i costi di elaborazione ma anche di migliorare l’esperienza dell’utente finale.
Sul blog sviluppatori di Nvidia si spiega che questa collaborazione consente la generazione di token più veloce nelle applicazioni LLM che sfruttano GPU NVIDIA, grazie all’integrazione del ReDrafter in TensorRT-LLM.
Nonostante questa collaborazione con Nvidia, pochi giorni addietro è stato pubblicamente confermato che Apple sta studiando il potenziale uso di chip Trainium2 di Amazon per addestrare modelli IA per Apple Intelligence. L’addestramento della maggior parte delle IA sfrutta costosi processori di NVIDIA; i cloud provider e varie startup stanno gareggiando per offrire alternative a costi inferiori, esplorando approcci differenti che potrebbero portare a un’elaborazione più efficiente
Tutte le notizie che parlano di Intelligenza Artificiale sono disponibili a partire da questa pagina di macitynet.