OpenAI trascrive i video di YouTube per addestrare i suoi modelli AI

8 Apr 2024

OpenAI sta usando la trascrizione di video YouTube per addesstrare modelli AI — Foto di NordWood Themes - Unsplash

OpenAI sta addestrando modelli AI tenendo conto della trascrizione dei testi su YouTube, scelta che potrebbe rappresentare una violazione del copyright sui contenuti dei creator.

Lo riferisce il New York Times, spiegando che OpenAI sta massimizzando la quantità di dati che alimentano una sua AI. Il riferimento all’uso di YouTube arriva a pochi giorni di distanza dalla dichiarazione di Neal Mohan, CEO di YouTube, il quale in una intervista di Bloomberg Original ha sottolineato che l’uso non autorizzato di video YouTube per addestrare AI non è consentito a terzi e che quanto fa una piattaforma come Sora, un modello di intelligenza artificiale in grado di generare video realistici a partire da un input testuale, addestrata – presumibilmente – partendo da filmati YouTube, è contraria alle policy di YouTube e sarebbe una chiara violazione dei termini di servizio.

Secondo il New York Times, OpenAI ha usato Whisper, strumento di riconoscimento della voce, per addestrare una AI con oltre un milione di ore di video YouTube.

L’indiscrezione sull’uso di YouTube da parte di OpenAI non è nuova e anche il sito The Information in precedenza aveva riferito l’uso di video YouTube e podcast per addestrare sistemi AI. Tra le persone alle guida del team che sta addestrando questa AI c’è Greg Brockman, presidente di OpenAI.

Resta da capire se OpenAI chiarirà come ha addestrato / sta addestrando Sora, cosa ne pensa Google e se questa intenderà muoversi per consentire agli utenti di decidere se consentire o no a terzi l’uso di strumenti di questo tipo.

Il New York Times riferisce ancora che Google avrebbe chiesto lo scorso anno ai suoi team di modificare policy sulla privacy, tenendo conto del possibile uso di contenuti pubblicamente disponibili, inclusi documenti Google Docs e fogli elettronici Google Sheets per addestrare modelli AI. Secondo Matt Bryant, portavoce di Google, l’azienda non è al momento a conoscenza di dati di questo tipo da parte di OpenAI ma secondo altre fonti interpelliate dal quotidiano statunitense, Google è a conoscenza dell’uso dei dati da parte di OpenAI, compresi i video di YouTube, ma non ha preso provvedimenti perché anche loro stessi hanno addestrato modelli AI usando video di YouTube (lo avrebbero ad ogni modo fatto solo con filmati per i quali l’utente ha indicato il consenso all’uso dei dati).

Anche Apple sta addestrando suoi modelli AI con immagini e testi, ma ha siglato accordi con aziende specializzate in immagini/video stock e case editrici.

Tutte le notizie che parlano di Intelligenza Artificiale sono disponibili a partire da questa pagina di macitynet.