Secondo quanto riportato in nuovo studio dell’AI Disclosures Project (organizzazione no-profit co-fondata nel 2024 dal magnate dei media Tim O’Reilly e dall’economista Ilan Strauss) OpenAI ha con molta probabilità addestrato il modello linguistico AI GPT-4o sfruttando libri pubblicati da O’Reilly Media, testi che non sono liberamente accessibili né concessi in licenza per l’addestramento.
L’organizzazione nonprofit di O’Reilly e Strauss riferisce di avere sfruttato un metodo denominato DE-COP per individuare materiale protetto da copyright nei dati di addestramento dei modelli linguistici, uno strumento in grado di distinguere tra testi scritti da umani da versioni parafrasate generate dall’AI partendo dagli stessi testi.
I ricercatori hanno analizzato (qui i dettagli in PDF) 13.962 paragrafi estrapolati da 34 libri di O’Reilly e riconosciuto il contenuto di libri a pagamento di O’Reilly. Il metodo per individuare testi impiegati illegalmente non è ad ogni mod infallibile e OpenAI potrebbe anche aver estrapolato testi di libri a pagamento, ma ottenuti da utenti che li hanno copiati e incollati in ChatGPT.

È noto che qualsiasi AI abbia bisogno di grandi quantità di dati per l’addestramento. Alcune aziende che sviluppano AI pagano i dati, altri preferiscono ottenerli con metodi poco ortodossi. È di poche settimane addietro la notizia di Meta che avrebbe piratato decine di terabyte di dati, inclusi libri protetti dal copyright scaricati via Torrent, sfruttati per addestrare i modelli Llama.
Meta, ma anche Google e OpenAI, attingono a biblioteche online, il più delle volte senza chiedere l’esplicito permesso agli editori, affermando che l’impiego dei dati in questione rientra nel fair use (utilizzo equo) e dunque nella possibilità di impiegare liberamente il materiale protetto dal diritto d’autore.
Diverso il punto di vista di autori ed editori, molti dei quali hanno avviato diverse cause legali contro i vari sviluppatori di sistemi di intelligenza artificiale. Anche il New York Times ha denunciato OpenAI (e Microsoft) per aver sfruttato in modo illecito suoi articoli per l’addestramento dell’intelligenza artificiale.
Per tutti gli articoli dedicati all’intelligenza artificiale si parte da questa pagina di macitynet.