Le IA istruite con copie di libri pirata, il futuro digitale con basi illegali

25 Lug 2023

Molte IA probabilmente addestrate con copie pirata di libri — Foto di Alexandra Fuller su Unsplash

Il New York Times parla delle cosiddette “shadow libraries”, in italiano “biblioteche ombra”: non sono vere e proprie biblioteche nel contesto digitale, in quanto non autorizzate. Di questi cataloghi ne esistono vari, come Library Genesis (LibGen) per gli e-book e Scientific Hub (Sci-Hub) per gli articoli di periodici accademici; altri nomi noti, sono: Z-Library o Bibliotik, “oscuri repository nei quali sono memorizzati milioni di titoli, in molti casi senza permesso – e spesso usati come dati di addestramento delle AI”.

Le aziende che, a vario titolo, si occupano di Intelligenza Artificiale, sono consapevoli di documenti di ricerca che fanno affidamento alle “biblioteche ombra”. Il sistema GPT-1 di OpenAI è stato addestrato usando BookCorpus, con oltre 7000 titoli inediti ottenuti da Smashwords, piattaforma per l’autopubblicazione di e-book. Per addestrare GPT-3, OpenAI afferma che circa il 16% dei dati di riferimento usati, arrivano da raccolti di libri su internet genericamente indicate come “Books1” e “Books2″. Non è chiaro quali siano esattamente le fonti in questione ma molti autori sostengono che non sono altro che siti web di “biblioteche ombra” come quelli prima citati.

La comica e attrice statunitense Sarah Silvermann è sicura che ChatGPT sia addestrata con libri protetti da copyright, ma anche atri autori affermano che biblioteche come Books2 siano “palesemente illegali”. Siti come quelli prima citati sono stati “sotto osservazione” per alcuni periodi, e uno degli autori dello studio evidenzia che nel periodo dal 2016 al 2017 i testi piratati hanno contribuito ad abbattere il mercato dei libri leciti per almeno il 14%.

A fine giugno alcuni autori hanno citato in giudizio ChatGPT affermando che la tecnologia di addestramento usata dalla AI in questione viola i diritti d’autore dei loro romanzi. Nella class action presentata presso la corte federale di San Francisco si sostiene che OpenAi “ha fatto affidamento sulla raccolta di quantità massicce” di opere protette da copyright”, “senza consenso, senza riconoscimento e senza compenso”.

Giacché i sistemi di intelligenza artificiale non possono per loro natura funzionare senza informazioni estratte da qualche parte, i large language model (Llm), che alimentano ChatGPT, si legge nella documentazione portata in tribunale “sono essi stessi opere derivate che violano il diritto d’autore, realizzate senza l’autorizzazione dei querelanti e in violazione dei loro diritti esclusivi ai sensi della legge sul copyright”.

Tutte le notizie che parlano di Intelligenza Artificiale sono disponibili a partire da questa pagina di macitynet

Offerte Speciali

Articolo precedente

Con Little Snitch 5 nessuna app si collega ad Internet alle vostre spalle, oggi al 75% di sconto

Articolo successivo

Vecchie banconote diventano calce e mattoni, esperimento di Banca d’Italia

Le IA istruite con copie di libri pirata, il futuro digitale con basi illegali

Offerte Apple e Tecnologia

Offerte Speciali

I migliori prodotti Apple con sconto su Amazon e che arrivano entro Natale

Ultimi articoli

Avviatore di emergenza per auto con uscita CC a 56 €, sconto del 30%

Aqara FP1 eccellente sensore di presenza in offerta a soli 35 €

I migliori prodotti Apple con sconto su Amazon e che arrivano entro Natale

I migliori zaini e borse per bagaglio a mano Ryanair

FaceId sbloccherà la porta col campanello smart Apple

Deebot T30 Omni il robot Terminator dello sporco a 599,90€

Rowenta X-PERT 6.60 Essential, scopa elettrica con accessori e LED, solo 109,99 €

Usare Airtag per non perdere la valigia, tutto quello che vi serve sapere

Filmate come a Hollywood con il gimbal DJI Osmo Mobile 6 a 99,99 al minimo storico

Cavo USB-C da 10 Gbps, perfetto per iPhone Pro, iPad e Mac in saldo a 11,39 €

Come realizzare foto a lunga esposizione con iOS 17 e iOS 18

Strumenti Bosch per professionisti, fai-da-te e giardino per la pausa natalizia

Le IA istruite con copie di libri pirata, il futuro digitale con basi illegali

Offerte Apple e Tecnologia

Offerte Speciali

Altri articoli

Ultimi articoli