Il New York Times parla delle cosiddette “shadow libraries”, in italiano “biblioteche ombra”: non sono vere e proprie biblioteche nel contesto digitale, in quanto non autorizzate. Di questi cataloghi ne esistono vari, come Library Genesis (LibGen) per gli e-book e Scientific Hub (Sci-Hub) per gli articoli di periodici accademici; altri nomi noti, sono: Z-Library o Bibliotik, “oscuri repository nei quali sono memorizzati milioni di titoli, in molti casi senza permesso – e spesso usati come dati di addestramento delle AI”.
Le aziende che, a vario titolo, si occupano di Intelligenza Artificiale, sono consapevoli di documenti di ricerca che fanno affidamento alle “biblioteche ombra”. Il sistema GPT-1 di OpenAI è stato addestrato usando BookCorpus, con oltre 7000 titoli inediti ottenuti da Smashwords, piattaforma per l’autopubblicazione di e-book. Per addestrare GPT-3, OpenAI afferma che circa il 16% dei dati di riferimento usati, arrivano da raccolti di libri su internet genericamente indicate come “Books1” e “Books2″. Non è chiaro quali siano esattamente le fonti in questione ma molti autori sostengono che non sono altro che siti web di “biblioteche ombra” come quelli prima citati.
La comica e attrice statunitense Sarah Silvermann è sicura che ChatGPT sia addestrata con libri protetti da copyright, ma anche atri autori affermano che biblioteche come Books2 siano “palesemente illegali”. Siti come quelli prima citati sono stati “sotto osservazione” per alcuni periodi, e uno degli autori dello studio evidenzia che nel periodo dal 2016 al 2017 i testi piratati hanno contribuito ad abbattere il mercato dei libri leciti per almeno il 14%.
A fine giugno alcuni autori hanno citato in giudizio ChatGPT affermando che la tecnologia di addestramento usata dalla AI in questione viola i diritti d’autore dei loro romanzi. Nella class action presentata presso la corte federale di San Francisco si sostiene che OpenAi “ha fatto affidamento sulla raccolta di quantità massicce” di opere protette da copyright”, “senza consenso, senza riconoscimento e senza compenso”.
Giacché i sistemi di intelligenza artificiale non possono per loro natura funzionare senza informazioni estratte da qualche parte, i large language model (Llm), che alimentano ChatGPT, si legge nella documentazione portata in tribunale “sono essi stessi opere derivate che violano il diritto d’autore, realizzate senza l’autorizzazione dei querelanti e in violazione dei loro diritti esclusivi ai sensi della legge sul copyright”.
Tutte le notizie che parlano di Intelligenza Artificiale sono disponibili a partire da questa pagina di macitynet