OpenAI, impossibile addestrare le AI senza violare il copyright

10 Gen 2024

Alle volte viene quasi da chiedersi: ma perché fanno così? Tutte le promesse, i miracoli, le progressive sorti, i futuri illuminati e anzi abbacinanti nascondono un punto di partenza discutibile del quale non si è finora discusso: per addestrare un LLM, un modello linguistico di grandi dimensioni, occorrono un sacco di contenuti testuali. Veramente tanti, parliamo di miliardi di pagine per dare la “forma” al modello base, che poi si può specializzare su un sottoinsieme.

Ecco, con grande candore Sam Altman e indirettamente anche il CEO di Microsoft Satya Nadella, ammettono una cosa molto semplice che forse poteva essere detta un pelo prima: per addestrare un GPT occorre tantissimo materiale testuale che, allo stato attuale dell’industria, non più non violare il copyright. Tutto è sotto copyright e non ci sarebbe abbastanza testo privo di diritto d’autore (“liberi”), per riuscire nell’addestramento. Insomma, ce lo potevano dire prima.

L’invenzione dell’autore

Quello di cui stiamo parlando nasce come risposta appena pubblicata da parte di OpenAI alla causa che il New York Times, da buon ultimo, ha intentato all’azienda sostenendo in buona sostanza che quel che l’addestramento di ChatGPT è avvenuto sfruttando i materiali del giornale americano (cioè i suoi testi recuperati dalle edizioni digitalizzate e disponibili in rete).

Il problema qui è profondo, tecnico e filosofico a un tempo, oltre che ovviamente legale. Perché c’è anche da dire, proprio nell’anno bisestile in cui è andato finalmente fuori dal copyright il primo cortometraggio di Topolino, quello che la Walt Disney è riuscita a tenere “protetto” da qualsiasi riuso praticamente cambiando sotto il naso del pianeta le leggi sulla durata della tutela del diritto d’autore e del diritto di copia americane, che sono poi quelle che hanno l’impatto maggiore sul resto del mondo.

È un paradosso, ma adesso il freno maggiore all’innovazione dirompente e selvaggia che OpenAI vuole praticare arriva proprio in quel contesto di super tutela dei diritti che caratterizza la vita e gli affari negli Usa.

Si innova per cercare di dare nuova forma alle cose ma poi si brevetta e si copre tutto di qualsiasi tutela legale possibile e si arriva dunque al punto, sostenuto da OpenAI, che nel mondo d’oggi il copyright copre virtualmente qualsiasi forma di espressione umana, dai post nei blog alle foto ai post nei forum agli esempi di codice per il software fino ai documenti dei governi.

Il New York Times cita in giudizio OpenAI e Microsoft per violazione di copyright — Foto dii Jakayla Toney su Unsplash

Il copyright dell’Autore

Persino la Bibbia, antico e nuovo testamento, è sotto copyright. Com’è possibile, si potrebbe chiedere l’ingenuo? Forse perché la legge riconosce la natura divina e quindi immortale all’Autore dei testi sacri, e quindi mantiene il diritto d’autore in vita visto che questo scade solo alcuni decenni dopo l’effettiva morte di chi ha scritto?

No, ovviamente le sacre scritture sono fuori dal diritto di copia, ma solo nelle versioni in aramaico, in ebraico, in greco e in latino. Le versioni in italiano o nelle altre principali lingue viventi, invece, sono semplicemente ancora sotto copyright perché sotto copyright è la loro traduzione e l’edizione pubblicata nei vari paesi, che in Italia è curata dalla Cei, la Conferenza episcopale italiana. Insomma, tutto è protetto.

La cultura dell’addestramento

Cosa dice quindi OpenAI? Solleva un punto interessante. Il tema centrale è che bisogna decidere di cosa si sta parlando. Perché il copyright non impedisce la lettura dei testi. E quindi, argomentano i difensori delle AI, per addestrarle è come se si facessero studiare i giovani sui testi regolarmente acquistati. Quando poi si sono acculturati i giovani scrivono a loro volta altre cose ma non violano il copyright di nessun manuale e libro di testo che è servito alla loro formazione. La copia c’è solo quando di copia pedissequa si tratta, non quando c’è l’addestramento.

Invece, obiettano quelli del copyright, la copia c’è eccome. Perché le AI non sono persone e il loro addestramento non vuol dire “leggere” o “studiare”, bensì copiare, manipolare e schedare le informazioni, costruendo relazioni che permettono poi al sistema di interagire interpolando altri testi. Alle volte ci sono le copie, i “rigurgiti” come vengono chiamate quelle risposte in cui la AI copia pari-pari uno dei testi a cui si è abbeverata nella sua fanciullezza. Altre volte delira, altre volte sogna e tutte le metafore umanoidi che ci siamo inventati per descriverla.

C’è copia e copia

Tuttavia, il tema vero è, sostengono quelli del copyright, che la AI è basata e centrata su materiale che appartiene ad altri e, in quanto motore automatico (e non persona) agisce consumando testi che non avrebbe il diritto di consumare. Inoltre, e qui c’è la seconda stilettata, la AI quando crea può anche imitare se non clonare lo stile di persone a cui ha prosciugato i dati. Può copiare lo stile di un famoso giornalista o di un attempato scrittore, di uno psicanalista che dialoga con i pazienti o di un conduttore radiofonico che ha lasciato centinaia di ore del suo lavoro in varie emittenti.

Ricreare l’impronta stilistica, sintattica e persino vocale nel caso del parlato di persone che non hanno concesso l’autorizzazione è legale o viola la legge sul copyright?

La madre di tutte le cause

Il New York Times sostiene che il caso sia quest’ultimo e vari altri lo fanno, tra cui molti giornali. Ma OpenAI si oppone fermamente, ha argomenti non secondari dalla sua, oltre che tasche enormi e profondissime che le permettono di alimentare studi legali molto potenti, e il caso è tutt’altro che risolto.

La domanda a questo punto diventa: quando il giudice americano avrà deciso chi ha ragione tra il New York Times e OpenAI, quali saranno le conseguenze nel resto del mondo?

Tutte le notizie che parlano di Intelligenza Artificiale sono disponibili a partire da questa pagina di macitynet.