OpenAI, impossibile addestrare le AI senza violare il copyright

10 Gen 2024

Alle volte viene quasi da chiedersi: ma perché fanno così? Tutte le promesse, i miracoli, le progressive sorti, i futuri illuminati e anzi abbacinanti nascondono un punto di partenza discutibile del quale non si è finora discusso: per addestrare un LLM, un modello linguistico di grandi dimensioni, occorrono un sacco di contenuti testuali. Veramente tanti, parliamo di miliardi di pagine per dare la “forma” al modello base, che poi si può specializzare su un sottoinsieme.

Ecco, con grande candore Sam Altman e indirettamente anche il CEO di Microsoft Satya Nadella, ammettono una cosa molto semplice che forse poteva essere detta un pelo prima: per addestrare un GPT occorre tantissimo materiale testuale che, allo stato attuale dell’industria, non più non violare il copyright. Tutto è sotto copyright e non ci sarebbe abbastanza testo privo di diritto d’autore (“liberi”), per riuscire nell’addestramento. Insomma, ce lo potevano dire prima.

L’invenzione dell’autore

Quello di cui stiamo parlando nasce come risposta appena pubblicata da parte di OpenAI alla causa che il New York Times, da buon ultimo, ha intentato all’azienda sostenendo in buona sostanza che quel che l’addestramento di ChatGPT è avvenuto sfruttando i materiali del giornale americano (cioè i suoi testi recuperati dalle edizioni digitalizzate e disponibili in rete).

Il problema qui è profondo, tecnico e filosofico a un tempo, oltre che ovviamente legale. Perché c’è anche da dire, proprio nell’anno bisestile in cui è andato finalmente fuori dal copyright il primo cortometraggio di Topolino, quello che la Walt Disney è riuscita a tenere “protetto” da qualsiasi riuso praticamente cambiando sotto il naso del pianeta le leggi sulla durata della tutela del diritto d’autore e del diritto di copia americane, che sono poi quelle che hanno l’impatto maggiore sul resto del mondo.

È un paradosso, ma adesso il freno maggiore all’innovazione dirompente e selvaggia che OpenAI vuole praticare arriva proprio in quel contesto di super tutela dei diritti che caratterizza la vita e gli affari negli Usa.

Si innova per cercare di dare nuova forma alle cose ma poi si brevetta e si copre tutto di qualsiasi tutela legale possibile e si arriva dunque al punto, sostenuto da OpenAI, che nel mondo d’oggi il copyright copre virtualmente qualsiasi forma di espressione umana, dai post nei blog alle foto ai post nei forum agli esempi di codice per il software fino ai documenti dei governi.

Il New York Times cita in giudizio OpenAI e Microsoft per violazione di copyright — Foto dii Jakayla Toney su Unsplash

Il copyright dell’Autore

Persino la Bibbia, antico e nuovo testamento, è sotto copyright. Com’è possibile, si potrebbe chiedere l’ingenuo? Forse perché la legge riconosce la natura divina e quindi immortale all’Autore dei testi sacri, e quindi mantiene il diritto d’autore in vita visto che questo scade solo alcuni decenni dopo l’effettiva morte di chi ha scritto?

No, ovviamente le sacre scritture sono fuori dal diritto di copia, ma solo nelle versioni in aramaico, in ebraico, in greco e in latino. Le versioni in italiano o nelle altre principali lingue viventi, invece, sono semplicemente ancora sotto copyright perché sotto copyright è la loro traduzione e l’edizione pubblicata nei vari paesi, che in Italia è curata dalla Cei, la Conferenza episcopale italiana. Insomma, tutto è protetto.

La cultura dell’addestramento

Cosa dice quindi OpenAI? Solleva un punto interessante. Il tema centrale è che bisogna decidere di cosa si sta parlando. Perché il copyright non impedisce la lettura dei testi. E quindi, argomentano i difensori delle AI, per addestrarle è come se si facessero studiare i giovani sui testi regolarmente acquistati. Quando poi si sono acculturati i giovani scrivono a loro volta altre cose ma non violano il copyright di nessun manuale e libro di testo che è servito alla loro formazione. La copia c’è solo quando di copia pedissequa si tratta, non quando c’è l’addestramento.

Invece, obiettano quelli del copyright, la copia c’è eccome. Perché le AI non sono persone e il loro addestramento non vuol dire “leggere” o “studiare”, bensì copiare, manipolare e schedare le informazioni, costruendo relazioni che permettono poi al sistema di interagire interpolando altri testi. Alle volte ci sono le copie, i “rigurgiti” come vengono chiamate quelle risposte in cui la AI copia pari-pari uno dei testi a cui si è abbeverata nella sua fanciullezza. Altre volte delira, altre volte sogna e tutte le metafore umanoidi che ci siamo inventati per descriverla.

C’è copia e copia

Tuttavia, il tema vero è, sostengono quelli del copyright, che la AI è basata e centrata su materiale che appartiene ad altri e, in quanto motore automatico (e non persona) agisce consumando testi che non avrebbe il diritto di consumare. Inoltre, e qui c’è la seconda stilettata, la AI quando crea può anche imitare se non clonare lo stile di persone a cui ha prosciugato i dati. Può copiare lo stile di un famoso giornalista o di un attempato scrittore, di uno psicanalista che dialoga con i pazienti o di un conduttore radiofonico che ha lasciato centinaia di ore del suo lavoro in varie emittenti.

Ricreare l’impronta stilistica, sintattica e persino vocale nel caso del parlato di persone che non hanno concesso l’autorizzazione è legale o viola la legge sul copyright?

La madre di tutte le cause

Il New York Times sostiene che il caso sia quest’ultimo e vari altri lo fanno, tra cui molti giornali. Ma OpenAI si oppone fermamente, ha argomenti non secondari dalla sua, oltre che tasche enormi e profondissime che le permettono di alimentare studi legali molto potenti, e il caso è tutt’altro che risolto.

La domanda a questo punto diventa: quando il giudice americano avrà deciso chi ha ragione tra il New York Times e OpenAI, quali saranno le conseguenze nel resto del mondo?

Tutte le notizie che parlano di Intelligenza Artificiale sono disponibili a partire da questa pagina di macitynet.

Black Friday

Tags
Intelligenza Artificiale

Articolo precedente

Vision Pro ha 16GB di RAM e probabilmente supporta 1TB di storage

Articolo successivo

Humane, l’azienda di AI pin sta già licenziando dipendenti

OpenAI, impossibile addestrare le AI senza violare il copyright

L’invenzione dell’autore

Il copyright dell’Autore

La cultura dell’addestramento

C’è copia e copia

La madre di tutte le cause

Offerte Apple e Tecnologia

Black Friday

Apple

Video, Foto, Creatività

Audio

Smartphone e Accessori

Accessori computer

Software

Domotica

Casa, Cucina e Giardinaggio

Sport e attività all'aperto, Salute

Prodotti Amazon e settori di offerte

Ultimi articoli

Black Friday, il superveloce caricabatterie Belkin Boostcharge Qi2 a 69,99€

Black Friday, Ninja Foodi FlexDrawer la limousine delle friggitrici ad aria a 189,99€

SSD, SD, Micro SD, USB, le migliori memorie Lexar in sconto al Black Friday

Adobe Acrobat for Nonprofits, soluzione per la gestione di documenti e processi aziendali delle organizzazioni no profit

Star Trek, il Capitano Kirk torna per l’ultima volta

MacBook Air M2 13 pollici con 16 GB di Ram al solo 881,99 €

L’unità SSD Thunderbolt 5 di OWC è disponibile, la più veloce ma anche la più costosa sul mercato

Black Friday, eccellente mini-mouse Logitech MX Anywhere 2S a solo 39,99€

Per il Black Friday il joypad universale di Amazon a 39 euro

Black Friday, le Cuffie Bose QuietComfort al minimo di sempre, solo 209,95 €

Black Friday, Tineco Floor One S7 aspira e lava il pavimento con 230 euro di sconto

Nvidia segna terzo trimestre da favola ma la crescita rallenta

OpenAI, impossibile addestrare le AI senza violare il copyright

L’invenzione dell’autore

Il copyright dell’Autore

La cultura dell’addestramento

C’è copia e copia

La madre di tutte le cause

Offerte Apple e Tecnologia

Black Friday

Apple

Video, Foto, Creatività

Audio

Smartphone e Accessori

Accessori computer

Software

Domotica

Casa, Cucina e Giardinaggio

Sport e attività all'aperto, Salute

Prodotti Amazon e settori di offerte

Altri articoli

Ultimi articoli