Questo sito contiene link di affiliazione per cui può essere compensato

Home » Hi-Tech » Internet » OpenAI, impossibile addestrare le AI senza violare il copyright

OpenAI, impossibile addestrare le AI senza violare il copyright

Pubblicità

Alle volte viene quasi da chiedersi: ma perché fanno così? Tutte le promesse, i miracoli, le progressive sorti, i futuri illuminati e anzi abbacinanti nascondono un punto di partenza discutibile del quale non si è finora discusso: per addestrare un LLM, un modello linguistico di grandi dimensioni, occorrono un sacco di contenuti testuali. Veramente tanti, parliamo di miliardi di pagine per dare la “forma” al modello base, che poi si può specializzare su un sottoinsieme.

Ecco, con grande candore Sam Altman e indirettamente anche il CEO di Microsoft Satya Nadella, ammettono una cosa molto semplice che forse poteva essere detta un pelo prima: per addestrare un GPT occorre tantissimo materiale testuale che, allo stato attuale dell’industria, non più non violare il copyright. Tutto è sotto copyright e non ci sarebbe abbastanza testo privo di diritto d’autore (“liberi”), per riuscire nell’addestramento. Insomma, ce lo potevano dire prima.

L’invenzione dell’autore

Quello di cui stiamo parlando nasce come risposta appena pubblicata da parte di OpenAI alla causa che il New York Times, da buon ultimo, ha intentato all’azienda sostenendo in buona sostanza che quel che l’addestramento di ChatGPT è avvenuto sfruttando i materiali del giornale americano (cioè i suoi testi recuperati dalle edizioni digitalizzate e disponibili in rete).

Il problema qui è profondo, tecnico e filosofico a un tempo, oltre che ovviamente legale. Perché c’è anche da dire, proprio nell’anno bisestile in cui è andato finalmente fuori dal copyright il primo cortometraggio di Topolino, quello che la Walt Disney è riuscita a tenere “protetto” da qualsiasi riuso praticamente cambiando sotto il naso del pianeta le leggi sulla durata della tutela del diritto d’autore e del diritto di copia americane, che sono poi quelle che hanno l’impatto maggiore sul resto del mondo.

È un paradosso, ma adesso il freno maggiore all’innovazione dirompente e selvaggia che OpenAI vuole praticare arriva proprio in quel contesto di super tutela dei diritti che caratterizza la vita e gli affari negli Usa.

Si innova per cercare di dare nuova forma alle cose ma poi si brevetta e si copre tutto di qualsiasi tutela legale possibile e si arriva dunque al punto, sostenuto da OpenAI, che nel mondo d’oggi il copyright copre virtualmente qualsiasi forma di espressione umana, dai post nei blog alle foto ai post nei forum agli esempi di codice per il software fino ai documenti dei governi.

Il New York Times cita in giudizio OpenAI e Microsoft per violazione di copyright
Foto dii Jakayla Toney su Unsplash

Il copyright dell’Autore

Persino la Bibbia, antico e nuovo testamento, è sotto copyright. Com’è possibile, si potrebbe chiedere l’ingenuo? Forse perché la legge riconosce la natura divina e quindi immortale all’Autore dei testi sacri, e quindi mantiene il diritto d’autore in vita visto che questo scade solo alcuni decenni dopo l’effettiva morte di chi ha scritto?

No, ovviamente le sacre scritture sono fuori dal diritto di copia, ma solo nelle versioni in aramaico, in ebraico, in greco e in latino. Le versioni in italiano o nelle altre principali lingue viventi, invece, sono semplicemente ancora sotto copyright perché sotto copyright è la loro traduzione e l’edizione pubblicata nei vari paesi, che in Italia è curata dalla Cei, la Conferenza episcopale italiana. Insomma, tutto è protetto.

La cultura dell’addestramento

Cosa dice quindi OpenAI? Solleva un punto interessante. Il tema centrale è che bisogna decidere di cosa si sta parlando. Perché il copyright non impedisce la lettura dei testi. E quindi, argomentano i difensori delle AI, per addestrarle è come se si facessero studiare i giovani sui testi regolarmente acquistati. Quando poi si sono acculturati i giovani scrivono a loro volta altre cose ma non violano il copyright di nessun manuale e libro di testo che è servito alla loro formazione. La copia c’è solo quando di copia pedissequa si tratta, non quando c’è l’addestramento.

Invece, obiettano quelli del copyright, la copia c’è eccome. Perché le AI non sono persone e il loro addestramento non vuol dire “leggere” o “studiare”, bensì copiare, manipolare e schedare le informazioni, costruendo relazioni che permettono poi al sistema di interagire interpolando altri testi. Alle volte ci sono le copie, i “rigurgiti” come vengono chiamate quelle risposte in cui la AI copia pari-pari uno dei testi a cui si è abbeverata nella sua fanciullezza. Altre volte delira, altre volte sogna e tutte le metafore umanoidi che ci siamo inventati per descriverla.

ChatGPT e OpenAI rischiano la prima causa per diffamazione

C’è copia e copia

Tuttavia, il tema vero è, sostengono quelli del copyright, che la AI è basata e centrata su materiale che appartiene ad altri e, in quanto motore automatico (e non persona) agisce consumando testi che non avrebbe il diritto di consumare. Inoltre, e qui c’è la seconda stilettata, la AI quando crea può anche imitare se non clonare lo stile di persone a cui ha prosciugato i dati. Può copiare lo stile di un famoso giornalista o di un attempato scrittore, di uno psicanalista che dialoga con i pazienti o di un conduttore radiofonico che ha lasciato centinaia di ore del suo lavoro in varie emittenti.

Ricreare l’impronta stilistica, sintattica e persino vocale nel caso del parlato di persone che non hanno concesso l’autorizzazione è legale o viola la legge sul copyright?

La madre di tutte le cause

Il New York Times sostiene che il caso sia quest’ultimo e vari altri lo fanno, tra cui molti giornali. Ma OpenAI si oppone fermamente, ha argomenti non secondari dalla sua, oltre che tasche enormi e profondissime che le permettono di alimentare studi legali molto potenti, e il caso è tutt’altro che risolto.

La domanda a questo punto diventa: quando il giudice americano avrà deciso chi ha ragione tra il New York Times e OpenAI, quali saranno le conseguenze nel resto del mondo?

Tutte le notizie che parlano di Intelligenza Artificiale sono disponibili a partire da questa pagina di macitynet.

Offerte Apple e Tecnologia

Le offerte dell'ultimo minuto le trovi nel nostro canale Telegram

Black Friday

BOZZA PER LISTONE BLACK FRIDAY NON TOCCARE - macitynet.it

Per trovare le migliori occasioni di Black Friday Week, BlackFriday e CyberMonday: visitate la nostra pagina con tutte le offerte Black Friday costantemente aggiornata con tutte le news pubblicate e iscrivetevi ai nostri 2 canali telegram Offerte Tech e Oltre Tech per le offerte lampo e le offerte WOW che sono diverse ogni giorno e durano 16 ore.

Consultate il banner in alto nelle pagine di Macitynet sia nella versione mobile che desktop: vi mostreremo a rotazione gli sconti top.

Dalla 00.00 del 21 Novembre fino alla mezzanotte del 2 Dicembre vi mostriamo tutti i prodotti delle selezioni Apple, monitor, SDD etc. Nel corso delle ore anche l'elenco qui sotto si popolerà con i link agli articoli principali divisi per categorie.

Nota: I prezzi riportati in verde nelle offerte Amazon sono quelli realmente scontati e calcolati rispetto ai prezzi di listino oppure alla media dei prezzi precedenti. Il box Amazon riporta normalmente gli sconti rispetto al prezzo medio dell'ultimo mese o non riporta affatto lo sconto. Le nostre segnalazioni rappresentano una convenienza di acquisto e comunque controllate sempre il prezzo nella pagina di arrivo. Segnaliamo anche offerte dirette delle aziende.

Apple

Video, Foto, Creatività

Audio

Smartphone e Accessori

Accessori computer 

Software

Domotica

Casa, Cucina e Giardinaggio

Sport e attività all'aperto, Salute

Prodotti Amazon e settori di offerte

Pubblicità

Ultimi articoli

Pubblicità