Questo sito contiene link di affiliazione per cui può essere compensato

Home » Hi-Tech » Internet » Apple ha comprato dati per addestrare sua AI da una fonte controversa

Apple ha comprato dati per addestrare sua AI da una fonte controversa

Pubblicità

Apple ha comprato alcuni dati usati per addestrare Apple Intelligence ma una azienda dalla quale ha comprato questi grandi set di informazioni è accusata di avere sottratto con metodi discutibili la trascrizione di video di YouTube (senza il consenso dei creator): filmati educativi del MIT, quelli di alcuni popolari show TV americani e anche video di noti youtuber come Marques Brownlee.

Tutte le AI generative funzionano accumulando enormi quantità di dataset (insieme di dati) per creare i Large Language Models (LLM), ovvero modelli linguistici di grandi dimensioni. Le fonti usate per addestrare le AI sono spesso controverse (ne sa qualcosa Adobe, accusata di avere addestrato sue AI su contenuti degli utenti) e Apple ha preferito fare affidamento a fonti etiche, pagando milioni di dollari case editrici per accedere in modo legale a libri e articoli vari, ma anche per ottenere in licenza immagini da aziende specializzate nella vendita di librerie fotografiche.

Stando a quanto riferisce Wired, una delle aziende dalle quali Apple ha comprato dati da usare per la sua AI non è stata scrupolosa come la Mela con le fonti. L’azienda che ha venduto dati a Apple si chiama EleutherAI; quest’ultima ha creato dataset che chiama Pile e che sarebbero usati da Apple per l’addestramento di suoi LLM.

Tra i dataset Pile vi sono anche sottotitoli di video di YouTube, ottenuti dopo il download dei filmati dalla piattaforma in questione, senza il permesso dei creator. Questo modo di agire comporterebbe a quanto pare anche una violazione dei Termini di Servizio di YouTube, pizttzforma che non consente di scaricare, vendere e concedere in licenza contenuti previa autorizzazione scritta (per quanto riguarda quest’ultimo aspetto non c’è, a onor del vero, molta chiarezza).

Apple ha comprato dati per addestrare sua AI da una fonte controversa

Oltre a Apple, tra le aziende che hanno usato i dataset Pile, c’è anche Anthropic (azienda nota per Claude, concorrente diretto di ChatGpt di OpenAI); un portavoce di quest’ultima ha sottolineato che c’è una differenza tra l’usare i video e i sottotitoli di YouTube. “Pile include un sottoinsieme molto limitato di sottotitoli YouTube”, spiega Jennifer Martinez. “I Termini di YouTube riguardano l’uso diretto della piattaforma, una distinzione rispetto ai dataset di Pile”, spiegando ancora che bisognerà chiarire la questione con gli autori di Pile.

Anche Salesforce ha confermato di avere usato dataset Pile per creare suoi modelli AI per “scopi accademici e di ricerca”, sottolineando che questi dati sono pubblicamente disponibili. Sviluppatori che lavorano per Salesforce riferiscono ancora che i dataset Pile includono turpiloqui, “pregiudizi contro la parità di genere e alcuni gruppi religiosi”.

Al momento solo Salesforce e Anthropic hanno commentato la questione dell’uso dei dataset Pile.  Apple, Nvidia, Bloomberg e Databricks, tutte note per avere sfruttato questi dati per loro AI, non hanno, al momento, rilasciato commenti.

Tutti gli articoli che parlano di Intelligenza Artificiale nella sezione dedicata di macitynet.

Offerte Apple e Tecnologia

Le offerte dell'ultimo minuto le trovi nel nostro canale Telegram

Offerte Speciali

iPad 10,2 minimo storico con codice a solo 287,99€

iPad nona generazione regalato costa solo 299€

Su Amazon torna il mega sconto del 32% per iPad di nona generazione. Lo pagate solo 299€, di pochissimo sopra il minimo storico
Pubblicità

Ultimi articoli

Pubblicità