L’infrastruttura, i sistemi e la larghezza di banda di Wikimedia Foundation e dell’enciclopedia universale gratuita Wikipedia sono presi d’assalto dal traffico dati generato da bot e crawler AI, programmi automatici che estraggono dati per alimentare i modelli di Intelligenza Artificiale AI.
Oltre a Wikipedia è preso d’assalto anche Wikimedia Commons che offre oltre 140 milioni di file in licenza open. La fondazione spiega che il traffico dati di bot ed estrattori AI corrisponde al 35% del totale delle pagine visualizzate, ma si tratta anche del 65% delle richieste più costose che la sua infrastruttura deve gestire.
Questo perché da sempre i sistemi son progettati per soddisfare le richieste prevedibili degli umani, con la creazione in automatico di cache locali delle pagine e dei dati più richiesti in base a tendenze e argomenti. I lettori umani tendono a leggere una pagina e poi a seguire collegamenti prevedibili tra argomenti attinenti.
Al contrario bot e crawler AI accedono a pagine e documenti raramente consultati, non serviti da cache locali, ma che richiedono l’intervento del database centrale, molto più costoso. A questo si affianca il download di massicce quantità di dati da Wikimedia Commons.
Da qui scatta la denuncia di Wikimedia “La quantità di traffico generata da bot estrattori è senza precedenti e presenta rischi e costi crescenti”. L’infrastruttura progettata per il traffico umano, fatica a tenere il passo con le esose richieste di dati per alimentare i modelli AI.
La divisione Site Reliability di Wikimedia lotta quotidianamente per fare in modo che i servizi rimangono attivi e veloci per gli accessi umani, intervenendo costantemente per ridurre o disabilitare il traffico AI. Questo si traduce in minore tempo di supporto per contenuti, autori e per gli utenti che contribuiscono all’enciclopedia online, oltre a comportare costi maggiori per sistemi, infrastruttura e larghezza di banda.In definitiva i costi delle richieste di bot ed estrattori AI sono molto più alti rispetto alle richieste dei lettori umani e in aggiunta crescono rapidamente. Wikimedia ribadisce che i suoi contenuti sono gratuiti, ma la sua infrastruttura non lo è.
Wikipedia si basa sopratutto sul lavoro dei volontari e sulle donazioni degli utenti. Chissà se startup e colossi AI che più beneficiano di questa raccolta dati troveranno anche una soluzione per non fare implodere Wikipedia e Wikimedia Foundation.
I modelli AI pescano ovunque a piene mani: si veda il caso dell’ondata di immagini stile Studio Ghibli generate con ChatGPT e l’accusa di O’Reilly sull’addestramento con decine di libri del suo catalogo.
Per tutti gli articoli dedicati all’intelligenza artificiale si parte da questa pagina di macitynet.