Algospeak, la strana lingua nata per ingannare le AI

11 Apr 2022

Potete chiamarlo “Algospeak”, la parlata algoritmica, ma anche “Voldemorting” oppure lo “Slang Replacement”, rimpiazzare le parole normali con quelle vernacolari. Su TikTok, Twitch, Instagram e YouTube, soprattutto, per evitare i filtri computazionali messi su dalle grandi aziende per bloccare i contenuti inappropriati le persone si adattano e costruiscono linguaggi fantasiosi, traslati, improbabili e soprattutto impossibili da filtrare.

Insomma, per evitare di far arrabbiare l’onnipotente algoritmo, le persone stanno creando un nuovo vocabolario fatto di parole che funzionano in modi diversi, alternativi, dipendendo dal contesto. Per adesso in inglese, ma solo perché è in quella lingua che si sono svolti i primi studi sul fenomeno e perché la stampa se ne è interessata. Certamente non è una novità il parlare gergale, e ogni subcultura che sviluppa il suo gergo lo fa in buona misura per non farsi capire dagli altri. Ma è la prima volta che questo fenomeno accade per via dei filtri automatici gestiti da intelligenze artificiali, capaci di “capire”, almeno fino a un certo punto.

Quindi, sicuramente succede anche con le comunità di parlanti italiano e di altre lingue, ma ne sappiamo meno perché siamo meno rispetto ai parlanti inglesi in rete e perché alla fine la plasticità della lingua britannica è diversa e più adatta a gestire questo tipo di problematiche.

intelligenzaartificiale1

Un po’ di storia

Che si parlino lingue strane e incomprensibili per ingannare l’autorità non è certo una novità. Nella Londra rinascimentale il Cockney, che nasce a Londra soprattutto nell’East End nel 1300 ed ha già dal nome una connotazione negativa (Cock’s egg, “l’uovo del gallo”, cioè fallato o di piccole dimensioni) nonostante il dialetto parlato da chi è nato a distanza d’udito dalle campane di St. Mary-le-Bow a Cheapside (nella city di Londra, appunto), è un argot, cioè un linguaggio in codice. È uno slang che alterna in maniera ingegnosa delle rime per non farsi riconoscere. E ci sono almeno 150 termini comuni che fanno da base per questi traslati. Le rime e i traslati servivano a confondere i poliziotti (che venivano da altri quartieri e non capivano) oppure fatti dai commercianti per confondere i clienti del mercato rionale.

Un esempio? Per dire “vado di sopra” (I’m going upstairs) si dice “I’m going up the apples”, vado sulle mele, perché apples fa parte della frase tipica “apples and pears” e “pears” (pere) fa rima con “stairs” (scale). Quindi, chi sente “vado su per le mele” pensa alle pere e poi per rima alle scale. Ancora: per dire parrucca (wig) si dice invece “syrup” (sciroppo) perché lo “syrup of figs”, lo sciroppo di fichi, e figs fa rima con wigs. E si potrebbe andare avanti a lungo.

Parliamo di “unalive”

In ogni caso, questa è la prima volta che il problema diventa parlare mentre il computer ti ascolta e filtra tutti i contenuti, decidendo sulla base dell’algoritmi cosa può restare e cosa no.

Sino a un po’ di tempo fa ci saremmo opposti a questa definizione di quel che succede: l’algoritmo di per sé non decide niente, ci pensano quelli che lo progettano a fare delle scelte e nascondersi dietro un “il computer non lo permette” è una scusa passiva-aggressiva e basta. Tuttavia, chi ha capito come funziona l’intelligenza artificiale, che intelligente non è ma artificiale sì, si rende conto che adesso in realtà la scelta è meno nelle mani dei creatori del sistema (cioè noi) e sempre più nella sua esecuzione autonoma e per la prima volta parzialmente indipendente.

Quindi, ecco l’idea di un “algospeak”, una lingua algoritmica (che è a sua volta un portmanteau, ovvero una parola macedonia, per usare una espressione tanto cara a Wikipedia italina), ed ecco esempi come “unalive” (non vivo) per dire “dead” (morto) in maniera tale che nessun filtro effettivamente filtri la parola o censuri o blocchi: l’esempio è cogente perché ci sono contesti in cui l’uso di parole e argomenti di un certo tipo (tra cui morte, suicidio, violenza, pornografia, pedopornografia) è vietato o comunque filtrato. Un esempio? I filtri automatici e intelligenti per lo spam di Gmail, per esempio, che mandano le mail direttamente nella sezione “Spazzatura” se contiene un po’ troppe parole vietate.

Questo è un problema, che riguarda soprattutto TikTok, e l’algospeak cerca di risolverlo.

La pandemia causa di tutti i mali

Poiché la pandemia ha spinto più persone a comunicare ed esprimersi online, i sistemi algoritmici di moderazione dei contenuti hanno avuto un impatto senza precedenti sulle parole che scegliamo, in particolare su TikTok, e hanno dato origine a una nuova forma di linguaggio basato su Internet.

A differenza di altre piattaforme social tradizionali, il modo principale in cui i contenuti vengono distribuiti su TikTok è attraverso una pagina “For You” curata algoritmicamente; avere follower non garantisce che le persone vedranno i contenuti, serve che questi siano fatti in un certo modo. Questo cambiamento ha portato gli utenti medi a personalizzare i propri video principalmente in base all’algoritmo, piuttosto che al proprio seguito, il che significa che il rispetto delle regole di moderazione dei contenuti è più cruciale che mai.

Quando è scoppiata la pandemia le persone su TikTok e altre app hanno iniziato a chiamarlo “Backstreet Boys reunion tour” o “panini” o “panda express” poiché le piattaforme avevano ridimensionato la capacità di circolazione dei video che menzionavano la pandemia per nome in uno sforzo per combattere la disinformazione.

Il filtro dell’algoritmo

Quando i giovani hanno iniziato a discutere della lotta per mantenere la propria salute mentale, hanno parlato di “diventare inanimati” per avere conversazioni franche sul suicidio senza punizioni algoritmiche. Le “lavoratrici del sesso” (questo è un eufemismo, oltretutto politicamente corretto), che sono state a lungo censurate dai sistemi di moderazione, si riferiscono a se stesse su TikTok come “contabili” e usano l’emoji del mais come sostituto della parola “porno”.

Poiché le discussioni sui principali eventi vengono filtrate attraverso sistemi di distribuzione di contenuti algoritmici, sempre più utenti stanno cambiando il proprio linguaggio. Di recente, parlando dell’invasione dell’Ucraina, le persone su YouTube e TikTok hanno usato l’emoji del girasole per indicare il paese. Quando incoraggiano i fan a seguirli altrove, gli utenti diranno “blink in lio” per “link in bio”. Insomma, cercano di fregare l’algoritmo.

Gli eufemismi sono particolarmente frequenti nelle comunità radicalizzate o pericolose. Le comunità pro-anoressia con disturbo alimentare, ad esempio, secondo il Washington Post hanno adottato da tempo variazioni sulle parole moderate per eludere le restrizioni. Un documento della School of Interactive Computing del Georgia Institute of Technology, ha scoperto che la complessità di tali varianti è molto aumentata nel tempo. L’anno scorso, i gruppi anti-vaccino su Facebook hanno iniziato a cambiare i loro nomi in “dance party” o “dinner party” e gli influencer anti-vaccino su Instagram hanno usato parole in codice simili, riferendosi alle persone vaccinate come “nuotatori”.

E a quanto pare va sempre peggio

Durante l'”adpocalisse” di YouTube nel 2017, quando gli inserzionisti hanno ritirato le sponsorizzazioni dalla piattaforma per paura di contenuti non sicuri, i creator LGBTQ hanno parlato di demonetizzazione dei video per aver pronunciato la parola “gay”. Alcuni hanno iniziato a usare la parola meno o a sostituirla con altre per mantenere monetizzato il loro contenuto.

Più recentemente, gli utenti su TikTok hanno iniziato a dire “cornucopia” piuttosto che “omofobia” o dire di essere membri della comunità “leg booty” per significare che sono LGBTQ.

«C’è una linea che dobbiamo rispettare, è una battaglia senza fine per dire qualcosa e cercare di trasmettere il messaggio senza dirlo direttamente», dice Sean Szolek-VanValkenburgh, un creatore di TikTok con oltre 1,2 milioni di follower. E continua: «Influisce in modo sproporzionato sulla comunità LGBTQIA e sulla comunità BIPOC perché siamo le persone che creano quella verbosità e inventano la alternative».

Anche le conversazioni sulla salute delle donne, la gravidanza e i cicli mestruali su TikTok sono costantemente sottoclassificate, dice Kathryn Cross, creatrice di contenuti di 23 anni e fondatrice di Anja Health, una start-up che ha creato una banca dei cordoni ombelicali. Lei sostituisce le parole per “sesso”, “mestruazione” e “vagina” con altre parole o le scrive con dei simboli nelle didascalie. Molti utenti dicono “nip nops” piuttosto che “nipples” (capezzoli). E altre cose del genere.

Le soluzioni non ci sono

Il problema è generato dalle grandi aziende tech e dal modo con il quale approcciano il problema della moderazione dei contenuti. «La realtà – dice al Washington Post Ángel Díaz, docente presso la UCLA School of Law e che studia tecnologia e discriminazione razziale – è che le aziende tecnologiche utilizzano strumenti automatizzati per moderare i contenuti da molto tempo e, sebbene siano pubblicizzati sistemi sofisticati di apprendimento automatico, spesso è solo un elenco di parole che ritengono problematiche».

Da dove viene l’Algospeak, allora? A gennaio Kendra Calhoun, ricercatrice post-dottorato in antropologia linguistica presso l’UCLA e Alexia Fawcett, studentessa di dottorato in linguistica presso l’Università della California-Santa Barbara, hanno tenuto una presentazione sulla lingua su TikTok. Hanno spiegato come, autocensurando le parole nelle didascalie di TikTok, sono emerse nuove parole in codice algospeak.

La guerra per le parole è già persa

La conseguenza però è completamente diversa. Evan Greer, direttore di Fight for the Future, un gruppo di difesa dei diritti digitali senza scopo di lucro, ha affermato che cercare di far fuori parole specifiche perché sgradite sulle piattaforme è un lavoro stupido. “Prima di tutto, perché in realtà non funziona. Le persone che usano le piattaforme per dire quelle parole sono abbastanza brave a capire come aggirare questi sistemi. E due, porta a un danno collaterale del linguaggio in generale».

Il tentativo di regolare il linguaggio umano su una scala di miliardi di persone in dozzine di lingue diverse e cercare di fare i conti con cose come umorismo, sarcasmo, contesto locale e gergo non può essere fatto semplicemente declassando alcune parole, sostiene Greer. «Sento che questo è un buon esempio del motivo per cui la moderazione aggressiva non sarà mai una vera soluzione ai danni che vediamo dalle pratiche commerciali delle grandi aziende tecnologiche. Puoi vedere quanto sia scivoloso questo pendio. Nel corso degli anni abbiamo assistito sempre più alla richiesta fuorviante da parte del pubblico in generale di piattaforme per rimuovere più contenuti rapidamente, indipendentemente dal costo».

I creatori e gli utenti condividono liste di parole tabù, riogranizzano il discorso usando altri termini, rifunzionalizzano la lingua per continuare a poter dire quel che vogliono. Alla fine, non è possibile sterilizzare Internet più di quanto non sia possibile svuotare il mare con un secchiello bucato.