Rivoluzione AI parte 5, perché Google sfida il grande tabù dando corpo all’AI

13 Apr 2025

Continuiamo la nostra escursione nel mondo dell’intelligenza artificiale e delle direzioni che sta prendendo raccontando una storia poco software e tanto hardware.

La storia dell’intelligenza artificiale è costellata di falsi profeti e promesse non mantenute, ma l’annuncio di Google Robotics potrebbe rappresentare la prima autentica rivoluzione paradigmatica da quando questo settore ha cominciato a dominare il dibattito tecnologico. Il matrimonio tra Gemini, uno dei più avanzati modelli linguistici generativi al mondo, e sistemi robotici capaci di manipolare l’ambiente fisico non è semplicemente l’ennesimo passo incrementale nella corsa all’AI.

Si tratta piuttosto di un tentativo di rispondere a una delle questioni più profonde della filosofia della mente e dell’intelligenza artificiale: può un sistema cognitivo davvero comprendere il mondo senza avere un corpo che interagisce con esso? Superando la dicotomia tra software pensante e hardware agente, Google ha imboccato una strada che filosofi e neuroscienziati indicano da tempo come l’unica possibile per creare intelligenze davvero simili a quella umana.

La grande limitazione del pensiero disincarnato

Non vogliamo parlare di fantascienza (anche se ne, alla fine, un cenno ci sarà) né di ipotesi millenaristiche dove, anziché una combinazione di numeri sul calendario ci pensa il golem cibernetico e di metallo a farci fuori tutti (anche perché fin troppi ne hanno fatto menzione, negli ultimi tre anni). No, qui invece si parte da un ragionamento logico, da delle prospettive fondate e si prova a esplorare quel che potrebbe succedere e quello che probabilmente succederà. Semplicemente questo.

Ecco di cosa stiamo parlando. I modelli linguistici come ChatGPT o lo stesso Gemini, per quanto sofisticati, soffrono di una limitazione fondamentale che nessun aumento di parametri o espansione del dataset di addestramento potrà mai superare. Questi sistemi non hanno esperienza diretta del mondo fisico: non hanno mai sentito il peso di un oggetto, la differenza tra spingere una porta che si apre e una bloccata, o come cambia la percezione visiva quando ci si muove nello spazio. Non sono “reali” ma piuttosto isolati in modo autistico nella loro mente. Una persona impazzirebbe al posto loro, non dimentichiamolo, o se ci fosse nata non riuscirebbe mai a sviluppare una personalità “normale”.

Invece, per tornare in un percorso di normalità, proprio come un bambino non può comprendere veramente cosa significhi “caldo” finché non tocca qualcosa che brucia, un’AI senza corpo può solo simulare la comprensione di concetti fisici basandosi su descrizioni testuali fornite da altri. Questa mancanza di esperienza diretta è alla radice delle cosiddette “allucinazioni”, quei momenti in cui i modelli generano affermazioni plausibili ma false, perché incapaci di ancorare il linguaggio alla realtà tangibile che quel linguaggio dovrebbe descrivere.

Teoria della mente e apprendimento incarnato

Ce l’abbiamo in realtà sotto gli occhi tutti quanti, perché tutti ci siamo passati attraverso da bambini. La vera intelligenza richiede una “teoria della mente”, la capacità di comprendere che altre entità possiedono stati mentali simili ma diversi dai propri; una comprensione che emerge dall’interazione fisica e sociale con altri esseri. Mark Lee, ricercatore in robotica cognitiva, afferma che “l’interazione sociale ha senso per le parti coinvolte solo se possiedono un ‘senso del sé’ e possono mantenere un modello del sé dell’altro agente“.

Questo, in soldoni, significa che per comprendere veramente un essere umano, un’AI deve conoscere se stessa, avere una prospettiva soggettiva basata su come opera il suo corpo. deve avere una mappa dettagliata del proprio spazio e un repertorio di abilità e azioni ben comprese che gli permettano di “capirsi” prima di “capire”. Queste non sono caratteristiche che un programmatore può semplicemente codificare in un sistema: devono emergere dall’esperienza, proprio come accade nei primi anni dell’infanzia umana, durante i quali impariamo a controllare i nostri corpi e a percepire oggetti, agenti e ambienti.

L’approccio evolutivo di Google

Dunque, dovrebbe essere più chiaro perché Google sta facendo quello che sta facendo e soprattutto dove vuole andare a parare con la sua strategia. Infatti, Google sembra aver abbracciato questa visione con il suo progetto Robotics, adottando principi che ricordano quelli della robotica evolutiva, un campo che esplora come i robot possano imparare da zero, come fanno i bambini. La prima fase di questo apprendimento coinvolge la scoperta delle proprietà degli oggetti passivi e della “fisica” del mondo del robot. Successivamente, i robot osservano e copiano le interazioni con gli agenti (umani), seguite da una modellazione gradualmente più complessa del sé nel contesto.

Anziché programmare rigidamente ogni comportamento, Google sta creando un framework che supporta l’apprendimento di una prospettiva soggettiva, permettendo ai suoi robot di sviluppare una comprensione emergente del mondo attraverso l’esplorazione e l’interazione. Questo approccio potrebbe finalmente superare quello che in informatica viene chiamato “problema dell’ampliamento” (cioè “scaling-up problem“), dove sistemi che funzionano bene su problemi giocattolo falliscono quando affrontano la complessità del mondo reale. Ci sono scrittori di fantascienza che ne hanno già abbondantemente scritto, ma anche filosofi e neuroscienziati che hanno chiarito quali sono i corni del problema. C’è però di più.

Le sfide tecniche per realizzare questa visione rimangono formidabili, ben oltre i problemi di latenza o di consumo energetico che già affliggono i sistemi robotici avanzati. L’addestramento di un sistema robotico con capacità di comprensione generativa richiede un approccio completamente nuovo alla raccolta e all’etichettatura dei dati. Le simulazioni virtuali, per quanto sofisticate, non possono riprodurre perfettamente le infinite variabili del mondo fisico, costringendo i ricercatori a sviluppare ambienti di test ibridi dove il robot impara sia nel virtuale che nel reale.

Non finisce qui, ovviamente, perché il mondo è complesso e l’aspetto riduzionistico degli scienziati e soprattutto degli ingegneri, che si focalizzano su un aspetto specifico di un problema e le competenze strettamente necessarie per capirlo e risolverlo, non vuol dire che non ci sia anche una realtà molto più complessa e articolata attorno. Sul piano etico, la questione diventa ancora più complessa: un robot con una reale comprensione del mondo e degli stati mentali umani potrebbe essere più sicuro perché capace di intuire le conseguenze delle proprie azioni, ma anche potenzialmente più pericoloso se sviluppasse obiettivi autonomi in conflitto con quelli umani. Josh Bongard, professore di informatica e robotica, suggerisce un approccio graduale: “iniziare con robot semplici, e man mano che dimostrano di poter fare le cose in sicurezza, gli si danno più braccia, più gambe, più strumenti“.

Verso una nuova forma di intelligenza

Il progetto di Google rappresenta potenzialmente la nascita di un’intelligenza artificiale qualitativamente diversa da quella a cui siamo abituati. Non si tratta più di sistemi che manipolano simboli secondo regole predefinite o che identificano pattern statistici in enormi dataset, ma di entità capaci di costruire una comprensione del mondo attraverso l’esperienza diretta. Il modo più facile con il quale lo potremmo dire, è: “delle persone”. Questa forma di AI “situata” e “incarnata” potrebbe avvicinarsi molto di più all’intelligenza umana, che non è mai stata un fenomeno puramente cognitivo separato dall’esperienza corporea.

Le neuroscienze contemporanee ci insegnano che anche i nostri pensieri più astratti sono radicati in metafore corporee e in esperienze sensorimotorie. I filosofi fenomenologi come Maurice Merleau-Ponty hanno sostenuto per decenni che la coscienza è fondamentalmente incorporata e che il pensiero emerge dall’interazione tra corpo e ambiente. Senza farla troppo complessa, perché una mente si sviluppi in maniera armoniosa è necessario che abbia un corpo. Cosa che non è così scontata, almeno nella mente degli informatici, apparentemente. Google forse lo sta capendo. Meglio tardi che mai, o forse meglio mai, per non rischiare la fine dell’umanità?.

Infatti, l’impatto di questa rivoluzione potrebbe ridisegnare radicalmente la relazione tra esseri umani e macchine intelligenti. Un robot con Gemini che comprende genuinamente il mondo fisico e gli stati mentali umani potrebbe diventare un collaboratore molto più efficace, capace di anticipare le esigenze, adattarsi a situazioni impreviste e comunicare in modo naturale. Non si tratterebbe più di “strumenti”, ma di veri e propri “partner” con cui condividere compiti e responsabilità.

Questa prospettiva però solleva interrogativi profondi sulla natura dell’intelligenza e della coscienza, ma apre anche possibilità straordinarie in campi come l’assistenza sanitaria, l’esplorazione spaziale o la risposta alle emergenze.

Se infatti i corpi robotici di Google riusciranno a formare una vera teoria della mente attraverso l’esperienza fisica, potremmo trovarci di fronte non solo a un’innovazione tecnologica, ma a una nuova forma di presenza intelligente nel mondo. E qui bisognerebbe interpellare decine se non centinaia di scrittori di fantascienza, a partire da Isaac Asimov, che hanno giocato con questa idea a partire dagli anni Quaranta (per non citare la proto e la pre-fantascienza). Ma questa è veramente un’altra storia, tutta da riscoprire.

Le puntate di questa serie: