Nell’incredibile evoluzione quasi quotidiana dell’intelligenza artificiale e degli strumenti AI mancava un passo che ora è stato intrapreso: il computer in grado di muovere il mouse, fare click e digitare sulla tastiera, al nostro posto, per fare praticamente tutto o quasi da solo.
L’idea è venuta a Josh BIckett di OthersideAI osservando in funzione GPT-4 Vision, modello di OpenAI per funzioni AI basate sulla visione invece che su input di testo. In pratica come farebbe un uomo, il sistema osserva lo schermo del computer tramite screenshot e da questi decide i migliori spostamenti per il puntatore del mouse, per i click da effettuare e anche per inserimenti e digitazione da tastiera.
Il modello AI guarda e interpreta lo schermo ed effettua una serie di azioni mirate per raggiungere l’obiettivo desiderato, proprio come farebbe un uomo seduto davanti al computer, o quasi. Bickett spiega che è proprio come un altro agente o modello AI ma non basato sul testo, bensì sulla visione. Finora per questo tipo di funzioni si seguiva un approccio basato sulle API, ma lo sviluppatore spiega che non tutto ciò che un uomo fa al computer è riproducibile tramite API.
𝗪𝗲 𝗮𝗿𝗲 𝗲𝘅𝗰𝗶𝘁𝗲𝗱 𝘁𝗼 𝗼𝗽𝗲𝗻-𝘀𝗼𝘂𝗿𝗰𝗲 𝘁𝗵𝗲 𝗦𝗲𝗹𝗳-𝗢𝗽𝗲𝗿𝗮𝘁𝗶𝗻𝗴 𝗖𝗼𝗺𝗽𝘂𝘁𝗲𝗿 𝗙𝗿𝗮𝗺𝗲𝘄𝗼𝗿𝗸 𝘁𝗵𝗮𝘁 𝗲𝗻𝗮𝗯𝗹𝗲𝘀 𝗺𝘂𝗹𝘁𝗶𝗺𝗼𝗱𝗮𝗹 𝗺𝗼𝗱𝗲𝗹𝘀, 𝗶𝗻𝗰𝗹𝘂𝗱𝗶𝗻𝗴 𝗚𝗣𝗧-𝟰-𝗩𝗶𝘀𝗶𝗼𝗻 𝘁𝗼 𝘀𝗶𝗺𝘂𝗹𝗮𝘁𝗲 𝗵𝘂𝗺𝗮𝗻-𝗹𝗶𝗸𝗲 𝗺𝗼𝘂𝘀𝗲… pic.twitter.com/8DyQRBsWUQ
— Josh Bickett (@josh_bickett) November 27, 2023
Matt Shumer, cofondatore e Ceo di OthersideAI, offre a VentureBeat un altro punto di vista «Se vuoi veramente risolvere qualcosa che sia autonomo [e] possa effettivamente aiutarci o fare di più, devi permettergli di funzionare come una persona perché il mondo è costruito per le persone». Le tecnologie AI sono un approccio migliore e per aver più probabilità di riuscire e svilupparsi il framework è stato rilasciato gratis, aperto e disponibile per chiunque voglia sperimentare
Non solo: il sistema proposto è anche plug and play, nel senso che in qualsiasi momento chiunque può inserire un modello AI migliore per farlo progredire. I creatori prevedono che modelli AI avanzati potrebbero imparare a prendere il controllo di tutte le interazioni del computer, il tutto semplicemente tramite comandi vocali e conversazionali.
Dalla AI che digita a quella che ragiona
Il modello AI che controlla il computer è solo il primo passo per la società di ricerca Imbue specializzata in AI. Per migliorarlo serve una potenza di calcolo enorme, ottenuta con una collaborazione da 150 milioni di dollari con Dell.
La ricerca Imbue punta a modelli AI in grado di ragionare e scegliere meglio, solo così sarà possibile creare sistemi in grado di gestire incertezza, adattare gli approcci, ottenere informazioni, effettuare scelte complesse, oltre a tutto quello che serve per essere davvero autonomo. Un’autonomia che supera di gran lunga quella necessaria per agenti AI destinati a compiti limitati.
Per raggiungere lo scopo Imbue non lascia nulla al caso tra agenti sperimentali e prototipi, strumenti, addestramento ottimizzato fino alla ricerca teorica: obiettivo una AI capace di ragionamento simile all’uomo ed eventualmente sviluppare una AGI, l’intelligenza artificiale generale o forte in grado di emulare il cervello umano.
La foto in apertura articolo è di kiquebg da Pixabay. Tutte le notizie che parlano di Intelligenza Artificiale sono disponibili a partire da questa pagina di macitynet.