I modelli AI di apprendimento linguistici continuano ad evolversi, con GPT che nonostante la concorrenza sempre più numerosa e agguerrita continua a dominare la scena: in particolare nei testi di valutazione per oculisti GPT-4 ha ottenuto risultati paragonabili a quelli di un medico specializzato, relativamente a domande di oftalmologia.
Un recente studio della School of Clinical Medicine dell’Università di Cambridge ha rilevato che GPT-4 di OpenAI in una valutazione oftalmologica a confronto con esperti del settore, ha raggiunto livelli equiparabili a quello di un medico specializzato, secondo quanto riferito dal Financial Times.
Nello studio, pubblicato su PLOS Digital Health, i ricercatori hanno testato anche GPT-3.5 , PaLM 2 di Google e LLaMA di Meta con 87 domande a scelta multipla. Cinque oftalmologi esperti, tre oftalmologi tirocinanti e due medici junior non specializzati si sono cimentati nello stesso esame simulato. Le domande provenivano da un libro di testo per tirocinanti, con domande davvero eterogenee, dalla sensibilità, alla luce alle lesioni.
I contenuti delle risposte non erano disponibili al pubblico, quindi i ricercatori ritenevano che i modelli LLM non avrebbero potuto essere addestrati prima del test. Ebbene, GPT-4 ha ottenuto punteggi più alti rispetto ai ai giovani medici e oculisti tirocianti, rispondendo correttamente a 60 delle 87 domande.
Anche se questo valore è stato significativamente superiore alla media di 37 risposte corrette dei medici in formazione, ha superato la media di 59,7 dei tre tirocinanti. Mentre un oculista esperto ha risposto in modo accurato solo a 56 domande, PaLM 2 ha ottenuto un punteggio di 49 e GPT-3.5 ha ottenuto un punteggio di 42. LLaMa, invece, ha ottenuto il punteggio più basso con 28, scendendo al di sotto dei medici junior.
In definitiva GPT-4 ha ottenuto un punteggio solo di poco inferore a quello di medici oftalmologi esperti. Da notare, peraltro, che questi studi sono stati effettuati a metà del 2023, mentre a distanza di un anno il risultato potrebbe essere addirittura migliorato, anche in modo sensibile tenendo presente l’incredibile accelerazione dei modelli AI.
Sebbene questi risultati presentino potenziali benefici, ci sono anche alcuni rischi e preoccupazioni. I ricercatori hanno notato che lo studio offriva un numero limitato di domande, soprattutto in alcune categorie, il che significa che i risultati effettivi potrebbero essere divergenti a seconda del contesto.
Gli LLM hanno, inoltre, hanno manifestato in passato la tendenza a inventare di sana pianta dati e informazioni presentate come vere agli utenti, anche nel settore giuridico. Se questo avviene in un contesto irrilevante potrebbe certamente non nuocere a nessuno, ma se ciò dovesse avvenire in un contesto medico, potrebbe seriamente compromettere la salute dei pazienti. Come accade in molti casi di utilizzo del LLM, le risposte mancano di sfumature, creando ulteriori opportunità di imprecisione.
Sembra che tra i modelli AI in grado di dare filo da torcere a GPT-4 ci sia Claude 3 di Anthropic: ne parliamo più in dettaglio in questo articolo. Tutte le notizie che parlano di Intelligenza Artificiale sono disponibili nella sezione dedicata di macitynet.