Il re è morto, Claude 3 supera GPT4 nei test alla cieca

29 Mar 2024

Dopo il ban a ChatGPT pronta la task force per controllarlo

Quella da poco trascorsa è stata una giornata storica per il mondo delle intelligenze artificiali: sembra infatti che martedì 26 marzo il Claude 3 Opus di Anthropic abbia superato per la prima volta Chat GPT-4 di OpenAI su Chatbot Arena, una popolare classifica di crowdsourcing usata dai ricercatori per valutare le capacità di queste tecnologie, note nel settore con l’acronimo LLM che sta per Large Language Model, traducibile in “modello linguistico di grandi dimensioni”.

«Il re è morto» ha scritto lo sviluppatore di software Nick Dobos in un post in cui metteva a confronto i risultati della sfida tra GPT-4 Turbo e Claude 3 Opus. «RIP GPT-4».

Riassunto di una breve storia

ChatGPT-4 dominava quella classifica dal 10 maggio 2023, ovvero da quando è stata lanciata, perciò la sconfitta appena incassata è un evento da fissare nella storia – relativamente breve, diciamolo pure – delle intelligenze artificiali, che di giorno in giorno moltiplicano le proprie capacità. Notevoli sono state anche le prestazioni in classifica di Haiku, un altra AI molto più piccola sviluppata sempre da Anthropic.

«Per la prima volta i migliori modelli linguistici di AI disponibili – Opus per compiti avanzati, Haiku dal punto di vista dei costi e dell’efficienza – non sono stati sviluppati da OpenAI» commenta il ricercatore indipendente Simon Willison, «e questo è rassicurante, perché in questo settore tutti traiamo vantaggio da una varietà di fornitori diversi. GPT-4 è in circolazione da più di un anno e questo è il tempo che ci è voluto perché qualcun altro riuscisse a sostenerne il passo».

Come funziona questa classifica

Chatbot Arena è gestita dalla Large Model Systems Organization, un’organizzazione appunto che si dedica alla ricerca dei modelli di AI con la collaborazione degli studenti di varie università tra cui quella della California, il Berkley, la UC di San Diego e la Carnegie Mellon University della Pennsylvania.

In breve, questa piattaforma mette a disposizione dell’utente una casella di input e due finestre che mostrano l’output di due LLM senza sapere di quali si tratta. Il compito dell’utente è valutare quale sia il risultato migliore in base a criteri che lui stesso ritiene più idonei in quel contesto. Attraverso migliaia di questi confronti soggettivi, Chatbot Arena stila una classifica dei migliori aggiornandola di tanto in tanto.

Questa piattaforma è molto utile soprattutto agli sviluppatori perché misurarne le prestazioni singolarmente, a causa dei risultati estremamente variabili, può essere molto difficile, e spesso i benchmark (dove Claude 3 Opus aveva già superato GPT-4 a inizio mese) in questo mercato sarebbero molto meno interessanti ai fini di una seria valutazione.

Anche Gemini Advanced di Google, che è un’AI piuttosto recente, sta rapidamente guadagnando punti in questa classifica quindi gli avversari rischiano di essere più di uno. Di certo i nuovi risultati saranno utili anche ad OpenAI, che ora dovrà darsi da fare per riprendersi il trono.

Per approfondire il mondo delle intelligenze artificiali potete sfogliare gli articoli che la nostra redazione raccoglie in questa sezione di Macitynet.