Meta ha leggermente manipolato un benchmark per l’Intelligenza Artificiale, probabilmente per dimostrare che i suoi algoritmi superano in capacità ed efficienza quelli di aziende notoriamente leader nel settore, in primis OpenAI, ma anche rispetto a Google e Anthropic.
Secondo Kylie Robison de The Verge, i sospetti sono nati quando, nel corso del weekend, Meta ha lanciato due nuovi modelli di intelligenza artificiale basati sul proprio grande modello di linguaggio Llama 4. I modelli, denominati Scout e Maverick, sono stati creati rispettivamente per rispondere a query rapide e per competere in modo efficiente con soluzioni più affermate come GPT-4 di OpenAI.
Nel blog post di presentazione, Meta ha fornito una grande quantità di dati tecnici. Tali dettagli, sebbene utili per i ricercatori e per chi è appassionato di intelligenza artificiale, risultano meno rilevanti per la maggior parte degli utenti.

Numerosi esperti hanno immediatamente notato un dato particolarmente sorprendente: il modello Maverick ha ottenuto un punteggio ELO di 1417 sulla piattaforma LMArena, uno strumento open-source per valutare le prestazioni dei modelli di intelligenza artificiale dove un punteggio più elevato indica una maggiore efficienza. Con questo risultato, Maverick si è posizionato al secondo posto della classifica, superando GPT-4 e risultando subito inferiore solo a Gemini 2.5 Pro, suscitando grande sorpresa in tutto l’ecosistema AI.
Analizzando i dettagli, è emerso che la versione di Maverick sottoposta ai test con LMArena differisce leggermente da quella disponibile agli utenti, in quanto è stata programmata per essere più “loquace” e, in tal modo, influenzare positivamente il benchmark. In sostanza, il modello ha mostrato un certo “charme” che ne ha favorito l’ottenimento di un punteggio superiore.
La piattaforma LMArena non ha accolto di buon grado questa strategia; in una dichiarazione ha precisato che l’interpretazione data da Meta delle sue politiche non rispecchia le aspettative e ha annunciato un aggiornamento delle regole della classifica per garantire valutazioni eque e riproducibili in futuro.
In passato, vari produttori hanno adottato strategie simili, modificando impostazioni come la luminosità dello schermo o rilasciando versioni dei prodotti senza bloatware, per migliorare i loro punteggi, fino ad arrivare a soluzioni più sofisticate in grado di rilevare i principali strumenti di benchmark per aumentare le prestazioni oltre i livelli massimi disponibili per gli utenti.
Per tutti gli articoli dedicati all’intelligenza artificiale si parte da questa pagina di macitynet.