Continuiamo la nostra serie di articoli per esplorare in maniera strutturata il mondo delle intelligenze artificiali. Dopo aver avviato il discorso con una prima ricognizione di cosa parliamo quando si parla di ChatGPT, è arrivato il momento di prendere un’altra strada: dalle nuvole passiamo al nostro computer. Anzi, al nostro Mac (ma va bene anche Linux o Windows).
Dimenticatevi quindi per un attimo di ChatGPT, di Gemini, di Claude e di tutte quelle intelligenze artificiali che abitano in qualche remoto datacenter e che consumano i vostri dati come fossero patatine. Oggi parliamo invece di un fenomeno in rapida crescita che sta cambiando il volto dell’AI: la possibilità di far girare modelli linguistici avanzati direttamente sul vostro computer, senza bisogno di internet né di abbonamenti costosi. È l’era dell’AI fai-da-te, dell’intelligenza artificiale che ritorna a casa dopo anni di esilio nel cloud, e Ollama è lo strumento che sta rendendo tutto questo possibile per chiunque abbia un minimo di dimestichezza con la riga di comando.
Non serve essere programmatori per iniziare questo viaggio, ma solo un po’ di spirito d’avventura e la voglia di riprendere il controllo delle proprie interazioni digitali. E se avete solo pochissime cognizioni base, sappiate che potete sempre chiedere aiuto a una classica AI nel cloud, ad esempio ChatGPT, anche in versione gratuita per darvi tutte le istruzioni del caso. Un esempio di come l’AI possa tornare utile e al tempo stesso farsi da parte.
Il vantaggio principale di usare una AI in locale? I vostri dati rimangono esattamente dove dovrebbero essere: sul vostro dispositivo, lontani da occhi indiscreti e algoritmi voraci di informazioni. Stiamo parlando di vera sovranità digitale, quella che sembrava ormai un concetto perduto nell’era dei servizi in abbonamento e della cessione costante della nostra privacy.
E la parola chiave è una: Ollama. Il software che fa da ponte tra voi e i modelli linguistici open-source più avanzati, come quelli sviluppati da Meta (Llama) e dalla startup francese Mistral AI di cui parliamo oggi. L’installazione è sorprendentemente semplice: su macOS ci sono due modi: basta un comando nel terminale
curl https://ollama.ai/install.sh | sh
oppure installare usando homebrew
brew install ollama
e in pochi minuti siete pronti a scaricare il vostro primo modello di intelligenza artificiale. Windows e Linux non sono da meno, con procedure altrettanto accessibili che stanno democratizzando l’accesso a tecnologie che fino a ieri sembravano appannaggio esclusivo delle grandi aziende.
Il motore dell’intelligenza
Ma cosa sono, in pratica, questi modelli che possiamo far girare in locale? Immaginate un cervello digitale composto da miliardi di piccoli interruttori (i parametri) che si sono allenati su trilioni di frammenti di testo (i token) fino a sviluppare una comprensione quasi umana del linguaggio.
I parametri quindi sono i “pesi” che il modello apprende durante il processo di addestramento. Sono i numeri che definiscono il modo in cui il modello genera testo, riconosce schemi e fa previsioni sulle parole successive. Invece, i token sono le unità minime in cui il testo viene scomposto per essere elaborato dal modello.

L’efficacia di un modello dipende dalla sua scala, misurata in miliardi di parametri e di token processati durante l’addestramento: miliardi di parametri definiscono la complessità del modello e la sua capacità di generalizzazione, mentre miliardi di token addestrati indicano la quantità di dati testuali su cui il modello è stato addestrato.
In pratica: più parametri vuol dire che si ha un modello più capace, ma richiede più potenza computazionale. Meno parametri, invece, vuol dire un modello più veloce ed efficiente, ideale per l’uso su dispositivi locali.
Andiamo nel concreto: il modello Llama 3.1, uno dei gioielli della corona di Meta, vanta ben 405 miliardi di parametri ma esistono versioni più leggere, come Mistral 7B, che con “soli” 7 miliardi di parametri offre prestazioni sorprendenti anche su hardware modesti.
A differenza dei loro giganteschi cugini che vivono nel cloud, questi modelli sono stati ottimizzati per funzionare su computer normali, senza necessità di hardware specializzato. Certo, non aspettatevi di far girare i modelli più pesanti su un vecchio laptop, ma un computer di fascia media (MacBook Air con Apple Silicon) con 16GB di RAM può gestire comodamente modelli da 7-13 miliardi di parametri. Il compromesso tra dimensioni del modello e prestazioni è la chiave: modelli più piccoli significano risposte più veloci ma meno sofisticate, mentre quelli più grandi offrono risposte più articolate al costo di maggiori requisiti hardware.
I token, l’unità di elaborazione del testo per questi sistemi, funzionano come i mattoncini Lego del linguaggio. Una frase come “L’intelligenza artificiale è incredibile” viene scomposta in token:
“L'”, “intelligenza”, “artificiale”, “è”, “incredibile”, “.”
che il modello elabora uno dopo l’altro. Questa è la magia che permette ai modelli di completare frasi, rispondere a domande o generare contenuti originali, tutto basandosi sui pattern che hanno imparato durante l’addestramento su enormi quantità di testo.
Per chi ama i numeri, è interessante notare che un modello come Mistral 7B può processare tipicamente fino a 4.096 token (circa 3.000 parole) in un singolo contesto, mentre versioni più recenti arrivano a gestire 128.000 token. Queste cifre rappresentano la “memoria di lavoro” dell’AI: quanto testo può considerare contemporaneamente per generare una risposta coerente.

I protagonisti della rivoluzione
Llama e Mistral non sono nati per caso ma rappresentano due filosofie diverse nel mondo dell’AI open-source. Meta, con il suo progetto Llama, ha sorpreso tutti rilasciando gratuitamente modelli che competono con quelli commerciali più avanzati. Mark Zuckerberg stesso ha dichiarato che l’open-source garantisce che “un maggior numero di persone in tutto il mondo possa beneficiare delle opportunità offerte dall’AI”, evitando la concentrazione del potere nelle mani di poche aziende. I più cinici hanno anche commentato che, essendo fortemente in ritardo rispetto ai big come OpenAI e Google, a Meta conviene sfruttare la forza dell’open source per sparigliare. Probabilmente sono vere tutt’e due le cose.
Mistral AI, d’altra parte, è la classica storia della startup che sfida i giganti. Fondata nel 2023 da tre ricercatori francesi (Arthur Mensch, Guillaume Lample e Timothée Lacroix), ex dipendenti di Google DeepMind e Meta, l’azienda ha raccolto in poco tempo oltre 600 milioni di euro di investimenti. Il loro approccio è pragmatico: creare modelli più piccoli ma estremamente efficienti, ottimizzati per casi d’uso specifici come la programmazione (Codestral) o la matematica (Mathstral).
I test mostrano risultati sorprendenti: Mistral 7B, con i suoi 7 miliardi di parametri, supera modelli molto più grandi su diversi benchmark. Mixtral 8x7B addirittura batte LLaMA 70B e talvolta persino GPT-3.5, dimostrando che la dimensione non è tutto. La vera innovazione sta nell’architettura e nell’efficienza degli algoritmi. È una filosofia che non è diversa da quello che fa, in un altro modo, la cinese DeepSeek.
Intanto, la velocità con cui questi modelli evolvono è impressionante: ogni mese vengono rilasciate nuove versioni con miglioramenti significativi. Siamo testimoni di una vera e propria corsa all’oro dell’AI, dove la competizione aperta sta accelerando l’innovazione a beneficio di tutti gli utenti.
Dalla teoria alla pratica
Utilizzare questi modelli in locale con Ollama è sorprendentemente semplice. Dopo l’installazione, basta un comando per scaricare il modello desiderato:
ollama pull llama2
oppure
ollama pull mistral
Una volta completato il download (che può richiedere alcuni minuti, a seconda della connessione), si può avviare il modello con
ollama run llama2
e iniziare immediatamente a interagire con l’AI attraverso un’interfaccia a riga di comando.
La vera potenza di Ollama emerge quando si inizia a personalizzare i modelli attraverso i Modelfile, dei semplici file di configurazione che permettono di definire il comportamento dell’AI. È possibile regolare parametri come la “temperatura” (che controlla la creatività delle risposte), il contesto (quanti token può considerare) e persino fornire istruzioni specifiche sul tipo di assistente che si desidera creare.
Per esempio, un Modelfile minimal potrebbe essere:
FROM llama3.2
PARAMETER temperature 1
PARAMETER num_ctx 4096
SYSTEM Sei un assistente specializzato in letteratura italiana, esperto di Dante e Petrarca.
Salvando questo file come “Modelfile” e lanciando
ollama create dante -f ./Modelfile
si ottiene un nuovo modello personalizzato che risponderà come un esperto di letteratura italiana. L’intero processo richiede meno di un minuto, da quel momento in avanti avviene tutto in locale, non si spende una lira e si aprono invece possibilità infinite di specializzazione.
Attenzione, siamo sempre dentro la riga di comando, cioè il terminale: non è banale da usare. Non sono app tradizionali. Tuttavia, c’è chi lavora per fare in modo che lo diventino. Per chi preferisce un’interfaccia grafica, infatti, esistono diverse soluzioni di terze parti che si integrano con Ollama, rendendo l’esperienza ancora più accessibile. La comunità attorno a questi strumenti è in rapida crescita, con tutorial, forum e repository GitHub che offrono risorse preziose per principianti ed esperti.
La cosa importante invece è un’altra: dietro al gran rumore che fanno i colossi come OpenAI e Google, c’è molto di più. È più un problema di capire cosa serve. Molte soluzioni estremamente costose, con modelli davvero rivoluzionari ma anche gestiti da altri (nel cloud, oppure attraverso società di consulenza) possono invece essere implementati in maniera non impossibile anche in locale a costo sostanzialmente zero.
È la rivoluzione dell’AI locale, che è appena iniziata, ma promette di ridefinire il nostro rapporto con l’intelligenza artificiale. Non più servizi distanti e opachi, ma strumenti personali, privati e sotto il nostro diretto controllo. Ollama, Llama e Mistral sono solo l’anticamera di un futuro in cui l’AI sarà davvero alla portata di tutti, non solo come utenti passivi ma come sperimentatori attivi. È tempo di portare l’intelligenza artificiale a casa e scoprire cosa può fare veramente quando la liberiamo dalle catene del cloud.
Nelle prossime puntate vedremo altre novità e altre strategie che stanno cercando di indirizzare in maniera differente il mondo dell’intelligenza artificiale.