Ogni volta che scrivi un prompt su ChatGPT, Claude o Gemini, i tuoi dati attraversano server che non controlli, finiscono in database che non puoi ispezionare, alimentano modelli che non ti appartengono. Non è paranoia — è il modello di business. Quando Feroot Security ha scoperto che DeepSeek trasmetteva dati degli utenti a CMPassport.com, infrastruttura legata a China Mobile e quindi al governo cinese, la sorpresa è stata solo di facciata: keystroke pattern, indirizzi IP, attività di altre app, tutto registrato e spedito oltre la Grande Muraglia. L’Italia l’ha bannato in meno di 72 ore, tredici giurisdizioni europee hanno aperto indagini, ma il nocciolo della questione non è DeepSeek in sé — è che ogni servizio cloud AI funziona con la stessa logica di estrazione, solo con giurisdizioni diverse e termini di servizio più furbi.
La buona notizia è che nel 2026 far girare un LLM in locale sul tuo computer non richiede più hardware da laboratorio o competenze da ingegnere dei dati. Ollama è arrivato alla versione 0.20.2 con il supporto a Gemma 4, Llama 4, Qwen 3.5 e persino GPT-OSS — il primo modello open weight di OpenAI dai tempi di GPT-2. LM Studio offre un’interfaccia grafica completa per chi preferisce non toccare il terminale, mentre vLLM gestisce carichi di lavoro da produzione con throughput che il singolo utente nemmeno immagina. Questa è la tua guida pratica a Ollama e agli LLM in locale: dall’hardware necessario (meno di quanto pensi) alla scelta del modello, fino al primo prompt che gira interamente sulla tua macchina. Zero dati trasmessi, zero profilazione, zero intermediari. Perché i tuoi dati sono tuoi — e riprenderseli è diventato dannatamente semplice.
Perché un LLM locale cambia tutto
Facciamo un passo indietro e guardiamo la situazione per quella che è. Quando usi un servizio AI in cloud — qualsiasi servizio, non solo i soliti noti — ogni prompt viene trasmesso a server remoti, processato e nella maggior parte dei casi archiviato. Le policy sulla privacy dicono che i tuoi dati servono a «migliorare il servizio», formula elegante per dire che alimentano il prossimo ciclo di addestramento. OpenAI conserva i dati delle conversazioni per 30 giorni anche dopo la cancellazione dell’account; Google allega le interazioni con Gemini al tuo profilo pubblicitario; Meta usa i post di Instagram per addestrare Llama e ti chiede di fare opt-out — non opt-in, come vorrebbe il GDPR — attraverso un modulo nascosto in fondo alle impostazioni. Il caso DeepSeek ha reso esplicito quello che era già ovvio: il modello cloud AI è strutturalmente incompatibile con la privacy, perché la privacy non genera profitto.
Il GDPR dovrebbe proteggere i cittadini europei, e in teoria lo fa, ma la pratica racconta un’altra storia. Il Garante per la Privacy italiano ha bloccato ChatGPT nel 2023 per mancanza di base giuridica nel trattamento dei dati, una decisione poi rientrata dopo che OpenAI ha promesso modifiche cosmetiche all’informativa. L’European Data Protection Board ha pubblicato un report sui rischi privacy degli LLM che identifica vulnerabilità in ogni fase del ciclo — dall’addestramento all’inferenza — ma le sanzioni concrete rimangono rare e le multe irrisorie rispetto ai fatturati di queste aziende. Con la Legge 132/2025 l’Italia ha introdotto l’obbligo per i professionisti di dichiarare l’uso di AI ai clienti, il che aggiunge un ulteriore livello di complessità normativa per chiunque usi servizi cloud. Detto senza mezzi termini: se affidi i tuoi dati sensibili a un LLM cloud, stai scommettendo sulla buona fede di aziende che fatturano miliardi vendendo attenzione e informazioni. Un LLM locale elimina il problema alla radice. I dati non escono mai dalla tua macchina. Nessun prompt trasmesso, nessun log su server remoti, nessuna retention policy da interpretare. È privacy by design nel senso più letterale del termine.
C’è poi la questione economica, che non va sottovalutata. Le API di GPT-4o costano circa 2.250 dollari al mese per 50.000 richieste giornaliere — un volume che raggiunge chiunque integri l’AI in un flusso di lavoro professionale. Un setup locale con una RTX 4090 da 24 GB di VRAM costa intorno ai 1.500-2.000 euro una tantum, più qualche decina di euro al mese di corrente. Il punto di pareggio, se spendi anche solo 100 euro al mese in API, arriva in meno di due anni; con consumi più alti il ritorno è questione di mesi. Vitalik Buterin — sì, quello di Ethereum — ha documentato il suo setup locale ad aprile 2026: un laptop con RTX 5090 che fa girare Qwen 3.5 35B a 90 token al secondo, e un AMD Ryzen AI Max Pro con 128 GB di memoria unificata come seconda macchina. La sua soglia personale? «Qualsiasi cosa sotto i 50 token al secondo è troppo lenta per essere utilizzabile.» Oggi l’hardware consumer supera abbondantemente quel limite per i modelli da 7-14 miliardi di parametri, che bastano per la stragrande maggioranza dei casi d’uso reali.
Il vero punto, quello che nessun confronto di benchmark cattura, è la sovranità tecnologica. Un LLM locale non dipende dai capricci di un’azienda che può cambiare i termini di servizio domani, aumentare i prezzi il mese prossimo, o decidere di censurare certi argomenti perché un governo o un inserzionista lo richiede. Non è soggetto a blocchi geopolitici — l’AI locale è un’arma di autonomia, non di consumo. Se domani Meta decide che Llama non può essere usato in certi paesi, i pesi del modello sono già sul tuo disco. Se OpenAI chiude le API gratuite, il tuo Ollama continua a funzionare come se niente fosse. È la differenza tra affittare una casa e possederla: nel primo caso le regole le fa il padrone di casa, nel secondo le fai tu.
Cosa ti serve: hardware, modelli e quanto costa davvero
Partiamo dalla domanda che tutti si fanno: quanta VRAM mi serve? La risposta dipende dal modello, ma la regola empirica è semplice — moltiplica i miliardi di parametri per 0,5 e ottieni i gigabyte di VRAM necessari con quantizzazione Q4_K_M, il formato più diffuso che offre un compromesso eccellente tra qualità e consumo di memoria. Un modello da 8 miliardi di parametri come Llama 3.1 8B in Q4 occupa circa 6,2 GB di VRAM; un Qwen 3 da 14 miliardi ne vuole 10,7; salendo a 32 miliardi — come il Qwen 3 32B, che in questo momento è probabilmente il miglior modello open source per rapporto qualità-versatilità — servono circa 22 GB. Non è poco, ma non è nemmeno il budget di un dipartimento universitario. Una RTX 4060 da 8 GB si trova a 250-300 euro e fa girare modelli da 7-9 miliardi a oltre 40 token al secondo, una velocità di generazione perfettamente fluida per l’uso interattivo. Chi vuole qualcosa di più serio guarda alla RTX 4090 con 24 GB — il punto dolce per modelli fino a 30 miliardi di parametri, con circa 128 token al secondo sui modelli 8B — oppure alla nuova RTX 5090 con 32 GB che sposta l’asticella ancora più in alto, fino a 213 token al secondo.
Se sei nel mondo Apple, la faccenda è diversa e per certi versi più interessante. I chip M3, M4 e M5 con memoria unificata condividono la RAM tra CPU e GPU, il che significa che un MacBook Pro con 32 GB può caricare modelli che su PC richiederebbero una GPU dedicata costosa. La velocità è inferiore rispetto a una NVIDIA di fascia alta — parliamo di 12-15 token al secondo per un modello da 70 miliardi su un M4 Max con 128 GB — ma Ollama dalla versione 0.19.0 integra il framework MLX di Apple, e i risultati si vedono eccome: su Qwen 3.5 35B il prefill è passato da 1.154 a 1.810 token al secondo, il decode da 58 a 112. Quasi il doppio. E chi ha solo la CPU, senza GPU dedicata? Si può fare, ma aspettati 3-6 token al secondo — utilizzabile per task batch o generazione non interattiva, frustrante per una conversazione. LM Studio, che vedremo tra poco, usa Vulkan per sfruttare anche le GPU integrate Intel e AMD, e in certi casi batte Ollama su macchine senza scheda dedicata. Come RAM di sistema, la regola è altrettanto semplice: 16 GB per modelli da 7B, 32 GB per modelli da 13-30B, 64 GB se vuoi avventurarti nel territorio dei 70 miliardi.
Quanto ai modelli, il panorama del 2026 è esploso rispetto a un anno fa — su HuggingFace ci sono oltre 135.000 modelli in formato GGUF, contro i 200 di tre anni fa. Per iniziare, il consiglio è brutalmente semplice: se hai 8 GB di VRAM, scarica Qwen 3.5 7B o Llama 3.1 8B in Q4_K_M. Sono modelli generalisti solidi, veloci, capaci di scrivere codice, rispondere a domande complesse e assistere nella scrittura. Con 16-24 GB di VRAM il mondo si apre: il Qwen 3 32B è considerato il miglior modello open source general-purpose del momento, con un punteggio MMLU dell’83,6% e l’88% su HumanEval per la generazione di codice, il tutto sotto licenza Apache 2.0. Chi vuole provare i modelli Mixture-of-Experts — architetture con molti parametri totali ma pochi attivi per ogni token, quindi più leggere di quanto sembrano — può guardare a Llama 4 Scout (109 miliardi totali ma solo 17 attivi, multimodale, gira su singola GPU da 24 GB in quantizzato), Mistral Small 4 (119 miliardi totali ma 6,5 attivi, il 40% più veloce del predecessore) o la new entry GPT-OSS di OpenAI, il primo modello open weight dell’azienda dai tempi di GPT-2, disponibile nelle versioni da 20 e 120 miliardi — anche OpenAI ha dovuto cedere alla pressione dell’open source. La versione da 20B gira su 16 GB di RAM.
Una nota sulla quantizzazione, per chi non ha familiarità con il termine: è il processo che riduce la precisione numerica dei pesi del modello per risparmiare memoria, un po’ come comprimere un’immagine da RAW a JPEG — perdi qualcosa, ma nella maggior parte dei casi non te ne accorgi. Il formato Q4_K_M è lo standard de facto: riduce la VRAM necessaria del 75% rispetto al formato originale FP16 con una perdita di qualità quasi impercettibile. Q5_K_M usa circa il 15-20% di VRAM in più per un miglioramento marginale; Q8 raddoppia il consumo per un guadagno minimo; Q3_K_M risparmia ancora più memoria ma la degradazione qualitativa comincia a sentirsi sulle risposte più articolate. Se non sai cosa scegliere, scegli Q4_K_M e non pensarci più — è il consiglio che danno tutti, dagli sviluppatori di llama.cpp ai power user su Reddit, ed è il consiglio giusto.
Ollama, LM Studio e vLLM: guida pratica da zero al primo prompt
Ollama è il punto di partenza per la maggioranza degli utenti, e con buone ragioni. È open source (licenza MIT), funziona su Linux, macOS e Windows, si installa con un singolo comando e espone un’API compatibile con OpenAI — il che significa che qualsiasi applicazione progettata per GPT-4 può parlare con il tuo modello locale cambiando una riga di configurazione. Su Linux l’installazione è una riga di terminale: curl -fsSL https://ollama.com/install.sh | sh. Su macOS scarichi l’app dal sito, su Windows l’installer fa tutto da solo. Una volta installato, scaricare e avviare un modello è altrettanto immediato: ollama pull qwen3.5:7b scarica il modello, ollama run qwen3.5:7b lo avvia e ti ritrovi con un prompt interattivo nel terminale. Fine. Il modello gira, le tue domande restano sulla tua macchina, e il mondo esterno non ne sa niente. La versione 0.20.0 di aprile ha aggiunto il supporto completo a Gemma 4 di Google in tutte le varianti — e con l’integrazione in GitHub Copilot per VS Code puoi usare qualsiasi modello locale come assistente di codifica direttamente nel tuo editor. Gratis, senza abbonamento, senza dati che volano verso i server di Microsoft. Ollama ha superato i 52 milioni di download mensili nel primo trimestre 2026: non è più un progetto di nicchia, è infrastruttura.
Se il terminale non fa per te, LM Studio è l’alternativa con interfaccia grafica. Scarichi l’applicazione, sfoglio il catalogo di modelli integrato — che pesca direttamente da HuggingFace — e con un clic il modello si scarica e si avvia. La versione 0.4.0 rilasciata a gennaio 2026 ha portato miglioramenti sostanziali: richieste parallele con continuous batching (prima le richieste si accodavano una dietro l’altra), un’API REST stateful che mantiene il contesto delle conversazioni, e una modalità headless chiamata llmster che trasforma LM Studio in un server senza interfaccia grafica — perfetto per installazioni su macchine remote. Il vantaggio specifico di LM Studio è il supporto Vulkan per le GPU integrate: su macchine senza scheda video dedicata spesso supera Ollama in prestazioni, e supporta sia il formato GGUF che Safetensors (Ollama gestisce solo GGUF). Con LM Link puoi persino connetterti a un’istanza remota di LM Studio con crittografia end-to-end via Tailscale. Lo svantaggio? Non è open source. Il che, per chi tiene alla libertà del software, è un compromesso non banale — stai usando uno strumento proprietario per far girare modelli liberi, un’ironia che non sfugge a nessuno nella comunità. Il codice è chiuso, le decisioni sullo sviluppo sono opache, e domani potrebbero cambiare licenza o introdurre un modello freemium. Usa LM Studio se ti serve, ma sappi cosa stai accettando.
Poi c’è vLLM, e qui si cambia registro completamente. Se Ollama è pensato per l’utente singolo che vuole un LLM sulla scrivania, vLLM è un motore di inferenza da produzione progettato per servire decine o centinaia di utenti contemporaneamente. La tecnologia chiave si chiama PagedAttention e riduce la frammentazione della memoria del 50%, aumentando il throughput di 2-4 volte rispetto agli approcci tradizionali. I numeri sono impietosi: su GPU H100, vLLM raggiunge picchi di 793 token al secondo contro i 41 di Ollama, con una latenza P99 di 80 millisecondi contro 673. Non ha interfaccia grafica, non ha la semplicità di ollama run, richiede familiarità con Python e ambienti CUDA — ma se stai mettendo in piedi un servizio AI per un’organizzazione, un collettivo, un gruppo di lavoro che vuole sovranità tecnologica reale, vLLM è lo strumento giusto. La versione 0.19.0 di aprile 2026 porta un Model Runner V2 riscritto da zero, con CUDA graphs per il pipeline parallelism e scaricamento della KV cache su CPU — funzionalità che al singolo utente dicono poco, ma che per un deployment multi-utente fanno la differenza tra un servizio che regge il carico e uno che crolla. vLLM è anche il backend scelto da Docker per il suo Model Runner integrato in Docker Desktop 4.40+, il che la dice lunga sulla sua maturità.
Un ultimo tassello: l’interfaccia. Ollama da terminale è potente ma spartano, e non tutti vogliono digitare comandi per fare una domanda. Open WebUI è la risposta: un’applicazione web open source che si collega a Ollama e offre un’esperienza identica a ChatGPT — conversazioni multiple, upload di documenti, ricerca nel web — ma interamente locale. Si installa con Docker in un singolo comando e non trasmette nulla all’esterno. Per chi scrive codice, Continue e Cline sono estensioni per VS Code che si collegano a Ollama e funzionano come Copilot, ma senza mandare il tuo codice sorgente a nessun server. L’ecosistema intorno ai LLM locali è maturo, diversificato, e in crescita esponenziale. Non ci sono più scuse per delegare i tuoi dati a qualcun altro.
Domande frequenti
Quanta RAM e VRAM servono per far girare un LLM in locale?
Dipende dal modello che vuoi usare. Per modelli da 7-8 miliardi di parametri come Llama 3.1 8B o Qwen 3.5 7B servono almeno 8 GB di VRAM e 16 GB di RAM di sistema. Per modelli da 13-14 miliardi servono 12 GB di VRAM e 32 GB di RAM. Per i modelli da 30-32 miliardi — come il Qwen 3 32B — servono circa 22-24 GB di VRAM. La quantizzazione Q4_K_M riduce il consumo di memoria del 75% rispetto al formato originale ed è il formato consigliato per l’uso locale su hardware consumer.
Quale modello scegliere per iniziare con Ollama?
Con 8 GB di VRAM, Qwen 3.5 7B o Llama 3.1 8B in formato Q4_K_M sono i migliori punti di partenza: veloci, versatili e capaci di gestire conversazioni, scrittura e generazione di codice. Con 24 GB di VRAM, il Qwen 3 32B offre prestazioni eccellenti su praticamente tutti i task. Per chi cerca modelli leggeri ma sorprendentemente capaci, Mistral Small 4 usa solo 6,5 miliardi di parametri attivi su 119 totali grazie all’architettura Mixture-of-Experts.
Posso usare un LLM locale su un portatile senza GPU dedicata?
Sì, ma con limitazioni importanti. Senza GPU dedicata, i modelli girano sulla CPU a 3-6 token al secondo — utilizzabile per generazione batch ma frustrante per una conversazione interattiva. I Mac con chip Apple Silicon (M1 e successivi) sono un’eccezione: grazie alla memoria unificata, un MacBook Pro con 32 GB può far girare modelli da 14 miliardi di parametri a velocità accettabili. Su PC, LM Studio sfrutta Vulkan per le GPU integrate Intel e AMD, offrendo spesso prestazioni migliori di Ollama su queste configurazioni.
I modelli locali sono sicuri quanto quelli cloud?
La sicurezza ha due facce. Per la privacy, i modelli locali sono nettamente superiori: nessun dato lascia la macchina, nessun prompt viene registrato su server esterni, nessun rischio di data breach da parte del provider. Per la sicurezza del codice generato, la questione è più sfumata: ricerche recenti mostrano che i modelli più piccoli sono più vulnerabili ad attacchi adversariali che inducono la generazione di codice malevolo. Il consiglio è di trattare il codice generato da qualsiasi LLM — locale o cloud — con la stessa cautela con cui tratteresti codice da uno sconosciuto su internet: revisiona sempre prima di eseguire.
Ollama funziona offline, senza connessione internet?
Sì, completamente. Una volta scaricato il modello (operazione che richiede connessione internet), Ollama funziona in modo totalmente offline. L’inferenza avviene interamente sulla macchina locale senza contattare server esterni. Questo lo rende ideale per ambienti air-gapped, reti riservate, o qualsiasi situazione in cui la connessione non è disponibile o non è desiderata per motivi di sicurezza.
Far girare un LLM in locale nel 2026 non è un vezzo da smanettoni o un esercizio di paranoia. È una scelta concreta di autonomia — dai tuoi dati, dalle piattaforme, dalle logiche di profitto che trasformano ogni tua domanda in merce. L’hardware costa meno di un anno di abbonamento premium a qualsiasi servizio cloud, i modelli open source hanno raggiunto una qualità che due anni fa era riservata ai laboratori dei miliardari, e strumenti come Ollama hanno demolito ogni barriera tecnica all’ingresso. La lentezza dell’AI cloud non è un limite tecnico, è un modello di business — e tu oggi hai gli strumenti per uscirne. Apri il terminale, scarica un modello, e smetti di chiedere il permesso per usare la tecnologia.
