Server rack con GPU per calcolo di intelligenza artificiale - Qwen3 LLM open source multilingue

Contenuto

Un anno fa Alibaba lanciava Qwen3 e il mondo dell’AI open source non è più stato lo stesso. Ad aprile 2026, con Qwen3.6 appena rilasciato e un ecosistema che ha superato i 40 milioni di download su Hugging Face, il progetto del colosso cinese si è imposto come punto di riferimento per chiunque cerchi un Qwen3 LLM open source multilingue potente senza versare un centesimo a OpenAI, Google o Anthropic. Otto modelli, 235 miliardi di parametri nella variante di punta, 119 lingue supportate e una licenza Apache 2.0 che ti permette di fare quello che vuoi — scaricarlo, modificarlo, costruirci sopra un progetto commerciale — senza chiedere permesso a nessuno.

La domanda ovvia è: perché? Perché un colosso da 200 miliardi di dollari di capitalizzazione regala la tecnologia su cui ha investito centinaia di milioni? La risposta — come sempre quando parliamo di Big Tech, cinese o americana che sia — non è mai semplice generosità. Ma questo non toglie che il risultato, per chi vuole costruire sovranità tecnologica dal basso, sia dannatamente interessante. Apple usa Qwen3 per alimentare Apple Intelligence in Cina. AI Singapore ci ha costruito sopra il proprio modello linguistico per il sudest asiatico. Migliaia di sviluppatori indipendenti lo fanno girare sui propri server, lontano dai tentacoli del cloud di Amazon, Google e Microsoft.

Con la famiglia che si è allargata a Qwen3.5 a febbraio e Qwen3.6 ad aprile 2026, il momento di fare i conti con questo progetto — capirne i meriti reali, i limiti tecnici e le trappole geopolitiche — è adesso. Questa è l’analisi che avresti voluto leggere prima di decidere se fidarti.

235 miliardi di parametri: il LLM open source multilingue di Alibaba

Guardiamo i numeri, perché raccontano la storia meglio di qualsiasi comunicato stampa di Hangzhou. Qwen3 non è un singolo modello: è una famiglia di otto varianti che coprono ogni fascia di utilizzo, dal modellino tascabile da 0,6 miliardi di parametri — quello che girerebbe anche su un Raspberry Pi — al colosso da 235 miliardi pensato per cluster di GPU enterprise. Nel mezzo ci sono modelli densi da 1,7, 4, 8, 14 e 32 miliardi di parametri, più un modello MoE intermedio da 30 miliardi con soli 3 miliardi attivi. La struttura portante dei modelli più grandi è un’architettura Mixture-of-Experts (MoE), e vale la pena capire cosa significa davvero: il modello da 235 miliardi di parametri totali ne attiva solo 22 miliardi per ogni token elaborato, selezionando di volta in volta gli “esperti” interni più adatti al compito specifico. Il rapporto qualità-costo computazionale che ne risulta è qualcosa che i modelli densi tradizionali non possono replicare — ed è il motivo per cui un modello teoricamente enorme può competere con GPT-4o senza richiedere l’intero budget energetico di una piccola città.

I benchmark parlano chiaro, anche se vanno letti con le pinze giuste — come ogni benchmark che si rispetti, del resto. Sull’MMLU, il test enciclopedico per eccellenza, Qwen3-235B segna 87,8% contro l’85,7% di GPT-4o. Con la modalità di ragionamento attivo, il modello di Alibaba raggiunge il 77,5% sul GPQA Diamond — domande graduate in fisica, biologia e chimica che farebbero sudare un dottorando — dove GPT-4o si ferma al 70,1%. Sul coding la storia è altrettanto interessante: Qwen3-235B guida la classifica del CodeForces ELO Rating e del LiveCodeBench v5, due dei benchmark più rispettati per la programmazione competitiva. Non è dominio assoluto, sia chiaro. Gemini 2.5 Pro resta davanti su ArenaHard e AIME, DeepSeek V3 lo supera sul benchmark INCLUDE per compiti multilingue specifici, e su SWE-bench Verified — il test che misura la capacità di risolvere bug reali in codebase — Claude Opus 4.5 mantiene un vantaggio netto con 80,9% contro 78,8%. Ma il nocciolo della questione non è chi vince la medaglia d’oro su ogni singolo test. Il nocciolo è che un modello che puoi scaricare gratuitamente e lanciare sul tuo hardware compete ad armi pari con servizi proprietari che costano decine di dollari al mese e registrano ogni tua query. Questo dato, da solo, dovrebbe togliere il sonno a chi di quei servizi ci campa.

E poi c’è il multilinguismo, che è probabilmente il capitolo più dirompente di tutta l’operazione. Centonove lingue e dialetti — non è un errore di battitura — dal ceppo indo-europeo al sino-tibetano, dall’afro-asiatico all’austronesiano, passando per lingue turche e dravidiche che i laboratori di San Francisco considerano poco più di una nota a piè di pagina nei loro paper. Addestrato su circa 36.000 miliardi di token — esattamente il doppio rispetto a Qwen2.5 — il modello non si limita a tradurre da e verso l’inglese: comprende strutture grammaticali, idiomi culturali e sfumature che i modelli anglofoni tendono ad appiattire in un inglese globalizzato dove tutto suona uguale. L’86,7% su MMMLU — la versione multilingue del benchmark MMLU — e il 73,0% su MultiIF per query in arabo lo confermano con numeri alla mano. Per le centinaia di comunità linguistiche sistematicamente ignorate dai laboratori occidentali, questa copertura non è un dettaglio tecnico: è una questione di esistenza digitale. Un modello che capisce il tagalog, l’urdu o l’amarico non è una curiosità accademica da convegno — è uno strumento che può cambiare radicalmente chi ha accesso all’intelligenza artificiale e chi resta fuori dalla porta.

C’è un’altra caratteristica che merita la tua attenzione: la modalità di pensiero ibrida. Qwen3 può alternare tra due modalità operative — una “thinking” per compiti che richiedono ragionamento profondo come matematica, analisi complessa e generazione di codice, e una modalità rapida per risposte immediate e conversazioni leggere. La prima consuma più risorse ma produce risultati significativamente migliori sui compiti difficili; la seconda è snella e veloce. La differenza rispetto ai servizi cloud è sostanziale: sei tu a decidere quando attivare il ragionamento esteso e quando no, senza che un provider ti addebiti token extra per il privilegio di pensare più a lungo. Finché gira sul tuo hardware, la decisione su come allocare le risorse computazionali è esclusivamente tua — un concetto quasi alieno nel mondo dei servizi cloud dove paghi per token e il provider decide tutto il resto.

L’ecosistema non si è fermato un giorno dal lancio. A febbraio 2026 è arrivato Qwen3.5, un MoE da 397 miliardi di parametri con 17 miliardi attivi e capacità multimodali che il Qwen3 originale non aveva. Ad aprile 2026, Qwen3.6 ha portato miglioramenti nel coding agentico — e qui la nota dolente: Qwen3.6-Plus è uscito come modello proprietario, accessibile esclusivamente tramite il cloud di Alibaba. La versione open source da 35 miliardi di parametri, la Qwen3.6-35B-A3B, resta sotto Apache 2.0, ma il segnale è impossibile da ignorare. Alibaba sta testando i confini tra apertura e cattura dell’utente, la stessa partita che ogni azienda tech gioca dal giorno in cui ha scoperto che il codice libero può diventare un’arma commerciale. La finestra della generosità non resterà aperta per sempre, e chi vuole approfittarne farebbe bene a muoversi adesso.

Self-hosting: la sovranità tecnologica tra hardware e illusione

Dire “puoi scaricarlo gratis” è tecnicamente corretto. Nessuno mente. Ma tra scaricare un modello da Hugging Face e farlo girare in modo utile sulla tua infrastruttura c’è un abisso fatto di GPU, watt e sistemi di raffreddamento — e questo abisso racconta parecchio sulla distanza tra la promessa dell’open source e la realtà materiale della sovranità digitale.

Partiamo dal modello di punta, perché è quello che genera più confusione. Il Qwen3-235B-A22B, nonostante attivi solo 22 miliardi di parametri per token, richiede di caricare in memoria l’intero set dei 235 miliardi di pesi. Non farti ingannare dal numero “22B attivi” nei materiali promozionali — si riferisce alle operazioni per singolo token, non allo spazio in memoria. In precisione piena FP16 servono circa 470 GB di VRAM. Con quantizzazione aggressiva Q4, comunque almeno 115-117 GB. Tradotto in hardware concreto: cinque schede RTX 3090 con 24 GB ciascuna, tre L40 o A40 da 48 GB, oppure configurazioni server con due H100 che anche a 160 GB totali non bastano per la versione FP8 da 235 GB. Aggiungi schede madri server con slot PCIe sufficienti, alimentatori da 1.500 watt e raffreddamento industriale, e stai parlando di un investimento tra i 5.000 e i 30.000 euro a seconda della configurazione. Roba da piccola azienda o da laboratorio universitario con budget dedicato, non da studio di casa.

La storia cambia radicalmente con i modelli più piccoli, ed è qui che l’open source smette di essere un concetto astratto e diventa qualcosa di tangibile. Il Qwen3-4B — quattro miliardi di parametri, gira su un laptop con 8 GB di RAM — raggiunge in diversi benchmark le prestazioni del Qwen2.5-72B-Instruct, un modello diciotto volte più grande della generazione precedente. Fermati un momento a pensarci: le prestazioni che un anno fa richiedevano 72 miliardi di parametri oggi le ottieni con 4 miliardi, su hardware che costa qualche centinaio di euro. Il Qwen3-30B-A3B, con appena 3 miliardi di parametri attivi grazie all’architettura MoE, supera QwQ-32B che ne attiva dieci volte tanti. Per la maggior parte degli utilizzi quotidiani — scrittura, analisi testuale, traduzione tra decine di lingue, coding di routine, interrogazione di documenti — questi modelli bastano e avanzano, e girano su hardware che puoi trovare usato su qualsiasi marketplace per cifre ridicole.

Gli strumenti per il self-hosting sono maturi come non lo sono mai stati nell’ecosistema open source. Ollama ti permette di lanciare un modello con un singolo comando da terminale — ollama run qwen3:8b — e sei operativo in meno di cinque minuti senza configurare nulla. vLLM e SGLang offrono server di inferenza ad alte prestazioni per chi vuole esporre API locali a un piccolo team o a un’organizzazione. llama.cpp resta l’opzione più flessibile per hardware eterogeneo, con un supporto CPU+GPU ibrido che permette configurazioni creative: 24 GB di VRAM più 96 GB di RAM DDR5 per far girare anche il modello da 235B quantizzato su un sistema da gaming. I formati di quantizzazione GGUF, AWQ e AutoGPTQ riducono i requisiti di memoria con sacrifici minimi in qualità. La comunità che ruota attorno a questi strumenti è enorme, attiva e generosa — produce guide, ottimizzazioni e benchmark ogni giorno senza chiedere nulla in cambio.

Ma il punto politico — quello che conta davvero quando parli di tecnologia e potere — è un altro. L’abbiamo già scritto analizzando il caso GLM-5: la libertà del codice non equivale automaticamente alla libertà computazionale. Se per sfruttare seriamente il modello da 235 miliardi di parametri devi comunque dipendere da un cluster cloud di Amazon, Google, Microsoft o dello stesso Alibaba, la sovranità tecnologica resta uno slogan su un adesivo. La vera indipendenza digitale si gioca sui modelli piccoli e medi, quelli che girano su hardware che controlli tu, nella tua rete, senza rendere conto a nessuno. Un Qwen3-8B installato su un mini-PC da 500 euro in un centro sociale, in una redazione indipendente, nel server improvvisato di un ricercatore precario — quella è la rivoluzione silenziosa che nessun comunicato stampa di Alibaba celebrerà mai. Giornalisti in paesi dove la stampa è sotto assedio possono analizzare documenti riservati senza che un’API remota registri le loro query. Attivisti traducono materiale sensibile in decine di lingue senza che un server dall’altra parte del mondo archivi cosa stanno facendo e per chi. Per questi casi d’uso — più numerosi e più importanti di quanto la Silicon Valley voglia ammettere, perché non generano ricavi — un LLM locale non è un lusso da nerd con troppo tempo libero. È un’infrastruttura di resistenza.

Il gioco geopolitico dietro la licenza Apache

Alibaba non è un ente di beneficenza. È il braccio tecnologico di una delle economie più rigidamente controllate del pianeta, un’azienda che ha visto il proprio fondatore Jack Ma sparire dalla circolazione per mesi dopo aver osato criticare i regolatori finanziari cinesi nel 2020. Tenere a mente questo contesto quando valuti il loro software non è sinofobia — è igiene intellettuale minima per chiunque debba decidere quale codice far girare sulla propria infrastruttura.

La strategia open source di Alibaba risponde a logiche precise che non hanno nulla a che fare con l’idealismo del software libero. È prima di tutto uno strumento geopolitico: la U.S.-China Economic and Security Review Commission ha documentato come i modelli aperti cinesi siano stati “critici nella capacità della Cina di superare le limitazioni nel calcolo” imposte dalle restrizioni americane sull’export di chip avanzati. È economia dell’ecosistema pura e semplice: più sviluppatori costruiscono su Qwen, più crescono gli utenti del cloud Alibaba, più si vende infrastruttura — data center che il gruppo sta moltiplicando a ritmo forsennato in Brasile, Francia, Paesi Bassi, Giappone, Corea del Sud e Emirati Arabi. E infine è pressione competitiva: regalare ciò che OpenAI vende a caro prezzo erode il modello di business dei rivali americani. La stessa strategia che Google usò con Android contro l’iPhone. E sappiamo bene come è andata a finire per il concetto di “apertura” in quella storia: il codice era aperto, ma il controllo restava fermamente nelle mani di Mountain View.

Sul tema della censura, la realtà è considerevolmente più sfumata di quanto raccontino i catastrofisti da un lato e gli ingenui dall’altro. Ricerche indipendenti condotte tramite piattaforme come SpeechMap.ai hanno dimostrato che i modelli Qwen, quando scaricati e lanciati in locale nella loro forma grezza, non mostrano praticamente nessuna censura sulla maggior parte degli argomenti. Paradossalmente, si sono rivelati più permissivi di diversi modelli americani su temi di politica statunitense — un dato che dovrebbe far riflettere chi associa automaticamente “cinese” a “censurato”. La censura emerge nel layer cloud: sulla piattaforma di Alibaba, sistemi di filtraggio come Qwen3Guard bloccano contenuti politicamente sensibili per il governo di Pechino, dal massacro di piazza Tienanmen alla questione di Taiwan, fino ad assurdità kafkiane come il blocco della frase “il 4 giugno è il Corpus Christi in Polonia” solo perché contiene una data tabù. Il problema è reale e documentato. Ma la morale da trarne non è “non usare modelli cinesi”. La morale è: non affidarti a nessun cloud che non controlli. Un LLM su server OpenAI è soggetto ai filtri di OpenAI, che riflettono le sensibilità politiche e commerciali della California. Un LLM sulla piattaforma di Alibaba è soggetto ai filtri del Partito Comunista Cinese. Lo stesso identico modello sul tuo server risponde solo a te. La libertà non sta nel codice — sta nell’infrastruttura su cui lo fai girare.

C’è poi la questione dell’adozione nelle aziende occidentali, che racconta molto sulla miopia della geopolitica applicata alla tecnologia. Come ha documentato Nathan Lambert su Interconnects, molte meno aziende del previsto costruiscono prodotti su modelli cinesi open source — non per limitazioni tecniche, ma per la paura diffusa di un'”influenza indiretta dei valori cinesi sui sistemi aziendali occidentali”. Alcune preoccupazioni sono fondate: il codice generato da un LLM potrebbe teoricamente contenere vulnerabilità, un rischio operativo concreto quando un modello esegue codice direttamente sulla tua infrastruttura di produzione. Ma altre preoccupazioni sono puro teatro, e non serve un dottorato per vederlo: le stesse aziende che rifiutano Qwen per motivi di “sicurezza nazionale” affidano ogni singolo byte dei loro dati a tre hyperscaler americani soggetti al CLOUD Act e alla giurisdizione dell’NSA senza battere ciglio. Diffidare di Alibaba mentre consegni le chiavi di casa ad Amazon è un livello di incoerenza che andrebbe studiato nei dipartimenti di scienze cognitive.

Il caso più emblematico dell’ipocrisia strutturale che avvolge questa vicenda resta Apple. A Cupertino hanno scelto Qwen3 come base per Apple Intelligence in Cina, con i dati degli utenti elaborati e conservati nei data center di Alibaba sul suolo cinese. Apple — sì, proprio quella che ti vende la privacy come feature premium nelle pubblicità patinate con la musica indie — ha accettato senza troppi drammi che centinaia di milioni di conversazioni private passino attraverso l’infrastruttura di un’azienda sottoposta alle leggi di sicurezza nazionale di Pechino. Quelle stesse leggi che obbligano qualsiasi azienda cinese a fornire dati al governo su richiesta, senza mandato, senza preavviso. Se cerchi un esempio più limpido di quanto la “privacy” sia un concetto a geometria variabile nel capitalismo delle piattaforme, auguri — probabilmente non lo trovi.

Qwen3 non è il salvatore dell’umanità digitale e Alibaba non è il Robin Hood dell’intelligenza artificiale. Chiunque ti racconti il contrario sta cercando di venderti qualcosa — probabilmente servizi cloud con uno sconto di lancio che sparirà tra sei mesi.

Ma il codice è lì, sotto Apache 2.0, e quello che ci fai dopo averlo scaricato dipende esclusivamente da te. La vera domanda non è mai stata “è un modello cinese o americano?” — quella è una domanda che serve solo a chi vuole venderti la versione patriottica di un prodotto equivalente. La vera domanda è: chi lo controlla? Se gira su un server di Alibaba, lo controlla Alibaba. Se gira su AWS, lo controlla Amazon. Se gira sulla tua macchina, nella tua rete, con i tuoi dati — allora sì, forse, stai iniziando a costruire sovranità tecnologica per davvero. Non quella degli stati e delle corporation, ma quella delle comunità, dei collettivi, delle persone che si rifiutano di chiedere il permesso per pensare.

L’open source è uno strumento, non un’ideologia. E come ogni strumento, conta solo chi lo impugna e per fare cosa.