Due giorni fa, Moonshot AI ha piazzato un colpo che Silicon Valley farà finta di non aver sentito. Il Kimi K2.6, ultima creatura della startup pechinese, ha battuto GPT-5.4 di OpenAI su SWE-Bench Pro — il benchmark che conta per chi scrive codice sul serio — con un 58,6 contro 57,7. Claude Opus 4.6 di Anthropic? Fermo a 53,4. Gemini 3.1 Pro arranca a 54,2. E i pesi del modello sono su Hugging Face, scaricabili da chiunque, sotto una licenza MIT modificata. Uscito da Pechino, non da San Francisco. Pesi aperti, non API a consumo.
Per capire il significato di questo rilascio serve tornare a gennaio, quando Moonshot pubblicò Kimi K2.5 — un modello da mille miliardi di parametri, architettura Mixture-of-Experts, capace di orchestrare cento sotto-agenti in parallelo per risolvere problemi software complessi. Non era solo un buon LLM di coding: era una dichiarazione di guerra al duopolio OpenAI-Anthropic, firmata da una startup valutata 18 miliardi di dollari e finanziata da Alibaba e Tencent. Il codice è aperto, i pesi scaricabili, la licenza formalmente permissiva — ma dietro quel codice ci sono due dei più grandi apparati di sorveglianza commerciale del pianeta. Kimi K2.5 ha aperto una breccia nella guerra tra LLM open source e modelli chiusi. K2.6 la sta allargando. E nel mezzo c’è una controversia che riguarda Cursor, una licenza che di MIT ha solo il nome, e una domanda scomoda: l’open source dalla Cina è davvero libertà, o è un’altra forma di dipendenza?
Mille miliardi di parametri e una licenza che non è ciò che sembra
L’architettura di Kimi K2.5 è il motivo per cui ne parliamo ancora tre mesi dopo il rilascio, e merita che ci si soffermi. Un trilione di parametri totali, 61 layer, di cui solo 32 miliardi attivi per ogni token generato — il meccanismo del Mixture-of-Experts, dove 384 esperti specializzati si dividono il lavoro e un routing sparse attiva appena il 3,2% della rete a ogni passaggio. L’analogia più onesta è quella di un’enorme redazione giornalistica: hai 384 specialisti, ma per ogni articolo ne servono solo una dozzina, il resto aspetta il proprio turno. Pre-addestrato su 15,5 trilioni di token — un mix di testo, immagini e video — con un encoder visivo dedicato da 400 milioni di parametri chiamato MoonViT, il K2.5 non è il solito LLM testuale: è un modello nativo multimodale che vede, legge e ragiona su input diversi nello stesso spazio di embedding. L’ottimizzatore MuonClip, sviluppato internamente, ha permesso un addestramento stabile a scala di trilione senza i crolli di gradiente che a quella dimensione sono la norma piuttosto che l’eccezione.
I numeri parlano da soli: 76,8% su SWE-Bench Verified, finestra di contesto da 256.000 token, e la capacità di coordinare fino a 100 sotto-agenti autonomi per 1.500 passi consecutivi. Tradotto per chi non mastica benchmark tutti i giorni: gli assegni un progetto software complesso, lui lo scompone in sotto-task, delega ogni pezzo a un agente specializzato, coordina il lavoro parallelo e ti restituisce codice funzionante. Sei mesi fa, capacità di questo tipo erano fantascienza anche per i modelli proprietari da centinaia di dollari al mese. Un anno fa non esistevano nemmeno nei paper di ricerca. Kimi K2.5 le ha piazzate su Hugging Face con un click di download — e questo ha cambiato le carte in tavola per l’intero settore del coding AI.
Poi c’è la licenza, e qui la narrazione “open source eroico dalla Cina” si complica parecchio. Moonshot ha scelto una MIT “modificata” che, a leggere bene le clausole, di MIT ha poco più del nome. Se il tuo prodotto supera 100 milioni di utenti attivi mensili o 20 milioni di dollari di ricavi mensili, sei obbligato a mostrare il marchio “Kimi” nell’interfaccia utente, ben visibile. Non è una clausola copyleft classica, non è una restrizione sulla modifica del codice: è un obbligo di branding che trasforma la licenza in uno strumento di marketing planetario per Moonshot. Detto senza mezzi termini, per il 99% degli sviluppatori funziona come una MIT standard — scarichi, modifichi, usi commercialmente, nessuno ti chiede nulla. Ma per le aziende che generano miliardi, per quelle che costruiscono il futuro del coding AI sui pesi di Kimi, è un laccio contrattuale mascherato da permissività. Chi ha parlato per anni di copyleft e sovranità tecnologica sa benissimo che i dettagli delle licenze contano più delle dichiarazioni d’intenti.
Il caso Cursor ha reso tutto questo molto concreto e molto pubblico. A marzo, l’app di coding AI più popolare tra gli sviluppatori ha lanciato Composer 2 presentandolo come un modello “auto-sviluppato”, frutto di un “primo ciclo di continued pretraining” proprietario. Peccato che nel giro di ventiquattr’ore uno sviluppatore abbia scovato l’ID del modello nelle configurazioni API: kimi-k2p5-rl-0317-s515-fast — letteralmente “Kimi 2.5 più reinforcement learning”, scritto nel nome del file come un’etichetta al supermercato. Elon Musk, con il tempismo impeccabile di chi fiuta lo scandalo utile, ha commentato: “Sì, è Kimi 2.5.” Il team di Cursor ha poi ammesso che circa un quarto del compute proveniva dalla base Kimi K2.5, acceduto legalmente tramite Fireworks AI, e che non citarlo nel post di lancio era stato “un errore”. La controversia si è chiusa con dichiarazioni concilianti, ma la lezione era cristallina: l’ecosistema open source cinese era diventato il fondamento invisibile su cui aziende americane costruivano prodotti a pagamento senza dare credito. Non è uno schema nuovo — è la stessa dinamica che il software libero combatte da trent’anni, con attori diversi e una posta in gioco enormemente più alta.
K2.6 e il coding autonomo che dura dodici ore
Il 20 aprile — tre giorni fa mentre scrivo — Moonshot ha rilasciato il K2.6, e i numeri raccontano un salto netto rispetto al predecessore che era già impressionante. Su SWE-Bench Pro, il benchmark che misura la capacità di risolvere problemi software reali in repository GitHub, il K2.6 segna 58,6 — davanti a GPT-5.4 di OpenAI (57,7), Claude Opus 4.6 di Anthropic (53,4), Gemini 3.1 Pro (54,2) e al K2.5 stesso, fermo a 50,7. Su SWE-Bench Verified il punteggio è 80,2, nel gruppone di testa con i migliori modelli al mondo. Su Humanity’s Last Exam con strumenti, un test che richiede ragionamento a livello post-dottorale, il K2.6 arriva a 54,0 — primo in classifica assoluta, davanti a GPT-5.4 (52,1) e Claude Opus 4.6 (53,0). Su BrowseComp, che valuta la navigazione web autonoma, il punteggio è 83,2 contro 82,7 di GPT-5.4. Il messaggio è limpido: un modello a pesi aperti, scaricabile gratis, batte o eguaglia i migliori modelli proprietari del pianeta in quasi tutte le metriche che interessano a chi scrive codice per vivere.
La vera novità del K2.6, però, non sta nei decimali dei benchmark — sta nel modo in cui lavora. Moonshot l’ha progettato per il “long-horizon coding”: esecuzione di task di ingegneria software complessi per ore, a volte giorni, senza intervento umano. I numeri dichiarati lasciano poco spazio all’interpretazione: oltre 4.000 chiamate a strumenti consecutive per più di 12 ore, con generalizzazione affidabile tra Rust, Go e Python. Non stiamo parlando di completamento automatico del codice, la funzione che suggerisce la riga successiva mentre scrivi. Stiamo parlando di un agente che prende in carico un progetto intero, ne capisce l’architettura esistente, scrive codice nuovo, esegue test, corregge gli errori che trova e va avanti — senza chiedere nulla, senza fermarsi, senza perdere il contesto dopo migliaia di operazioni. La differenza con le alternative open source a Copilot che abbiamo analizzato qualche settimana fa è strutturale: quelle ti assistono riga per riga, questa cosa lavora per giornate intere in autonomia completa.
L’altra novità è lo sciame di agenti, e i numeri fanno impressione. Il K2.5 gestiva 100 sotto-agenti per 1.500 passi coordinati. Il K2.6 scala orizzontalmente fino a 300 sotto-agenti per 4.000 passi simultanei — tre volte la parallelizzazione, quasi tre volte la profondità operativa. Nessun altro modello a pesi aperti offre qualcosa di paragonabile, e la maggior parte dei modelli proprietari nemmeno ci si avvicina. La capacità di generazione front-end completa il quadro: il K2.6 trasforma prompt in linguaggio naturale in interfacce web funzionanti, con layout strutturati, sezioni hero animate, effetti scroll-triggered e integrazione con tool di generazione immagini. È il tipo di funzionalità che manda in crisi le agenzie web che vendono template personalizzati a peso d’oro, e che segnala un cambio di paradigma: la generazione automatica di codice sta passando dalla fase “demo da conferenza” alla fase “strumento di produzione quotidiano”. Se pensi che Copilot ti abbia già cambiato il flusso di lavoro, aspetta di vedere cosa succede quando un agente scrive un’intera feature branch mentre dormi.
Per chi vuole provarlo senza passare dall’API di Moonshot — e se la privacy del tuo codice ti interessa minimamente, dovresti — il K2.6 è disponibile su Ollama con quantizzazione INT4 nativa che dimezza i requisiti computazionali. Servono comunque risorse serie: un modello MoE da un trilione di parametri non gira su un laptop, neanche con la migliore quantizzazione del mondo. Ma il supporto per vLLM, SGLang e KTransformers rende il deployment su cluster GPU locali una possibilità concreta, non un esercizio accademico. Scaricarlo e farlo girare in locale significa che nessun byte del tuo codice esce dalla tua rete — e nel mondo del coding AI, dove stai letteralmente inviando il tuo lavoro intellettuale a un modello che lo processa, questa non è una precauzione paranoica. È una scelta politica.
Chi c’è dietro Moonshot, e perché dovresti chiedertelo
Moonshot AI è stata fondata da Yang Zhilin, ex ricercatore di Tsinghua e Carnegie Mellon, e in meno di due anni ha bruciato le tappe come pochissime startup al mondo: da una valutazione di 4,3 miliardi di dollari a fine 2025 a 18 miliardi a marzo 2026, con oltre un miliardo raccolto in round progressivi. Gli investitori principali — Alibaba, Tencent, HongShan, 5Y Capital — non sono venture capitalist qualsiasi. Alibaba e Tencent sono i due pilastri dell’ecosistema digitale cinese, aziende che gestiscono pagamenti, comunicazioni e dati di centinaia di milioni di persone sotto un quadro giuridico dove il governo può accedere a quei dati senza bisogno di un mandato come lo intendiamo in Europa. Non è un’ipotesi complottista da forum: la Data Security Law del 2021 e la National Intelligence Law del 2017 obbligano esplicitamente le aziende cinesi a cooperare con le agenzie di intelligence quando richiesto. Il codice di Kimi è aperto, puoi leggerlo riga per riga. Il contesto istituzionale in cui nasce, molto meno trasparente.
Un pezzo di questa storia merita attenzione specifica, perché sposta il discorso dal teorico al molto concreto. A febbraio Moonshot ha lanciato Kimi Claw, un agente AI “always-on” che opera da un tab del browser e può osservare, raccogliere e agire su praticamente tutto ciò che fai online — mail, documenti, navigazione, codice sorgente. L’Institute for AI Policy and Strategy ha pubblicato un’analisi che non lascia margini di ambiguità: i rischi di sicurezza legati ad agenti AI cinesi sempre attivi, che trasmettono dati ai server di Moonshot sotto giurisdizione di Pechino, potrebbero superare quelli del caso TikTok. Il paragone è chirurgico: stessa architettura di dipendenza da infrastruttura estera, ma con capacità agentiche che vanno molto oltre lo scroll di una timeline. Un agente che legge il tuo codice sorgente, i tuoi contratti, le tue mail aziendali — e che lo fa sotto una legislazione che consente al governo cinese di richiedere accesso a quei dati — è un problema che non si risolve con i termini di servizio scritti in piccolo. E no, non basta la crittografia end-to-end: l’agente processa i tuoi dati in chiaro, per definizione.
L’open source cinese dell’AI si muove in questo campo di tensioni irrisolte, e Kimi ne è l’esempio più lampante. DeepSeek ha dimostrato che si possono costruire modelli competitivi spendendo una frazione di ciò che brucia OpenAI, abbattendo il mito che servono decine di miliardi per stare in partita. Qwen3 di Alibaba ha portato il supporto multilingue e le dimensioni compatte — fino a modelli da 0,6 miliardi di parametri che girano su un telefono — a livelli che i modelli proprietari non raggiungono. GLM-5 di Zhipu ha spinto il ragionamento matematico oltre ogni aspettativa. Kimi K2.5 e K2.6 completano il quadro con il dominio nel coding agentico. Facciamo un passo indietro e guardiamo il disegno complessivo: la Cina non è più il paese che copia l’AI americana, è il paese che la regala a pesi aperti e che in molti benchmark la supera. Nella guerra tra LLM open source e modelli chiusi, il fronte cinese sta vincendo per distacco — e questo dovrebbe far riflettere chi pensa che OpenAI e Anthropic rappresentino il futuro inevitabile del settore.
Ma “open” non significa “libero da rapporti di potere”, e qui sta il punto che troppi entusiasti preferiscono ignorare. Moonshot non è un collettivo di hacker, non è un laboratorio universitario finanziato da fondi pubblici. È un unicorno da 18 miliardi di dollari sostenuto dai campioni della sorveglianza commerciale cinese, e i suoi modelli non nascono da un impulso libertario — nascono da una strategia di piattaforma. Regali il modello, costruisci l’ecosistema attorno a te, catturi gli sviluppatori, monetizzi tramite API e servizi cloud. È lo stesso schema di Meta con Llama, di Google con Android, di qualunque corporazione che usa l’apertura del codice come arma competitiva contro chi vende software chiuso. Il codice è davvero aperto, le intenzioni molto meno. La differenza tra open source come emancipazione e open source come strategia aziendale non sta nelle righe di codice — sta nelle strutture di potere che le producono, e fingere che non conti è un lusso che chi tiene alla sovranità tecnologica dal basso non può permettersi.
La domanda pragmatica, quella che alla fine conta per chi deve lavorare, ha una risposta netta: sì, Kimi K2.6 conviene usarlo, ma a condizioni precise. Per uno sviluppatore che fa self-hosting su infrastruttura propria, è probabilmente il miglior modello a pesi aperti per il coding disponibile oggi — i benchmark non mentono, le capacità agentiche sono reali, la quantizzazione INT4 rende il deployment locale fattibile per chi dispone di un cluster GPU decente. Il rischio vero, quello da cui non si torna indietro, è usare Kimi tramite l’API cloud di Moonshot, mandando codice proprietario e dati sensibili a server sottoposti alla giurisdizione cinese. Scarica i pesi, forka il repository, eseguilo sulla tua macchina, taglialo dalla casa madre: è l’unico modo in cui l’open source funziona come strumento di autonomia e non come esca per un nuovo padrone.
La lezione che Kimi K2.5 e K2.6 lasciano sul tavolo va oltre i benchmark — quelli cambieranno tra un mese, quando DeepSeek rilascerà la versione 4 o Qwen aggiornerà i pesi. Riguarda il potere e chi lo esercita attraverso il codice. Moonshot ha costruito qualcosa di tecnicamente straordinario, un modello che scrive codice meglio dei prodotti per cui paghi centinaia di dollari al mese, e l’ha messo a disposizione di chiunque abbia le GPU per farlo girare. Sarebbe disonesto non riconoscerlo. Ma il “chiunque” di Moonshot non è il “chiunque” del software libero: è un “chiunque” con la firma di Alibaba e Tencent in calce, regolato da una licenza MIT che smette di essere MIT quando guadagni troppo, lanciato da un’azienda che costruisce anche agenti always-on capaci di aspirare l’intera vita digitale dei propri utenti. La libertà del codice non è la libertà delle persone che lo usano — e confondere le due cose è il modo più veloce per finire intrappolati in una dipendenza con un nome nuovo. Il K2.6 è potente, usalo. Fallo girare sulla tua macchina, leggi il codice prima di eseguirlo, stacca il cavo che porta a Pechino. L’open source è un campo di battaglia, non un regalo.
