Archivio digitale di documenti condivisi sotto licenze aperte - Common Pile dataset AI etico open source

Contenuto

Ogni volta che un’azienda AI finisce in tribunale per aver aspirato miliardi di pagine web senza chiedere il permesso a nessuno, la difesa è sempre la stessa: non c’è alternativa. Servono quantità enormi di testo per addestrare un modello linguistico, e non esiste un modo legale per raccoglierle tutte. È una bugia comoda, ripetuta così spesso da sembrare una legge di natura. Ma non lo è.

Si chiama Common Pile, è un dataset da 8 terabyte costruito interamente con testi sotto licenze aperte e di pubblico dominio, ed è stato assemblato da EleutherAI insieme a Hugging Face, la Library of Congress degli Stati Uniti e ricercatori di quattordici istituzioni tra cui MIT, Carnegie Mellon e l’Allen Institute for AI. Il nocciolo della questione non è solo che questo dataset esista — è che funziona davvero. I modelli addestrati esclusivamente su Common Pile raggiungono prestazioni comparabili a quelli che hanno masticato l’intero web senza chiedere permesso. Si può costruire un’AI etica e open source senza rubare niente a nessuno, e chi sostiene il contrario sta difendendo un modello di business, non descrivendo un limite tecnico. La differenza è sostanziale, e Common Pile la rende impossibile da ignorare.

Common Pile v0.1 è stato rilasciato nel giugno 2025, dopo due anni di lavoro meticoloso su verifica delle licenze, deduplicazione e filtraggio. Duecentotrentatré milioni di documenti da trenta fonti diverse — paper scientifici, codice sorgente, libri digitalizzati, enciclopedie, trascrizioni audio — tutti con metadati di licenza verificati documento per documento. Il progetto segue l’Open Definition 2.1 della Open Knowledge Foundation: solo contenuti con licenze genuinamente aperte come CC BY, CC BY-SA, CC0, MIT o BSD. Niente zone grigie, niente “fair use” stiracchiato fino alla rottura, niente interpretazioni creative della legge sul copyright. Se la licenza non autorizza esplicitamente l’uso per addestrare un’intelligenza artificiale, quel testo resta fuori dal dataset.

Il saccheggio dei dati che Big Tech chiama innovazione

Per capire perché Common Pile è un atto politico oltre che tecnico, serve guardare il contesto in cui è nato. I procedimenti legali per violazione del copyright legati all’addestramento AI negli Stati Uniti hanno superato quota cento, e il 2026 non ha rallentato la tendenza — anzi. Anthropic ha patteggiato 1,5 miliardi di dollari con gli autori nel settembre 2025: una cifra che suona enorme finché non calcoli che equivale a circa 3.000 dollari a libro per mezzo milione di opere scaricate illegalmente dalle reti pirata. Reddit ha trascinato in tribunale la stessa Anthropic per aver aggirato sistematicamente i sistemi di licenza, con audit log che documentano oltre centomila accessi automatizzati ai contenuti della piattaforma senza autorizzazione. Ad aprile 2026, creatori YouTube come Ted Entertainment e Golfholics hanno citato Apple, OpenAI e Amazon per aver usato i loro video come materiale di addestramento senza consenso né compenso. Nel frattempo la scoperta processuale nei casi contro OpenAI si sta allargando, e potrebbe presto rivelare esattamente quali opere protette da copyright sono finite dentro i modelli GPT. Il quadro complessivo è inequivocabile: l’industria AI ha costruito un impero economico da centinaia di miliardi di dollari sopra un furto sistematico di proprietà intellettuale.

Il meccanismo è sempre lo stesso e segue uno schema estrattivista classico, come abbiamo già analizzato parlando di LLM e copyright: prendi tutto quello che trovi in rete, monetizza, e poi quando qualcuno protesta tira fuori il fair use o — la mossa preferita — sostieni che non esiste alternativa praticabile. OpenAI vale oltre 150 miliardi di dollari. Anthropic ha raccolto decine di miliardi in finanziamenti. Ma la materia prima dei loro prodotti — i dati — l’hanno presa gratis, da chi quei testi li ha scritti, quelle foto le ha scattate, quel codice lo ha sviluppato senza immaginare che tutto sarebbe finito dentro un modello linguistico. C’è un parallelo brutale con l’estrattivismo delle risorse naturali: così come le compagnie minerarie hanno sostenuto per decenni che non si potesse estrarre cobalto senza lavoro minorile, le Big Tech dell’AI sostengono che non si possano addestrare modelli competitivi senza violare il copyright. In entrambi i casi, la scusa nasconde una scelta economica — rubare costa meno che negoziare, saccheggiare è più rapido che costruire catene di approvvigionamento etiche. E quando qualcuno dimostra con i fatti che un’alternativa esiste, l’intero castello di carte crolla.

La cosa più grottesca è il doppio standard. Le stesse aziende che aspirano liberamente il lavoro altrui per i propri modelli hanno poi il coraggio di blindare i loro output con licenze restrittive, brevetti e termini di servizio che vietano qualsiasi forma di reverse engineering. OpenAI, costruita su dati altrui, minaccia azioni legali contro chi prova a distillare i suoi modelli. Anthropic, che ha scaricato mezzo milione di libri piratati, ha citato tre aziende cinesi — DeepSeek, Moonshot AI e MiniMax — per aver estratto le capacità di Claude attraverso migliaia di account fraudolenti. Il messaggio è trasparente: noi possiamo prendere i vostri dati, voi non potete toccare i nostri. È feudalesimo digitale allo stato puro, dove chi controlla l’infrastruttura computazionale si arroga il diritto di espropriare la conoscenza collettiva per poi rivenderla come servizio proprietario.

Dentro Common Pile: trenta fonti, zero furti

Common Pile nasce dalle ceneri del Pile originale, il dataset da 800 GB che EleutherAI aveva rilasciato nel 2020 e che era diventato uno dei corpus di addestramento più utilizzati nell’ecosistema open source. Quel primo dataset aveva contribuito a democratizzare la ricerca sull’AI — prima del Pile, solo le grandi aziende avevano accesso a corpus di dimensioni sufficienti — ma a partire dal 2023 le controversie sul copyright si sono intensificate, costringendo EleutherAI a rimuovere progressivamente alcune componenti. La lezione era chiara: serviva un dataset costruito da zero con un approccio giuridicamente inattaccabile, che nessun tribunale al mondo potesse mettere in discussione. Due anni di lavoro, quattordici istituzioni coinvolte, consulenze legali specializzate, e il risultato è un corpus che non lascia spazio ad ambiguità. Ogni documento incluso nel Common Pile v0.1 porta con sé i metadati della licenza a livello individuale — non per fonte, non per collezione, ma documento per documento. È una granularità che nessun altro dataset di queste dimensioni ha mai offerto, e che rende possibile per chiunque verificare la legalità di ogni singolo testo utilizzato.

Le fonti sono trenta e coprono uno spettro ampio di conoscenza umana. Quasi 300.000 libri di pubblico dominio digitalizzati dalla Library of Congress e dall’Internet Archive, inclusi volumi dalla Biodiversity Heritage Library e testi pre-1929 provenienti dalle biblioteche consorziate di HathiTrust, oltre a una selezione curata di opere da Project Gutenberg. Il versante scientifico comprende milioni di paper da ArXiv e PubMed Central, tutti rilasciati sotto licenze che ne permettono il riutilizzo. Il codice sorgente arriva da repository con licenze permissive — MIT, BSD, Apache — e rappresenta una porzione significativa del dataset. Ci sono poi voci enciclopediche, materiali educativi, testi legislativi che per definizione sono di pubblico dominio nella maggior parte delle giurisdizioni, e trascrizioni audio generate con Whisper, il modello speech-to-text open source di OpenAI. Otto terabyte di conoscenza umana, assemblati senza rubare un singolo byte a nessuno.

Il criterio di selezione è stato rigoroso fino alla paranoia, e giustamente. Ogni fonte doveva soddisfare l’Open Definition 2.1 della Open Knowledge Foundation: il contenuto deve essere liberamente accessibile, redistribuibile e riutilizzabile, anche per scopi commerciali, con al massimo l’obbligo di attribuzione o condivisione alle stesse condizioni. Licenze come CC BY, CC BY-SA, CC0 e le permissive MIT e BSD superano il filtro. Le licenze non commerciali — tipo CC BY-NC — no, una scelta che ha escluso materiale potenzialmente utile ma che garantisce l’utilizzabilità del dataset senza ambiguità anche per chi sviluppa prodotti commerciali. Se ti stai chiedendo perché questa distinzione conti, la risposta è pratica: un dataset utilizzabile solo per ricerca accademica non cambia l’industria, un dataset che chiunque può usare per qualsiasi scopo sì. Il messaggio ai costruttori di modelli è esplicito: non hai bisogno di avvocati creativi, hai bisogno di dati puliti.

Il processo di assemblaggio è stato documentato con una trasparenza che nell’industria AI è praticamente sconosciuta. Il paper scientifico pubblicato su arXiv dettaglia ogni passaggio: come sono state verificate le licenze fonte per fonte, come è stata gestita la deduplicazione per rimuovere copie multiple dello stesso testo che avrebbero distorto l’addestramento, come sono stati filtrati i contenuti di bassa qualità. È il tipo di documentazione che permette a chiunque di verificare il lavoro, riprodurlo, criticarlo, migliorarlo — il metodo scientifico applicato alla costruzione di dataset, un concetto apparentemente ovvio che le aziende AI hanno sistematicamente ignorato. Confronta questo approccio con quello di OpenAI, che si rifiuta di rivelare cosa c’è dentro i suoi dataset di addestramento anche sotto ordine di discovery nei procedimenti legali, o con Google che mantiene il segreto industriale su ogni aspetto di Gemini. La trasparenza non è un optional: è il prerequisito di qualsiasi processo scientifico credibile. Ma per chi vende prodotti costruiti su dati rubati, la trasparenza è un rischio esistenziale.

La collaborazione tra istituzioni racconta molto sulla natura del progetto. Accanto a EleutherAI e Hugging Face — organizzazioni con una storia lunga nell’open source dell’AI — ci sono l’Università di Toronto, il Vector Institute, Cornell, il MIT, Carnegie Mellon, l’Allen Institute for AI, Lila Sciences, Poolside, l’Università del Maryland e il Lawrence Livermore National Laboratory. La presenza della Library of Congress è particolarmente significativa: un’istituzione pubblica che contribuisce attivamente a dimostrare come il patrimonio culturale digitalizzato possa alimentare l’innovazione senza espropriare nessuno. Come abbiamo scritto parlando di copyleft e sovranità tecnologica, è questo tipo di alleanza tra comunità di ricerca, istituzioni e progetti open source che costruisce le alternative reali alla concentrazione del potere tecnologico. Non servono i miliardi di Bezos o di Altman — serve la volontà di lavorare insieme su infrastrutture condivise.

Comma v0.1: i numeri che smontano l’alibi

Un dataset etico che produce modelli scarsi non dimostra niente — al massimo conferma la narrazione di Big Tech secondo cui servono dati rubati per competere. EleutherAI l’ha capito, e ha fatto la cosa giusta: ha messo i numeri sul tavolo. Hanno addestrato due modelli da 7 miliardi di parametri sul Common Pile: Comma v0.1-1T, alimentato con un trilione di token, e Comma v0.1-2T, con due trilioni. Nessun dato non licenziato, nessuna zona grigia, nessun trucco. Se il dataset etico funziona, i benchmark lo diranno. E lo dicono.

Comma v0.1-2T si piazza alla pari con OLMo, Llama 2 e DeepSeekLLM — tre modelli addestrati su dataset che includono quantità massicce di materiale scraped senza licenza. Le prestazioni sono particolarmente forti su MMLU (conoscenza generale e ragionamento multidisciplinare), SIQA (ragionamento sociale), ARC-E (ragionamento scientifico) e — dato che farà storcere il naso a qualcuno in Silicon Valley — sulle task di programmazione, dove Comma batte i modelli di riferimento con un margine ampio. Su HellaSwag e PIQA i risultati sono leggermente inferiori, ma il quadro complessivo non lascia spazio a interpretazioni: il dataset etico regge il confronto con i dataset costruiti sul saccheggio. Rispetto ad altri corpus aperti come KL3M, OLC e Common Corpus, il Common Pile produce modelli nettamente superiori, e raggiunge prestazioni comparabili al Pile originale e a OSCAR — dataset che non avevano gli stessi vincoli di licenza. Non è parità perfetta su ogni singola metrica, sarebbe ingenuo aspettarselo, ma è parità sostanziale su ciò che conta.

C’è un dettaglio che merita un’attenzione particolare: la superiorità di Comma sulle task di codice. Non è un caso, e la spiegazione è quasi banale nella sua semplicità. Il codice open source sotto licenze permissive — MIT, BSD, Apache — è per sua natura codice di qualità: è stato scritto per essere letto, riutilizzato, mantenuto da altri sviluppatori. Ha superato code review, ha documentazione, segue convenzioni consolidate. Rastrellare codice indiscriminatamente dal web significa ingerire anche snippet rotti, esempi didattici incompleti, codice legacy abbandonato e mai cancellato. La curatela batte il volume bruto, e Common Pile ne è la dimostrazione empirica — non è solo questione di etica contro pragmatismo, in questo caso l’approccio etico produce risultati tecnicamente migliori, il che demolisce ulteriormente la narrazione secondo cui la qualità richiede il compromesso morale.

Facciamo un passo indietro. Comma v0.1-2T con 7 miliardi di parametri e 2 trilioni di token è un modello di dimensioni reali, non un prototipo accademico costruito per fare bella figura in un paper. È comparabile ai modelli che le aziende utilizzano come base per poi fare fine-tuning su applicazioni specifiche. Chi costruisce modelli open source ora ha una base solida su cui lavorare senza preoccupazioni legali, e questo vale sia per la ricerca accademica sia per le startup che vogliono costruire prodotti AI senza il rischio di una causa miliardaria. Chi costruisce modelli proprietari, d’altra parte, ha perso il suo alibi preferito. Puoi addestrare un LLM competitivo in modo legale ed etico. EleutherAI l’ha dimostrato. Il fatto che tu scelga di non farlo racconta tutto sulle tue priorità reali.

I dati come bene comune: la lezione politica di Common Pile

Common Pile non è solo un risultato tecnico — è una dichiarazione politica su come la tecnologia può funzionare quando non è guidata esclusivamente dalla massimizzazione del profitto. Un progetto collaborativo tra organizzazioni non-profit, università e istituzioni pubbliche ha prodotto in due anni quello che l’industria da trilioni di dollari sosteneva fosse impossibile. La differenza non sta nelle risorse a disposizione — è nell’intenzione di partenza. EleutherAI non doveva massimizzare il rendimento per gli azionisti, Hugging Face non doveva chiudere un round di finanziamento per impressionare i venture capitalist, la Library of Congress non doveva fare colpo sugli analisti di Wall Street. Dovevano costruire qualcosa di utile per la comunità, e l’hanno fatto. È una lezione che chiunque lavori nel tech dovrebbe scolpirsi in testa.

L’idea che la conoscenza possa essere un bene comune — accessibile, condivisibile, riutilizzabile — non è utopia da accademici idealisti disconnessi dalla realtà. È il principio su cui si fondano la scienza moderna, il software libero, le biblioteche pubbliche, Wikipedia. Common Pile applica questo principio all’addestramento dell’intelligenza artificiale, e dimostra che produce risultati concreti e competitivi. Il che pone una domanda scomoda ai padroni dell’industria AI: se i dati aperti funzionano, qual è esattamente il valore aggiunto del saccheggio sistematico? La risposta è che il valore aggiunto non è tecnico ma economico — non pagare per i dati riduce i costi e gonfia i margini. È esattamente il tipo di “efficienza” che il capitalismo della sorveglianza ha sempre spacciato per innovazione: socializzare i costi (i dati li creano tutti), privatizzare i profitti (i modelli li vendono in pochi). Se questa dinamica ti ricorda qualcosa, è perché è la stessa logica che governa ogni forma di estrattivismo — dalle miniere di litio ai data center.

Il percorso dei diritti digitali è costellato di battaglie che sembravano perse in partenza. Il software libero era una “bizzarria da idealisti” prima che Linux diventasse il sistema operativo che fa girare il 90% dei server del pianeta. Wikipedia era “l’enciclopedia che chiunque può vandalizzare” prima di diventare la più grande raccolta di conoscenza della storia umana. Creative Commons era un esperimento legale di nicchia prima che miliardi di opere adottassero le sue licenze. Common Pile si inserisce in questa tradizione: dimostrare con i fatti, non con le teorie, che un altro modello di sviluppo è possibile. L’AI non deve per forza essere costruita sul furto, sulla concentrazione e sulla segretezza — può essere costruita sulla condivisione, sulla collaborazione e sulla trasparenza. Che siano le comunità dal basso a doverlo dimostrare, mentre le aziende da trilioni di dollari fanno orecchie da mercante, dice tutto su chi sta realmente innovando e chi sta solo estraendo rendite.

EleutherAI ha annunciato che rilascerà dataset aperti con maggiore frequenza in futuro, consolidando una rete di collaborazione stabile con i partner accademici e istituzionali. Common Pile v0.1 è dichiaratamente una prima versione — ci saranno aggiornamenti, nuove fonti, ampliamenti. Ma il precedente è stabilito: esiste un’infrastruttura collaborativa capace di produrre dati di addestramento su larga scala rispettando ogni licenza. La vera partita, adesso, si gioca su un terreno più ampio: Common Pile dimostra che l’alternativa esiste, ma perché diventi la norma servono pressione legale, regolamentazione seria e — soprattutto — una comunità che la sostenga attivamente. Come chi sceglie di usare alternative open source alle piattaforme delle big tech, chi costruisce e utilizza dataset etici sta facendo una scelta di resistenza concreta. Piccola, forse. Ma quando abbastanza persone fanno scelte piccole e concrete nella stessa direzione, i giganti iniziano a sentire il terreno muoversi.

Otto terabyte. Trenta fonti. Zero furti. Common Pile non risolve tutti i problemi dell’intelligenza artificiale — non affronta il consumo energetico mostruoso dei data center, non elimina i bias dai dati, non impedisce che i modelli vengano usati per sorveglianza o scopi militari. Ma demolisce una narrazione specifica e pericolosa: quella secondo cui l’unico modo per far progredire l’AI è calpestare i diritti di chi crea contenuti. EleutherAI, un collettivo di ricerca senza azionisti da compiacere, ha fatto in due anni quello che OpenAI e Google con le loro centinaia di miliardi non hanno voluto fare. Non perché non potessero — perché non gli conveniva. La prossima volta che un CEO della Silicon Valley sale sul palco a spiegare che “purtroppo” servono i tuoi dati e non può chiederti il permesso, ricordagli che Common Pile esiste. E che la sua non è una necessità tecnica — è una scelta.