Un miliardo e mezzo di dollari. Tanto ha sborsato Anthropic — sì, quelli di Claude, quelli che si vendono come l’azienda AI “più etica” del pianeta — per chiudere la causa con gli autori i cui libri erano stati scaricati da siti pirata e dati in pasto al modello. La scadenza per presentare i reclami è domani, 30 marzo 2026, e se possiedi un libro finito nella lista del training set puoi incassare circa 3.000 dollari a opera. Sembra tanto. Sembra una vittoria. Facciamo un passo indietro e guardiamo i numeri reali: Anthropic ha una capitalizzazione che supera i 60 miliardi di dollari, e l’intero settore dei large language model macina ricavi che farebbero impallidire l’industria petrolifera degli anni Novanta. Un miliardo e mezzo non è una punizione — è il costo di fare affari, una voce nel bilancio tra le spese di marketing e gli stipendi dei dirigenti. L’intero settore dell’AI generativa ha mosso oltre 100 miliardi di dollari nel solo 2025, e la tendenza non accenna a rallentare.
Il punto vero non è la multa. È il meccanismo. L’intelligenza artificiale generativa si è costruita sulla conoscenza collettiva dell’umanità: libri, articoli, enciclopedie, codice sorgente, forum, blog, conversazioni, fotografie. Tutto aspirato dalla rete senza chiedere permesso a nessuno. E adesso che i profitti arrivano — e arrivano eccome — la domanda è semplice e brutale: di chi è questo sapere? Chi ha il diritto di possederlo, di monetizzarlo, di trasformarlo in un servizio a pagamento da 20 dollari al mese? E soprattutto, chi sta incassando mentre tu scopri che il tuo lavoro è stato macinato da un algoritmo senza che nessuno si degnasse di avvisarti?
Il grande saccheggio: dalle biblioteche pirata alle aule di tribunale
La causa Bartz contro Anthropic ha scritto un capitolo che non si può ignorare. Gli autori — tra cui la scrittrice Andrea Bartz e i saggisti Charles Graeber e Kirk Wallace Johnson — hanno dimostrato che l’azienda di Dario Amodei ha scaricato centinaia di migliaia di libri da Library Genesis e Pirate Library Mirror, due delle più note biblioteche pirata del web, per addestrare i modelli Claude. Non stiamo parlando di zone grigie del diritto o di interpretazioni creative del fair use: stiamo parlando di pirateria pura, quella che se la fai tu da casa finisci con una lettera dell’avvocato e un conto svuotato. Solo che qui l’ha fatta una delle aziende AI più celebrate del pianeta, quella che ha costruito il proprio brand sulla sicurezza e sulla responsabilità — l’azienda che doveva essere la coscienza etica di Silicon Valley. Il giudice Alsup ha dato ragione agli autori, e a fine agosto 2025 è arrivato l’accordo record: 1,5 miliardi di dollari, il più grande risarcimento per violazione di copyright nella storia dell’intelligenza artificiale. Circa 3.000 dollari per opera se sei l’unico titolare dei diritti, la metà se hai un editore. L’udienza finale per l’approvazione definitiva è fissata al 23 aprile 2026. Ma dividi quei 3.000 dollari per gli anni di lavoro che ci sono voluti a scrivere un libro, e il quadro che emerge è tutt’altro che trionfale — è il conto di un ristorante stellato dove qualcun altro ha mangiato al posto tuo.
Il fronte giudiziario più esplosivo, però, resta quello di New York. La causa del New York Times contro OpenAI è ancora in pieno svolgimento, e a gennaio 2026 ha prodotto una decisione che ha fatto tremare l’intero settore: il giudice Sidney Stein ha ordinato a OpenAI di consegnare 20 milioni di log anonimi di conversazioni ChatGPT ai querelanti. Venti milioni. OpenAI ha provato a giocare la carta della privacy degli utenti, sostenendo che quelle conversazioni non potevano essere divulgate. Il giudice non ha abboccato: chi usa ChatGPT ha “volontariamente consegnato le proprie comunicazioni” all’azienda — non è come intercettare una telefonata. Tre salvaguardie bastano: campionamento ridotto, de-identificazione e ordini protettivi. Quei log serviranno agli esperti dei querelanti per dimostrare quanto ChatGPT rigurgiti contenuti protetti e per smontare, pezzo per pezzo, la difesa del fair use. Nel frattempo, a marzo 2026, OpenAI ha chiesto accesso ai prompt specifici usati dal Times per generare gli output mostrati nella causa. Tradotto dal legalese: se devi attaccare il modo in cui il giornalista ha fatto la domanda, significa che sul merito non hai granché da dire.
E le cause non fanno che moltiplicarsi — ne pendono più di 25 nei soli Stati Uniti. Il 16 marzo 2026, Encyclopaedia Britannica e Merriam-Webster hanno trascinato OpenAI in tribunale a Manhattan, accusandola di aver utilizzato senza autorizzazione quasi centomila articoli per addestrare ChatGPT. L’accusa è duplice: violazione del copyright nel training, e il fatto che ChatGPT produce risposte contenenti riproduzioni “verbatim o quasi verbatim” dei loro contenuti — cannibalizzando traffico e ricavi. Ma il dettaglio più grottesco è un altro: Britannica accusa OpenAI anche di violare il Lanham Act, la legge sui marchi, perché ChatGPT attribuisce a Britannica informazioni completamente inventate, le famigerate allucinazioni. Pensa alla beffa: ti rubano il contenuto per addestrarsi, poi usano il tuo nome per spacciare bugie ai loro utenti, che magari smettono di consultare te perché hanno già la risposta — sbagliata — del chatbot. In Gran Bretagna, la sentenza nel caso Getty Images contro Stability AI ha stabilito che Stable Diffusion non “conserva” le immagini di training e quindi non c’è violazione secondaria del copyright — ma ha riconosciuto la violazione del marchio quando il modello generava immagini con il watermark Getty ancora visibile. Getty ha ottenuto il permesso di appellarsi a gennaio 2026, e la partita è tutt’altro che chiusa. James Grimmelmann, professore di diritto digitale alla Cornell, nel suo lavoro “The Files are in the Computer” ha fornito quella che potrebbe diventare la definizione legale cruciale: un modello ha memorizzato un dato di training quando è possibile ricostruire dal modello una copia quasi esatta di una porzione sostanziale di quel dato. Se questa definizione verrà accettata dai tribunali — e le prove della memorizzazione nei modelli attuali sono schiaccianti — le difese delle aziende AI crolleranno come castelli di carte.
Tre continenti, tre risposte: il caos normativo del copyright AI
Il paradosso più grottesco di questa vicenda è che non esiste una risposta unica. Ogni giurisdizione si è inventata la propria, e il risultato è un mosaico di regole contraddittorie che favorisce — indovina un po’ — chi ha i soldi per navigarlo. Negli Stati Uniti, la partita si gioca attorno al concetto di fair use, la dottrina che permette l’uso di materiale protetto per scopi trasformativi. Le corti si sono già divise: nella causa contro Anthropic, il giudice ha riconosciuto che il training su libri protetti può costituire fair use, ma scaricare copie pirata per farlo decisamente no. Nella causa Kadrey contro Meta, il tribunale ha parzialmente accolto la difesa del fair use per l’addestramento di LLaMA, respingendo però le claims sulla pirateria durante il seeding dei torrent. La linea che emerge è sottile e ipocrita al tempo stesso: puoi addestrare il tuo modello sulla conoscenza altrui, purché non ti si becchi a scaricarla da siti pirata. Il problema è che il risultato finale è identico — il tuo sapere finisce dentro un modello che genera profitti per altri — ma la forma, a quanto pare, conta più della sostanza.
La Electronic Frontier Foundation ha preso una posizione che farebbe alzare più di un sopracciglio: il training di modelli AI su dati protetti è fair use, punto e basta. La loro argomentazione ha radici profonde — le corti americane hanno storicamente riconosciuto che copiare per scopi di analisi, indicizzazione e apprendimento è un uso legittimo, dai motori di ricerca in poi, e questo principio non scompare solo perché il processo è eseguito da una macchina. Ma il diavolo sta nei dettagli. Fair use per chi? Per il ricercatore indipendente che allena un modello locale sul proprio hardware, o per OpenAI che genera miliardi di ricavi vendendo un servizio costruito sul lavoro altrui? L’EFF, a suo credito, è coerente: difende il fair use anche contro le corporation, e si batte perché l’espansione del copyright non diventi un’arma per consolidare i monopoli esistenti. A dicembre 2025 hanno scritto chiaramente che le battaglie sul copyright nell’AI sono battaglie sul controllo, e che i detentori dei diritti stanno usando le leggi statali e gli standard tecnici per chiudere il web aperto. Ma il rischio è concreto e non si può ignorare: una vittoria totale del fair use in tribunale legittimerebbe non solo la ricerca aperta e l’innovazione dal basso, ma anche il saccheggio industriale delle big tech. E quest’ultimo, conveniamone, è il vero problema.
L’Europa ha scelto una strada diversa — e come spesso accade, più burocratica ma non necessariamente più giusta. L’AI Act, che diventerà pienamente operativo ad agosto 2026, impone ai fornitori di modelli AI di pubblicare un riepilogo pubblico dei dataset usati per il training, rispettare l’opt-out dei detentori di diritti secondo la direttiva sul text and data mining, e dichiarare le proprie politiche di conformità al copyright. La Commissione europea ha già pubblicato il template obbligatorio per la disclosure, e le sanzioni arrivano fino a 10 milioni di euro o al 2% del fatturato annuo — cifre che per una big tech americana sono spiccioli, ma che potrebbero strangolare le startup europee. Il Parlamento europeo, a marzo 2026, ha approvato una risoluzione per chiedere regole più stringenti a protezione delle opere creative — un segnale che le disposizioni attuali sono considerate insufficienti anche da chi le ha scritte. Andrés Guadamuz, ricercatore di proprietà intellettuale all’Università del Sussex, ha analizzato queste disposizioni nel suo paper sull’AI Act e il copyright, e ha centrato il punto cruciale: il meccanismo di opt-out mette il peso sulle spalle dei creatori, che devono attivamente dichiarare di non voler essere inclusi nei dataset. Chi non sa come funziona il robots.txt, chi non ha risorse legali, chi non capisce nemmeno cosa sia il text mining — semplicemente viene aspirato. Il tribunale di Amburgo l’ha confermato nel settembre 2024, quando ha giudicato legale il dataset LAION-5B: cinque miliardi di coppie immagine-testo distribuite da un’organizzazione non profit sotto licenza Creative Commons. Il fatto che aziende for-profit come Stability AI abbiano poi usato quel dataset per costruire un business miliardario è un dettaglio che il diritto europeo, per ora, preferisce elegantemente non affrontare.
E poi c’è il Giappone, che ha preso la strada opposta a tutti. L’articolo 30-4 della legge sul copyright giapponese permette l’uso di qualsiasi opera protetta per scopi di “analisi delle informazioni” — compreso l’addestramento di modelli AI — senza bisogno di autorizzazione, purché l’output non replichi le opere espressive originali. Una scelta pragmatica: Tokyo vuole competere nella corsa all’AI senza i lacci normativi che frenano europei e americani. Ma il principio, se lo guardi da vicino, è devastante: se hai scritto un libro, un articolo, un’enciclopedia, qualsiasi azienda AI giapponese può inghiottirlo senza chiederti nulla, senza pagarti un centesimo, senza nemmeno informarti. Il tuo unico diritto scatta se l’output è una copia riconoscibile dell’originale — il che, con i modelli moderni che parafrasano e remixano, succede sempre meno. Il nocciolo della questione, alla fine, è il consenso. Come abbiamo già visto analizzando il bias nella memoria collettiva dei LLM, tutto il sapere umano è stato aspirato senza filtro, senza compensazione, senza domandare. E la risposta delle aziende è sempre la stessa: era pubblicamente disponibile, era fair game. Tradotto dal linguaggio aziendale: se non hai costruito un muro attorno al tuo lavoro, è colpa tua se te l’hanno preso.
Il commons dei dati: l’alternativa che nessuno vuole finanziare
Esiste un’alternativa a tutto questo. È stata teorizzata, ha sostenitori seri, e funziona già in piccolo in contesti che nessuno racconta. Ma — sorpresa — non piace a nessuno di quelli che contano. L’idea di un commons dei dati parte da un presupposto che in qualsiasi altra epoca sarebbe stato ovvio: la conoscenza collettiva dell’umanità non può essere proprietà di nessuno, e se i modelli AI si addestrano su di essa, i benefici devono tornare alla collettività. Il Collective Intelligence Project e Open Future — due organizzazioni che lavorano sulla governance dei dati — hanno elaborato proposte concrete e dettagliate: trasparenza obbligatoria e verificabile sui dataset, non i riassuntini cosmetici previsti dall’AI Act; finanziamento di organismi indipendenti di monitoraggio e auditing; incentivi reali per le aziende a contribuire dati di alta qualità al patrimonio comune; e soprattutto strutture di proprietà condivisa basate sul contributo delle comunità ai dati di addestramento e fine-tuning. Non è utopia accademica, e non è nemmeno qualcosa di inedito: alcune comunità indigene hanno già raccolto centinaia di ore di registrazioni con il consenso informato dei partecipanti, addestrato modelli linguistici locali con strumenti open source, e creato licenze specifiche che impediscono l’uso dei propri dati contro la comunità stessa. Il futuro esiste già — solo che, come diceva William Gibson, non è distribuito in modo uniforme. E la distribuzione, guarda caso, segue le linee del potere economico.
Il problema è che questa alternativa sfida entrambi gli schieramenti del dibattito. I detentori di copyright — editori, case discografiche, agenzie fotografiche — non vogliono un commons: vogliono essere pagati, e possibilmente controllare chi usa cosa e come. Le aziende AI non vogliono un commons: vogliono continuare a prendere tutto gratis nascondendosi dietro il fair use o le eccezioni TDM. E i governi, dall’Unione Europea con il suo AI Act al Giappone con la sua deroga totale, hanno costruito quadri normativi che proteggono uno di questi due interessi — mai quello collettivo. Come abbiamo già approfondito parlando di sovranità tecnologica e copyleft, il software libero rappresenta un modello concreto di come la conoscenza possa essere condivisa senza essere saccheggiata: la licenza GPL ti impone di restituire alla comunità le modifiche che fai al codice, creando un circolo virtuoso tra chi produce e chi utilizza. Ma il mondo dell’AI ha preso un’altra strada: open-washing — modelli che si dicono aperti ma non lo sono davvero, come abbiamo smontato nel confronto tra LLM open source e modelli chiusi — e accumulo sistematico di capitale attraverso il lavoro intellettuale altrui.
Le alternative dal basso, però, non si sono fermate — e questo è il dato politico che conta. I modelli linguistici locali — quelli che puoi far girare sul tuo computer, senza inviare un singolo byte ai server di OpenAI o Google — sono un atto di resistenza tecnologica concreta. Progetti come Ollama, text-generation-webui e le community di Hugging Face dimostrano ogni giorno che è possibile avere intelligenza artificiale potente senza cedere il proprio sapere, i propri dati, la propria autonomia a una corporation californiana. Ma serve un’infrastruttura comune, e serve una volontà politica che oggi manca completamente. Serve che i dataset siano aperti, documentati, costruiti con il consenso reale delle persone — non con l’opt-out di default che l’Europa ha scelto per comodità dei più forti. Serve un modello economico che non si fondi sul saccheggio e sulla concentrazione. Serve — detto senza mezzi termini — una politica dei dati che non sia scritta dalle lobby del copyright né dagli avvocati di Sam Altman, ma dalle comunità che quei dati li producono ogni giorno. Il paradosso è sotto gli occhi di chiunque voglia vederlo: l’AI è stata addestrata sulla conoscenza di miliardi di esseri umani, ma i profitti si concentrano in tre o quattro aziende della Silicon Valley. Il tuo post su un forum nel 2008, l’articolo di quel giornalista freelance pagato a cottimo, il codice di uno sviluppatore open source che lavora gratis nei weekend, il romanzo di un’autrice indipendente che non arriva a fine mese — tutto questo è stato macinato per costruire sistemi che generano centinaia di miliardi di dollari di capitalizzazione. E quando gli autori si organizzano per chiedere la loro parte, la risposta è un accordo da 1,5 miliardi che, a conti fatti, equivale a una mancia su un conto da ristorante stellato.
La vera posta in gioco non è il copyright. Non è il fair use. Non è nemmeno il risarcimento — anche se 3.000 dollari per un libro che ha contribuito a generare miliardi restano un insulto travestito da vittoria. La posta in gioco è il potere: chi controlla la conoscenza controlla il futuro, e in questo momento quel potere è nelle mani di un pugno di miliardari che hanno costruito i propri imperi su un atto di appropriazione senza precedenti nella storia umana. I tribunali provano a mettere toppe, l’Europa scrive regolamenti, il Giappone alza le mani. Ma nessuno sta ponendo la domanda fondamentale: perché il sapere collettivo dell’umanità dovrebbe generare profitto privato? La risposta non arriverà dai governi e non arriverà dalle corporation. Se verrà, verrà dal basso — dalle comunità che costruiscono i propri modelli, dai programmatori che rilasciano codice libero, dagli attivisti che rifiutano di cedere i propri dati al primo chatbot che li chiede. La conoscenza è di tutti. Il fatto che qualcuno se la sia presa non cambia questa verità — la rende solo più urgente da difendere.
