Cosa dice davvero il giudice americano sul diritto d’autore e l’addestramento delle AI

Una corte californiana fissa i principi di liceità nell’addestramento di AI: cosa è davvero una violazione del copyright? di Andrea Monti – Inizialmente pubblicato su MIT Technology Review Italia

Un’ordinanza della Corte distrettuale del Northern District of California resa pubblica lo scorso 23 giugno 2025 stabilisce che è lecito usare libri tutelati dal copyright per addestrare modelli di AI e impone un limite ai copyright stakeholder. Si tratta di un provvedimento interlocutorio, ma che offre importanti spunti di riflessione che trascendono la vertenza giudiziaria ed entrano direttamente nei processi di sviluppo tecnologico dei sistemi di AI e ML.

Qual è il problema

In termini strettamente fattuali, l’accesso a una rilevante quantità di dati è la precondizione non sufficiente ma necessaria—anzi, indispensabile— per costruire piattaforme che per semplicità espositiva possiamo definire di “intelligenza artificiale”.

In molti ambiti, procurarsi i dati presenta difficoltà operative legate, per esempio, alla disponibilità di strumenti per la loro raccolta su vasta scala, o alla qualità del modo in cui sono stati generati. In alcuni casi, come per esempio l’uso anche secondario dei dati sui pazienti, ci sono da considerare aspetti deontologici prima ancora che giuridici, relativi al complesso tema dei limiti alla ricerca che supera la barriera del corpo per scandagliare i processi più profondi della coscienza e della vita. Infine, ci si deve confrontare con gli interessi economici delle parti contrapposte che, correttamente dal rispettivo punto di vista, vogliono poter trarre il massimo utile dalla propria attività. Questo è particolarmente vero per il diritto d’autore, dal momento che la possibilità di utilizzare testi, immagini, video e suoni è alla base della costruzione di Large Language Model e AI multimodali.

In termini concreti, questa necessità tecnica si traduce nello scontro fra due posizioni apparentemente inconciliabili. In quella che somiglia molto alla riedizione delle polemiche scoppiate ai tempi dell’avvento dei motori di ricerca, da un lato ci sono i titolari dei diritti di sfruttamento economico delle opere creative (non necessariamente, anzi quasi mai, gli autori) che rivendicano il diritto a essere pagati per l’utilizzo dei contenuti da parte delle AI company. Dall’altro lato, queste ultime ritengono di potere —e comunque lo fanno in nome del principio “meglio chiedere scusa che permesso”— raccogliere liberamente tutto quello che è disponibile, inclusi dati personali e, appunto, creazioni protette dal diritto d’autore, per costruire dataset e addestrare i propri modelli, cercando di limitare al massimo i casi nei quali devono acquistare diritti sui dati.

Il perché della causa

Il giudice è stato chiamato a pronunciarsi, prima di entrare nel vivo della controversia, su un fatto cruciale e cioè se fosse applicabile all’addestramento di LLM il concetto di “fair use” —una limitazione del copyright che consente di riutilizzare le opere protette a condizione di non danneggiare il titolare dei diritti.

Il processo è stato avviato da alcuni autori che hanno accusato Anthropic di avere utilizzato senza permesso (e senza pagare) le proprie opere per addestrare Claude, il modello prodotto da questa AI company, e di avere —conseguentemente— causato danni consistenti essenzialmente nel mancato guadagno. Dal canto proprio, in estrema sintesi, Anthropic si è difesa, appunto, sostenendo che servirsi dei libri per addestrare il modello era consentito dal “fair use”.

Da qui, la decisione.

Come ha deciso il giudice e perché

Nel dare (parzialmente) ragione ad Anthropic il giudice ha pronunciato diversi principi di diritto che possono valere anche al di qua dell’Atlantico. Tralasciando quelli più strettamente legati agli obblighi degli autori di provare le proprie pretese o l’alterazione del mercato, è invece importante analizzare i ragionamenti che hanno un impatto diretto sul come si fa un LLM.

La tokenizzazione di un’opera protetta è un uso legittimo che non richiede autorizzazione né pagamento di royalty

In primo luogo, il giudice riconosce che digitalizzare un libro per riorganizzarne i contenuti o usare libri digitali e tokenizzarli (cioè trasformarli in grandezze unitarie che poi vengono utilizzate per generare risultati complessi) è un’attività sufficientemente trasformativa —questa è la parola chiave— da rientrare nel concetto di “fair use”.

Le opere da tokenizzare devono essere state acquisite legittimamente

Tuttavia, e questo è il secondo punto importante, per potersi avvalere dell’uso libero di un’opera tutelata dal diritto d’autore è necessario che sia stata legittimamente acquistata. Dunque, nessun problema per l’uso dei libri cartacei acquistati e poi rielaborati da Anthropic, mentre lo stesso non vale per quelli digitali che sarebbero stati scaricati da repository di dubbia legalità.

Nessuna violazione se i risultati forniti dal LLM non riproducono letteralmente parti significative dell’opera protetta

Un terzo elemento da considerare, scrive il giudice, è l’assenza di prova che tramite Claude fosse possibile riprodurre parti significative delle opere degli autori. In altri termini, Claude è stato costruito per analizzare i prompt —le istruzioni impartite al chatbot— usando i contenuti dei libri e non per riprodurre pedissequamente le opere protette. La differenza è sostanziale: assumiamo che il modello sia stato addestrato usando Il nome della Rosa di Umberto eco. Se il software, in esecuzione di un prompt, riproduce parola per parola brani significativi del romanzo, allora il risultato è palesemente una riproduzione dell’originale e quindi entra in gioco il tema del diritto di sfruttamento economico. Se, invece, come accade e come ha rilevato il giudice, il modello imita lo stile ma non clona il contenuto —e per di più sono previsti dei controlli di sicurezza prima di fornire il risultato— allora non può esserci violazione di legge.

Non si possono chiedere soldi per imparare da un libro

In sintesi, e questo è il quarto e più importante argomento: imparare non è vietato, e poco importa che ad imparare sia un essere umano o un software (con tutti i limiti del concetto).

L’importanza di questo principio impone di lasciare spazio alle parole della decisione che a pagina 12 afferma: Gli autori non hanno il diritto di escludere qualcuno dall’utilizzare le loro opere a fini di apprendimento o di formazione. Tutti leggono testi e, a loro volta, ne scrivono di nuovi. Può essere necessario pagare per ottenere l’accesso a un testo la prima volta. Ma pretendere un pagamento specifico per ogni utilizzo di un libro — ogni volta che viene letto, ogni volta che lo si richiama alla memoria, ogni volta che lo si richiama successivamente per scrivere cose nuove in modi nuovi — sarebbe impensabile.

Per secoli abbiamo letto e riletto i libri. Ne abbiamo ammirato, memorizzato e interiorizzato i temi universali, i contenuti sostanziali e le soluzioni stilistiche ai problemi ricorrenti della scrittura.

Cosa significa questa ordinanza per le AI company…

Nel particolare, questa ordinanza e gli altri provvedimenti giudiziari che —in altri Paesi— stanno decidendo controversie che coinvolgono l’accesso libero ai dati personali, i limiti ai diritti di sfruttamento delle opere protette da copyright o la responsabilità per i danni causati da piattaforme AI forniscono indicazioni concrete alle AI company su come devono sviluppare le proprie tecnologie; dando particolare rilevanza al modo in cui è progettata l’intera piattaforma che consente al modello di funzionare, e non solo al modello in quanto tale.

…per i titolari dei diritti…

Nello stesso tempo, le decisioni indicano ai copyright holder come devono essere bilanciati i diritti delle parti per evitare che una protezione eccessivamente squilibrata di determinate rivendicazioni si traduca in un freno per lo sviluppo tecnologico.

… e per i legislatori occidentali

In termini più generali, invece, queste decisioni delle corti si inseriscono nel dibattito (geo)politico sulla (necessità della) regolamentazione di AI e ML e della tecnologia in generale.

Sentenze, ordinanze e provvedimenti temporanei emanate in varie giurisdizioni esprimono principi sostanzialmente comuni e dimostrano che norme vigenti e applicazione di principi giuridici consolidati consentono già di affrontare—a prescindere dal merito— problemi apparentemente considerati irrisolvibili.  Questo mette —o dovrebbe mettere— in discussione l’approccio al public policing  basato sulla iper regolamentazione, e suggerisce di lasciare alla case law il compito di ricondurre a sistema le singole questioni.

La maturità del mercato high-tech condiziona le scelte di public policy

Già le conclusioni del Hiroshima Process sull’AI avevano suggerito di evitare scelte normative rigide, come tali inadatte ad essere applicate a una realtà estremamente e rapidamente mutevole.

Tuttavia, mentre l’Unione Europea ha scelto la strada dell’ipernormazione, con il regolamento sull’AI che entrerà in vigore fra anni e che è già appesantito da ponderosi atti collaterali, altri Paesi hanno fatto scelte diverse.

Gli USA hanno mantenuto un approccio più bilanciato: è vero, infatti, che l’executive order sull’AI emanato dall’amministrazione Biden può essere considerato un atto “dirigista”, ma non è una legge e si può revocare con la stessa velocità con la quale è stato emanato. Mentre il Giappone ha scelto di emanare una normativa più convintamente basata sulla flessibilità, pur non precludendosi, in futuro, possibili interventi più decisi.

In definitiva, sembra di poter stabilire una qualche forma di correlazione inversa fra la rigidità delle scelte di public policy tecnologica e la maturità, nei singoli Paesi, del mercato dell’alta tecnologia, che potrebbe tradursi in una corrispondente gerarchia tecno-geopolitica. Ancora una volta si conferma che l’uso del diritto per regolare la realtà, come la tecnologia, evolve per approssimazioni successive. Da questo punto di vista, l’AI non è nulla di nuovo ma solo il banco di prova più attuale.

Possibly Related Posts: