GDPR e OpenAI: quanto sono fondate le accuse del Garante?

Non è colpa di OpenAI se le persone si ostinano, contro ogni logica, a usare ChatGPT come sostituto della loro (mancanza di) conoscenza di Andrea Monti – Inizialmente pubblicato su Strategikon – un blog di Italian Tech

Torna in scena “Il caso OpenAI”, del quale già ci eravamo occupati quando il Garante italiano impedì temporaneamente agli utenti italiani di usare ChatGPT.

Il secondo atto di questa piéce si apre con l’annuncio, da parte dell’autorità italiana, di avere notificato ad OpenAI l’atto di contestazione per presunte violazioni della normativa sulla protezione dei dati personali.

L’Autorità non ha ancora rilasciato alcuna informazione sul merito delle accuse. Tuttavia, sulla base di altre iniziative pubbliche in materie collaterali come il webscraping, è probabile che il Garante ritenga OpenAI responsabile di aver raccolto dati personali in Italia, di averli “esportati” negli USA, di averli trattati a scopo di lucro senza una base giuridica.

Come ho scritto quando l’autorità ha inizialmente bloccato OpenAI, ho qualche dubbio sul fatto che le accuse a OpenAI siano fondate.

In primo luogo, andrebbe considerata una questione procedurale: un’autorità amministrativa non dovrebbe avere giurisdizione diretta su soggetti stranieri. Un pubblico ministero che vuole indagare all’estero deve ricorrere ai trattati di cooperazione internazionale, e la decisione di un tribunale nazionale deve passare al vaglio di una corte del Paese ricevente per farla eseguire in caso, ad esempio, di diritto di famiglia. Dunque, come è possibile che un’entità priva di status giurisdizionale possa avere poteri superiori a quelli di un magistrato?

In secondo luogo, ChatGPT non è progettato per fornire risultati corretti. Pertanto, se l’accusa fosse che questo software elabora i dati personali in modo inaffidabile, allora non sarebbe corretta. Il livello di affidabilità dell’output non è un dato assoluto, ma deve corrispondere allo scopo dichiarato dal produttore. Poiché ChatGPT non è una “macchina della verità” e non viene venduto come tale, è difficile affermare che l’affidabilità dei risultati sia fonte di responsabilità per violazione del GDPR. In altre parole, non è colpa di OpenAI se le persone si ostinano, contro ogni logica, a usare ChatGPT come sostituto della loro (mancanza di) conoscenza e poi si lamentano dei risultati perché non sono in grado di valutarli e commettono errori.

In terzo luogo, se l’obiettivo del trattamento non è quello di fornire dati affidabili, perché la questione dovrebbe riguardare il GDPR?

Questo è un punto cruciale perché sarebbe l’unica contestazione dotata di qualche fondamento in relazione alla mancanza di una base giuridica per il trattamento dei dati personali, non tanto in termini di GDPR quanto in termini di sfruttamento “predatorio” delle informazioni (cioè di monetizzazione dei dati).

È ragionevole affermare che i contenuti resi disponibili online dagli individui (compresi i loro dati personali) sono destinati a essere consultati, non riutilizzati a scopo di lucro da terze parti senza almeno compensare i titolari dei diritti o ottenere da loro una qualche forma di licenza. A questo proposito, altri attori come Meta e Google potrebbero avere una posizione diversa, in quanto i loro termini e condizioni consentono maggior spazio di manovra nel trattamento per scopi diversi dalla fornitura di un servizio specifico dei contenuti generati dagli utenti.

Inoltre, OpenAI (come altri protagonisti del settore) ha scandagliato l’intera Big Internet per accumulare dati nel perseguimento di un obiettivo commerciale e non per scopi di ricerca “pura”. La difesa che alcuni fornitori di genAI stanno usando nelle vertenze statunitensi è quella del “fair use”, ma il fair use è legato al copyright – diritto d’autore in Italia – e funziona solo per le opere creative (cioè artistiche). Per quanto sia difficile affermare che l’elaborazione dei dati (personali) equivalga alla Divina Commedia, è vero, tuttavia, che il fair use del diritto d’autore è concettualmente simile al legittimo interesse del GDPR. Quindi, se la questione fosse effettivamente soggetta al regolamento sulla protezione dei dati personali, il punto cruciale sarebbe mettere sul piatto della bilancia la libertà di impresa(che, è bene ricordarlo, in Italia è un diritto costituzionalmente protetto) con la libertà e i diritti fondamentali degli individui.

Il problema da risolvere è quindi se lo scraping e l’ulteriore trattamento dei dati da parte di OpenAI ledano, almeno in termini potenziali, i diritti fondamentali dei cittadini degli Stati membri dell’UE e, cosa più importante, quelli garantiti dalla nostra Costituzione.

A questo scopo, è dovere delle autorità di protezione dei dati fornire prove solide e in relazione a ogni singola persona i cui dati sono stati riutilizzati per consentire, eventualmente, di chiedere i danni.

Per esempio, se cerco tramite Google il mio indirizzo mail universitario lo trovo senza difficoltà, mentre se faccio la stessa cosa tramite ChatGPT 3.5 ottengo questa risposta:

Mi dispiace, ma non posso aiutarti a trovare l'indirizzo email di una persona specifica, come Andrea Monti, senza violare la privacy e le norme etiche che regolano la divulgazione di informazioni personali. Se desideri contattare il professore Andrea Monti presso l'Università d'Annunzio di Chieti Pescara, ti consiglio di visitare il sito web ufficiale dell'università e cercare le informazioni di contatto sul loro sito web. Di solito, le università forniscono indirizzi email pubblici o formulari di contatto per comunicare con il personale accademico.

Se, invece, faccio lo stesso con ChatGPT 4 ottengo un risultato sbagliato che restituisce i dati di un omonimo che insegna in un altro ateneo.

Anche il vanity search eseguito sulle due piattaforme produce risultati contrastanti. La versione 3.5 di ChatGPT, per quanto dettagliato sia il prompt, non produce risultati, mentre la versione 4 mi identifica più o meno correttamente, perché analizza e sintetizza i risultati forniti da Bing (il motore di ricerca di Microsoft).

Ma il fatto che ChatGPT4 interagisce con un motore di ricerca per fornire risultati riduce ulteriormente il margine dell’eventuale responsabilità di OpenAI. Se, infatti, i dati che rielabora provengono da un motore di ricerca, gli errori non sarebbero da imputare (soltanto) alla piattaforma di AI generativa ma alle fonti messe a disposizione dal motore stesso.

Inoltre, se OpenAI è responsabile per avere rielaborato quei dati senza titolo giuridico, la stessa accusa dovrebbe valere per Bing e, più in generale, per gli altri motori di ricerca.

Dunque, per sostenere le proprie accuse, il Garante non potrebbe limitarsi ad affermazioni generiche sui “pericoli dell’IA” e dedurre da questi una qualche forma di responsabilità giuridica di OpenAI. Sarà dunque interessante vedere come sarà soddisfatto l’onere della prova.

A prescindere dalle tecnicalità giuridiche, tuttavia, l’aspetto fondamentale da considerare nel caso OpenAI è l’assottigliarsi ulteriore del confine tra legge e politica. Da molto tempo, il GDPR è stato utilizzato come arma nella battaglia “silenziosa” tra l’UE e gli USA. Ma usare la legge per perseguire obiettivi politici nella gestione delle relazioni internazionali potrebbe non essere l’idea più intelligente, poiché la regolamentazione è un’ascia bipenne che non taglia in una sola direzione, e non necessariamente con la stessa efficacia.

Possibly Related Posts: