L’AI che vuole fare le foto, ma non capisce la lingua dei fotografi

La diffusione delle piattaforme di AI per il text-to-image ripropongono il vecchio problema del controllo politico sul linguaggio di Andrea Monti – Inzialmente pubblicato su Strategikon – un blog di Italian Tech

Pochi giorni fa sono state rilasciate due applicazioni basate sull’intelligenza artificiale per la generazione di immagini a partire da una descrizione testuale chiamata prompt.

Una, Dall-e 2 è una piattaforma proprietaria, l’altra, Stable Diffusion è, un progetto open source. Entrambe, nella versione online, si usano semplicemente inserendo il prompt in un campo e premendo un pulsante. La versione di Stable Diffusion che funziona in locale su Linux, invece, richiede qualche sforzo in più in termini di installazione, configurazione, e risorse hardware —serve una scheda video adeguata, ma anche un vecchia nVidia GTX1060 fa il suo dovere.

Il confronto fra le capacità di interpretazione del testo ha dato risultati interessanti, non tanto dal punto di vista delle differenze fra le immagini prodotte, ma da quello dell’impatto sul sistema dei diritti.

La vulgata sui “pericoli dell’AI” racconta di “macchine che minacciano l’umanità”, “algoritmi dotati di vita e coscienza” e, più mondanamente, dell’immancabile “perdita di posti di lavoro causata dall’automazione”. Tuttavia, come sempre accade quando dalle speculazioni astratte si passa al confronto con l’esperienza, emergono questioni concrete che non erano state adeguatamente considerate da “futurologi” ed “esperti” ma con le quali è necessario fare subito i conti.

Sperimentando il funzionamento di Dall-e 2, per esempio, ho ricevuto un avviso di abuso per questo prompt: “’soft pencil sketch headshot portrait of a standing up, outraged Italian lawyer dressed with lawyer’s robe in foreground giving his closing argument in tribunal weawing his hands, towering judges dressed in judge’s robe, seated on the bench and in blurred background.” L’obiettivo era ottenere un’immagine che rappresentasse la concitazione di un’udienza penale, dalla prospettiva di un avvocato particolarmente infervorato.

La piattaforma, invece, ha interpretato erroneamente la parola “headshot” e mi ha inviato un preavviso di disattivazione dell’account (ancora funzionante, peraltro) per violazione delle condizioni di utilizzo. Peccato, però, che non le ho violate. Nel gergo fotografico, headshot significa ritratto in primissimo piano di una persona, ma la piattaforma ha “capito” che la parola fosse legata all’immagine di qualcuno al quale era stato sparato alla testa. Come controprova, ho inserito di nuovo la stessa descrizione omettendo la parola controversa e il software ha funzionato regolarmente.

In attesa della risposta dei chiarimenti che ho chiesto allo staff Dall-2 (ad oggi, non ancora arrivati), è possibile fare qualche considerazione di tipo più generale.

Come Dall-e 2, anche la versione online di Stable Diffusion applica delle limitazioni all’uso dei prompt, ma quella che gira in locale non limitazioni. L’utente è libero di usare qualsiasi descrizione, anche la più controversa.

Come è evidente, il problema non è la “pericolosissima” intelligenza artificiale, la mancanza di “trasparenza algoritmica” o delle varie estrosità che si associano al tema. Ciò che dovrebbe preoccupare è l’analisi automatica dei prompt che blocca le parole “inaccettabili” in puro stile “moderazione intelligente” di stampo social, applicando anche il cartellino giallo e poi quello rosso.

La mia richiesta era del tutto legittima e non collegata a immagini improprie. Tuttavia, anche se avessi effettivamente richiesto di generare un’immagine collegata ad un colpo in testa, non avrei necessariamente violato i termini contrattuali. Per esempio, se fossi stato un patologo o un giornalista di cronaca nera, avrei potuto avere interesse ad avere un’illustrazione del genere per un articolo, senza per questo avere violato alcunché. E arriviamo finalmente al punto: i termini e le condizioni che, in generale, impediscono per impostazione predefinita l’uso di un elenco di parole, in realtà vietano un elenco di concetti. Ma i concetti esprimono idee, e se un’idea non può essere espressa, non può essere pensata. E se non può essere pensata, cessa di esistere.

Basta cambiare “headshot” con “freedom” e realizzare che tutto questo accade tramite una piattaforma sulla quale non si ha alcun controllo, per comprendere esattamente la gravità della cosa.

Un problema simile si pose con i primi strumenti di controllo grammaticale automatizzato. Prendendo il controllo delle parole e di come dovrebbero essere utilizzate, coloro che controllano il software controllano le idee. All’epoca era più un’affermazione distopica di alcuni attivisti. Ora sta diventando uno scenario possibile. Non è, dunque, la stupidità dell’ intelligenza artificiale a mettere in pericolo i diritti delle persone, ma l’intelligenza spregiudicata di chi la controlla e la carenza culturale di chi dovrebbe regolarne l’uso.

Possibly Related Posts: