Podcast RSI - ChatGPT ha copiato la voce di Scarlett Johansson? Il Grande Saccheggio dell’IA

È disponibile subito il podcast di oggi de Il Disinformatico della Radiotelevisione Svizzera, scritto, montato e condotto dal sottoscritto: lo trovate qui sul sito della RSI (si apre in una finestra/scheda separata) e lo potete scaricare qui.

Le puntate del Disinformatico sono ascoltabili anche tramite iTunes, Google Podcasts, Spotify e feed RSS.

Buon ascolto, e se vi interessano il testo di accompagnamento e i link alle fonti di questa puntata, sono qui sotto.

---

[CLIP: voce di Scarlett Johansson da “Her”]

Questa è la voce dell’attrice Scarlett Johansson dal film del 2013 Her, o Lei nella versione italiana, nel quale interpreta un’intelligenza artificiale che dialoga a voce, usando toni molto umani e seducenti, con i suoi utenti tramite i loro smartphone. Praticamente quello che fa realmente oggi la versione più recente di ChatGPT.

E questa, invece, è una delle voci inglesi di ChatGPT:

[CLIP: voce di Sky da ChatGPT]

Se notate una forte somiglianza, non siete i soli. Questa voce è così simile a quella di Scarlett Johansson che l’attrice ha dichiarato di essere “scioccata, arrabbiata e incredula”, perché “la voce era così simile alla mia che i miei amici più stretti e le redazioni dei giornali non sapevano percepire la differenza” (X/La Regione), e così ora ha incaricato dei legali di investigare sulla vicenda, mentre OpenAI, la società che gestisce ChatGPT, ha rimosso la voce contestata.

Questa è la storia di come l’idea futuribile di un film romantico e visionario è diventata realtà in poco più di un decennio, ma è anche la storia di come le aziende che producono intelligenze artificiali si stanno arricchendo immensamente agendo in zone grigie legali e attingendo al lavoro e alle immagini altrui senza dare alcun compenso, in un grande saccheggio che va accettato, dicono queste aziende, in nome del progresso. E i saccheggiati siamo tutti noi, non solo le celebrità.

Benvenuti alla puntata del 24 maggio 2024 del Disinformatico, il podcast della Radiotelevisione Svizzera dedicato alle notizie e alle storie strane dell’informatica. Io sono Paolo Attivissimo.

[SIGLA di apertura]

Lei e OpenAI, storia di un corteggiamento (professionale)

Questa storia inizia a settembre 2023, quando Sam Altman, CEO di OpenAI, l’azienda di intelligenza artificiale conosciutissima per il suo ChatGPT, ha chiesto all’attrice Scarlett Johansson se era interessata a prestare la sua voce, dietro compenso, alla versione 4.0 di ChatGPT. Johansson ha rifiutato l’offerta, ha detto, “dopo aver riflettuto molto e per ragioni personali”.

Due giorni prima della presentazione al pubblico di ChatGPT 4.0, Altman ha contattato l’agente dell’attrice chiedendo di riprendere in considerazione l’offerta. Prima ancora che iniziasse qualunque trattativa, ChatGPT 4.0 è stato rilasciato con una serie di voci che permettono agli utenti di dialogare in modo molto naturale con questo software semplicemente conversando.

Una di queste voci, denominata Sky, colpisce particolarmente sia per i suoi toni estremamente naturali, spiritosi e vivaci, al limite del flirt continuo con l’utente, sia per il fatto che somiglia davvero parecchio alla voce di Scarlett Johansson.

Se avete visto il film Lei in italiano, avrete apprezzato la voce e il talento della doppiatrice Micaela Ramazzotti…

[CLIP: voce di Micaela Ramazzotti che interpreta Samantha in Lei]

... ma vi sarete persi quella altrettanto memorabile di Johansson e quindi la somiglianza con la voce di ChatGPT non sarà così immediatamente evidente. Però indubbiamente la voce di Sky è molto, molto vicina a quella dell’attrice statunitense. E Altman non ha fatto mistero del fatto che il film Lei è una delle sue ispirazioni centrali, dichiarando pubblicamente che lo considera “incredibilmente profetico” e che ha azzeccato in pieno la rappresentazione del modo in cui oggi le persone interagiscono con le intelligenze artificiali.

Inoltre il 13 maggio scorso, poco dopo la presentazione al pubblico della voce di ChatGPT che ricorda così tanto quella di Johansson, Altman ha pubblicato un tweet contenente una sola parola: her. Il titolo originale del film.

L’attrice ha dato incarico a dei legali, che hanno chiesto formalmente a OpenAI di fornire i dettagli esatti di come hanno creato la voce denominata Sky. L’azienda ha risposto che la voce non è stata generata partendo da quella di Scarlett Johansson, ma appartiene a un’attrice assunta tempo addietro dall’azienda. Il Washington Post ha contattato l’agente di questa attrice, sotto anonimato per ragioni di sicurezza personale, e ha visionato documenti e ascoltato i provini registrati dall’attrice, e risulta che la sua voce calda e coinvolgente è identica a quella di Sky.

OpenAI ha anche pubblicato una cronologia dettagliata degli eventi, dicendo che a maggio 2023 aveva selezionato cinque voci di attori e attrici e successivamente aveva contattato Johansson proponendole di diventare la sesta voce di ChatGPT accanto alle altre, compresa quella di Sky, ma Johansson aveva cordialmente respinto la proposta una settimana più tardi tramite il suo agente.

Le voci degli altri attori sono state integrate in ChatGPT il 25 settembre scorso, dice OpenAI, e sono passati circa otto mesi prima che OpenAI ricontattasse Johansson il 10 maggio scorso, proponendole di diventare una futura voce aggiuntiva di ChatGPT, in occasione del lancio della nuova versione del prodotto. Il 19 maggio, pochi giorni dopo le dichiarazioni di Johansson, l’azienda ha disattivato la voce di Sky, dice, “per rispetto verso le preoccupazioni [dell’attrice]”.

Sembra insomma che si tratti solo di un caso di tempismo poco felice e di incomprensione, ma resta un problema: quello che ha fatto OpenAI, ossia creare una voce che molti trovano estremamente somigliante a quella di Johansson e guadagnarci parecchi soldi, è lecito?

Imitare non è lecito se l’intento è ingannare

Secondo gli esperti interpellati da varie testate giornalistiche, come il Washington Post o The Information, scegliere per il proprio prodotto una voce che somiglia molto a quella di una celebrità, specificamente in questo caso di una celebrità nota per aver interpretato proprio il ruolo della voce di un prodotto analogo, in un film molto conosciuto, e giocare sul fatto che molti utenti paganti di ChatGPT penseranno che si tratti davvero della voce di Johansson, rischia di essere comunque illegale, anche se l’azienda non ha effettivamente clonato la voce dell’attrice ma ha assunto una persona differente però somigliante.

Ci sono dei precedenti piuttosto importanti in questo senso, che risalgono a molto prima del boom dell’intelligenza artificiale. Quando non esisteva ancora la possibilità di usare campioni di registrazioni della voce di una persona per generarne una replica digitale si usavano gli imitatori in carne e ossa.

Per esempio, nel 1986 uno spot televisivo della Ford usò una imitatrice al posto della cantante Bette Midler come voce per un brano, Do You Wanna Dance di Bobby Freeman, che Midler aveva cantato. Midler era stata contattata per chiederle se fosse disposta a cantare nello spot, e lei aveva rifiutato. È così l’agenzia pubblicitaria incaricata dalla Ford, la Young & Rubicam, fece cantare la canzone a una corista di Bette Midler, Ula Hedwig.

Il parallelo con la vicenda di Scarlett Johansson e OpenAI è evidente, ma c’è una differenza importante: nel caso di Bette Midler, l’agenzia diede alla corista l’istruzione specifica di imitare la cantante. Midler fece causa, e vinse, ricevendo 400.000 dollari di risarcimento.

Anche il cantante Tom Waits si è trovato al centro di un caso di imitazione a scopo pubblicitario. Nel 1990 la ditta Frito-Lay usò un imitatore per inserire in un suo, spot dedicato alle patatine di mais, una voce che somigliasse a quella di Waits. L‘azienda fu condannata a pagare due milioni e mezzo di dollari.

Anche il chitarrista Carlos Santana, nel 1991, fece causa a un’azienda, la Miller Beer, per aver assunto un imitatore: non della sua voce, ma del suo stile di suonare la chitarra, in modo da poter usare il suo celeberrimo brano Black Magic Woman in uno spot televisivo. La disputa fu risolta in via stragiudiziale.

In sostanza, stando agli esperti, non importa se OpenAI ha assunto un sosia vocale di Scarlett Johansson o se ha proprio clonato la sua voce usando l’intelligenza artificiale: quello che conta è che ci fosse o meno l’intenzione di assomigliare alla voce di Johansson. Per il momento ci sono notevoli indizi indiretti di questa intenzione, ma manca una prova schiacciante: una richiesta esplicita di imitare la celebre attrice. Che fra l’altro per ora non ha avviato formalmente una causa.

Ma comunque vadano le cose nella disputa fra OpenAI e Scarlett Johansson, il problema dello sfruttamento gratuito dell’immagine, della voce o delle creazioni altrui da parte delle aziende di intelligenza artificiale rimane e tocca non solo gli attori e gli autori, ma ciascuno di noi.

Il Grande Saccheggio

Le intelligenze artificiali, infatti, hanno bisogno di enormi quantità di dati sui quali addestrarsi. Se devono riconoscere immagini, devono addestrarsi usando milioni di fotografie; se devono elaborare testi o generare risposte testuali, devono leggere miliardi di pagine; se devono generare musica, hanno bisogno di acquisire milioni di brani. Ma molte di queste immagini, di questi testi e di questi brani sono protetti dal diritto d’autore, appartengono a qualcuno. Se un’azienda usa contenuti di terzi senza autorizzazione per guadagnare soldi, sta commettendo un abuso.

La fame di contenuti delle intelligenze artificiali sembra inesauribile e incontenibile, e le aziende non sembrano curarsi troppo del fatto che i loro software saccheggino le dispense intellettuali altrui.

Gli esperti, infatti, hanno trovato il modo di rivelare che quasi tutti i principali software di intelligenza artificiale contengono i testi integrali di libri, riviste e quotidiani. A dicembre scorso il New York Times ha avviato una causa contro OpenAI e Microsoft per violazione del diritto d'autore, dato che ChatGPT e Bing Chat hanno dimostrato di essere capaci di produrre contenuti praticamente identici a milioni di articoli del Times, sfruttando la fatica cumulativa dei giornalisti della testata senza permesso e senza compenso.

Anche gli scrittori George RR Martin (celebre per il Trono di spade) e John Grisham, insieme a molte altre firme celebri, hanno avviato una lite con OpenAI, perché è emerso che ChatGPT ha incamerato e usato i testi integrali dei loro libri per migliorare le proprie capacità. Accusano OpenAI testualmente di “furto sistematico di massa”.

E non è solo un problema degli autori. Nella loro fame irrefrenabile, le intelligenze artificiali ingeriscono qualunque testo e cercano sempre contenuti nuovi, e le aziende non si fanno scrupoli a fornirglieli da qualunque fonte. Per esempio, Slack, una popolarissima piattaforma di chat e collaborazione aziendale, ha annunciato che usa le conversazioni degli utenti per addestrare la propria intelligenza artificiale, senza chiedere il loro consenso preventivo. Grok, l’intelligenza artificiale di X o Twitter, legge tutti i post pubblici degli utenti. Meta ha dato in pasto alla propria intelligenza artificiale un miliardo di post su Instagram, Google fa leggere alla propria intelligenza artificiale le mail degli utenti di Gmail, e Microsoft usa le chat con Bing per addestrare il proprio software. Nel campo delle immagini, Midjourney e OpenAI sono in grado di ricreare scene di film e videogiochi, dimostrando così di essere stati addestrati usando questi contenuti sotto copyright. Così fan tutti, insomma.

Ma nessuno di noi, quando ha aperto la propria casella Gmail o il proprio profilo Instagram, tempo fa, aveva immaginato un futuro nel quale le sue conversazioni, le sue foto, i suoi video sarebbero stati usati in massa per addestrare software che, se pungolati correttamente, rigurgitano brani interi di queste conversazioni.

E le aziende del settore dicono spavaldamente che tutto questo non solo va bene e che non c’è da preoccuparsi: dichiarano che è addirittura necessario, perché secondo loro è “impossibile” addestrare le grandi intelligenze artificiali senza attingere a opere vincolate dal diritto d'autore. Lo ha dichiarato specificamente OpenAI in una comunicazione formale alla Camera dei Lord britannica a dicembre scorso.

Ma c’è anche chi traduce quella comunicazione formale in parole molto più concise e taglienti, come l’esperto di intelligenza artificiale e professore emerito alla New York University Gary Marcus, che riassume la questione così: “Non possiamo diventare favolosamente ricchi se non ci permettete di rubare, quindi fate in modo che rubare non sia reato, e non fateci neanche pagare diritti di licenza! Certo, Netflix paga miliardi l’anno in diritti, ma noi non dovremmo essere tenuti a farlo!”

OpenAI vale attualmente circa 80 miliardi di dollari e ha triplicato il proprio valore in meno di dieci mesi.