Un ChatGPT italiano van cercando
2024-5-26 15:31:56 Author: www.guerredirete.it(查看原文) 阅读量:6 收藏

Realizzare modelli linguistici di grandi dimensioni in lingua italiana è, da qualche mese, l’obiettivo in cima alla lista delle priorità digitali nazionali. Non si tratta di un vezzo campanilistico: la capacità di rispondere alle richieste degli utenti dipende in maniera diretta dalla qualità dei dataset su cui gli LLM (questo l’acronimo che sta per Large language model) sono addestrati. I prodotti più popolari sono basati su  dataset costruiti pressoché esclusivamente in lingua inglese. 

Ma (si veda questo articolo di Guerre di Rete di novembre), non ci è voluto molto a comprendere che l’idioma non è una questione secondaria. Non solo per l’accuratezza delle risposte: è anche un tema di soft power, come rivela l’attenzione della Francia, che ha puntato forte sulla startup Mistral AI in linea con la strategia nazionale per la difesa della francofonia, uno degli asset principali di Parigi. Germania e Cina non sono da meno: tedesco e mandarino, per quanto non siano paragonabili tra loro come numero di parlanti, temono di perdere competitività in quella che è una corsa sin troppo veloce verso il futuro. Così hanno costruito i propri campioni, quali la tedesca Aleph Alpha. Persino i piccoli (ma ultimamente molto attivi sulla scena internazionale) Emirati Arabi Uniti hanno proposto il loro Falcon. 

L’Italia sta cercando di tenere il passo. Anche se ha fatto parlare di sé soprattutto per essere stata il primo Paese a imporre una limitazione provvisoria su ChatGPT nella primavera del 2023. Ma, oltre a governare le evoluzioni tecnologiche dal punto di vista legislativo, è necessario muoversi sul piano delle politiche industriali. Così, tra progetti costruiti “from scratch” (cioè da zero) e fine tuning (che potremmo tradurre con ottimizzazione e adattamento di un modello pre-addestrato) di progetti esistenti per adattarli all’idioma dantesco, sono diverse le iniziative già pronte o in cantiere. Alcune partite in sordina; altre, invece, precedute da un intenso battage mediatico. Abbiamo provato a ricostruire che cosa sappiamo delle varie soluzioni. Partiamo però dall’inizio. 

Il problema dei dataset

Il problema centrale nella costruzione dei modelli linguistici di grandi dimensioni è proprio l’addestramento, l’attività, cioè, con cui la macchina apprende e si prepara, dunque, a fornire risposte ai prompt (le domande dell’utente) sulla base delle relazioni fra parole (per una spiegazione tecnica ma semplificata in italiano, vedi qua)

Un anno e mezzo fa il lancio di  ChatGPT ha innescato una corsa all’AI generativa (vedi l’ebook di Guerre di Rete). Ma, dopo il tecno-ottimismo mediato dal marketing degli esordi, negli ultimi mesi le reazioni non sono state sempre entusiaste.  Su tutti, il New York Times ha citato in tribunale OpenAI (la società a cui fa capo ChatGPT).
La sentenza, quando arriverà e vada come vada, farà di certo giurisprudenza.  Intanto, fiutato il vento, le nuove policy che tutelano il lavoro delle redazioni cominciano a prevedere fattispecie nuove, nel tentativo di mettersi al riparo dall’aggressività dei nuovi competitor. Non manca, tra gli studi legali specializzati, chi suggerisce di non fare accordi, per il momento, in attesa che la nebbia si schiarisca.
Perché, come si diceva,  per i modelli di intelligenza artificiale, i dataset sono tutto: ma la qualità del materiale disponibile gratuitamente in Rete è mediamente bassa. Tutt’altra cosa sono i grandi giornali o i libri di autori noti: contenuti ben scritti, dall’alto grado di affidabilità.

L’alternativa open e i servizi alla Common Crawl 

L’alternativa sono le cosiddette fonti open. Con una necessaria precisazione: si tratta dell’aggettivo più abusato nel mondo dei modelli linguistici. Nella società di Sam Altman, per esempio, oggi, di aperto, c’è molto poco. 

Esistono, però, diversi gruppi di ricerca che, per evitare questioni legate al copyright, hanno fatto dall’inizio riferimento a fonti pubbliche o, almeno, disponibili senza barriere, senza andare troppo per il sottile. Per esempio, ma non solo, Wikipedia. E poi ci sono servizi come Common Crawl. Il fondatore, Gil Elmaz, è stato definito dieci anni fa dal New York Times “l’uomo più importante di cui non avete mai sentito parlare”. Oggi è chiaro il perché: dopo aver creato AdSense, poi comprata da Google, ha messo in piedi Common Crawl, una società no-profit che fa scraping del web, cioè rastrella la Rete e fornisce gratuitamente i propri archivi e dataset al pubblico.
Diceva Gil Elbaz in un’intervista: “Common Crawl è molto semplice: è una copia del web, e il web è il più fantastico ammasso di conoscenza che l’umanità abbia messo assieme. Quindi, perché non renderla disponibile a più persone possibile? Se lavori a Google puoi avere facilmente accesso a tutta questa conoscenza; altrimenti, c’è Common Crawl”. 

Common Crawl fa anche scraping di materiale protetto da copyright: secondo le ultime statistiche disponibili (datate 2024), il 46% dei contenuti ha l’inglese come lingua primaria, il 5% ciascuno tedesco, russo, giapponese, il 4% francese, spagnolo, cinese. L’italiano è al 2,5%. Pare che una versione filtrata di Common Crawl sia stata usata per allenare GPT3 nel 2020. Gli ultimi dati disponibili al momento in cui scriviamo dicono che, nello scraping durato dal 20 febbraio al 5 marzo, sono state registrate 3,16 miliardi di pagine web. La quantità di dati archiviati dal 2008 è impressionante. Il corpus contiene anche metadati, fondamentali per rendere “digeribile” e utilizzabile l’ammasso di conoscenza. 

I dataset di Common Crawl possono essere usati per machine learning, natural language processing, migliorare i traduttori, ma anche per studiare la propagazione delle malattie.  Sono stati impiegati da aziende e enti di ricerca: i dati sono perlopiù in formato html, ma ci sono anche pdf e immagini. Lo storage è fornito da Amazon. “Il nostro obiettivo è democratizzare i dati in maniera tale che tutti, non solo le big companies, possano fare ricerca e analisi di alta qualità”, ha dichiarato Elbaz.

I dataset in italiano

Ma un dataset forte, in italiano, ancora manca. Ed è questo il problema principale per avere un campione nazionale degli LLM. La domanda, a questo punto è chiara: perché questo lavoro di sistematizzazione non è stato fatto? E a chi spetta? 

“La risposta è che raccogliere questi dati, aggiungere tag e metadati è un’operazione lunga, complessa”,  spiega a Guerre di Rete il CTO di un’importante società, che accetta di parlare a condizione dell’anonimato. “Questo lavoro di sistematizzazione non l’ha ancora fatto nessuno. E per venirne a capo serve l’intervento dello Stato, ma anche quello dei privati”. Poi torna sul tema commerciale: “Chi sarà in grado di firmare accordi vincenti avrà il maggior vantaggio in futuro”.

C’è spazio anche per l’uomo: “Non basta un banale ordinamento: serve un’opera di supervisione umana per garantire la qualità” dice il manager. “Quando sento di gente che annuncia di rastrellare dati e conversazioni dai social so che non andranno lontano, perché si tratta di materiale inadeguato. Il motivo per cui Mistral è davanti a tutti è proprio che dispone di un dataset non pubblico che si è costruito da sé, e poi perché ha introdotto una Mixture of Experts, modalità innovativa che dà risultati migliori a parità di parametri. Se introduci due innovazioni assieme, beh, la differenza si vede”.
(La Mixture of Experts è un approccio del machine learning che divide un modello di intelligenza artificiale in sottoreti separate, ciascuna specializzata in un sottoinsieme dei dati di input, per eseguire congiuntamente un compito).

Ad ogni modo, ecco di seguito alcuni dei progetti più avanzati in Italia sul fronte degli LLM. Si tratta di una lista non esaustiva e in continuo aggiornamento, ma quanto di seguito offre una buona fotografia. 

LLamantino, università di Bari

All’università di Bari, dal gruppo guidato da Giovanni Semeraro, nasce Llamantino, nell’ambito di un partenariato del Pnrr (Piano nazionale di ripresa e resilienza) sull’intelligenza artificiale. Lo racconta Pierpaolo Basile, professore associato nel dipartimento di Informatica. “A lavorarci siamo in sei: assieme a me e Giovanni Semeraro ci sono i due ricercatori Marco Polignano e Lucia Siciliani e un dottorando, Elio Musacchio. C’è anche un ricercatore di NVIDIA, Giuseppe Fiameni”. 

“Il nostro modello  è stato addestrato su LLama-2 e si basa essenzialmente sulla stessa architettura”, dice a Guerre di Rete Basile. “Ora stiamo lavorando anche su LLama-3”.  In sostanza, prosegue Basile, “abbiamo definito un workflow che permette di prendere un LLM e adattarlo a una nuova lingua o una lingua sottorappresentata. Successivamente il modello adattato può essere addestrato (fine tuning) su task specifici. Per esempio, abbiamo creato un modello chat ed uno per risolvere alcuni task di NLP (elaborazione del linguaggio naturale, ndr) come il riconoscimento del linguaggio d’odio all’interno di testi in lingua italiana”. 

Il  fine-tuning, riprende Basile, è avvenuto su diversi dataset, “in particolare Ultrachat, focalizzato sulle conversazioni, un campo nel quale siamo particolarmente forti. Il fine-tuning è stato realizzato su una traduzione in italiano di UltraChat.  Per la parte di adattamento è stato, invece,  utilizzato un dataset di pagine web (MC4-clean). Stiamo anche lavorando su un fine-tuning utilizzando i dati dell’ultima edizione di EVALITA, una campagna di valutazione periodica di NLP e speech tools in lingua italiana”.
LLaMAntino, secondo la squadra dell’ateneo barese,  è stato “il primo LLM focalizzato sull’italiano a raggiungere la dimensione di 70 miliardi di parametri. 
“Il problema in questi casi sono le risorse hardware, ma grazie al progetto FAIR del Pnrr abbiamo potuto eseguire tutto sul supercalcolatore Leonardo del Cineca” prosegue il docente.
Qual è il piano di business? “Quanto fatto finora resterà disponibile a tutti. Per il futuro, abbiamo invece  fondato uno spinoff”. Poi Basile conferma che qualcosa si muove anche da noi: “Un dataset nativo in italiano è tra gli obiettivi del progetto FAIR, sia per quanto riguarda il  fine-tuning che per la valutazione”. 

LLamantino  è stato valutato su dataset standard per la lingua italiana ottenendo buoni risultati. “Abbiamo anche effettuato altre valutazioni su dataset differenti e stiamo preparando una pubblicazione scientifica su questi risultati”. “Il nostro obiettivo principale”, conclude Basile, “non era quello di costruire il miglior LLM per l’italiano, ma proporre un workflow riutilizzabile che a partire da un LLM open-source con uno scarso supporto alla lingua italiana produca un modello di grandi dimensioni in grado di ottenere performance superiori sul nostro idioma. Il tutto utilizzando strumenti open-source. Oggi possiamo dire di essere soddisfatti e orgogliosi del fatto che altri ricercatori abbiano seguito il nostro workflow e lo abbiano applicato ad altre famiglie di LLM, ad esempio Mistral”.

Cerbero, università di Pisa

All’Università di Pisa è nato Cerbero, dal gruppo di ricerca del professor Federico Andrea Galatolo. Rilasciato a novembre 2023, questo modello di grandi dimensioni è basato su Mistral: “Il nostro è stato il primo LLM così valido dal punto di vista qualitativo da poter essere effettivamente utilizzato, e infatti è già impiegato da diverse aziende. Direi che, a oggi, regge ancora bene la prova del tempo”.
La  versione 2.0, che verrà rilasciata a giorni, sarà completamente rinnovata, annuncia il docente. Secondo Galatolo, la strada giusta è restare open source: proprio come Cerbero, che può essere utilizzato gratuitamente per qualunque scopo, inclusi quelli commerciali. “I modelli open source al momento sono rimasti indietro rispetto ai modelli ‘chiusi’, ma la storia insegna che, alla fine, questa filosofia  vince sempre. Le ragioni? Ci sono più sviluppatori, e un fattore determinante in grado di fare la differenza: l’entusiasmo. Significa che le persone non lavorano ai progetti per lo stipendio, ma per passione. Insomma, all’inizio vincono le corporate, ma poi il divario finisce per colmarsi e avviene il sorpasso”.

Cerbero, spiega Galatolo, è stato il primo LLM italiano  rilasciato con licenza Apache 2, “che ne permette l’uso commerciale completamente libero, e consente alle aziende di realizzarci prodotti e poi venderli senza dovere nulla a noi. Io sono un ricercatore universitario, stipendiato dalla collettività, e  pertanto lavoro al suo servizio: il mio interesse è sviluppare un prodotto che sia disponibile per tutti. Il futuro? Sono contrario a un’intelligenza artificiale chiusa: immagino uno strumento che sia utilizzabile senza limiti. Mi spaventa, anzi, che i paletti morali siano messi da Open AI o altre società”.
Perché? “Perché all’improvviso potrebbero decidere  che una certa classe di problemi non debbano più essere risolti, e a quel punto il gioco finirebbe” Male.  La conclusione?  “Le regole devono venire dal legislatore, non dalle aziende, perché queste ragionano in termini di business”. 

Il team di Cerbero-7b è composto da Galatolo e da Mario Cimino, “ma stiamo reclutando dottorandi, assegnisti e tesisti per portare avanti lo sviluppo delle nuove versioni” spiega il docente.  Dal punto di vista tecnico, “abbiamo usato Mistral-7b e openchat-3.5 come modelli base per le due versioni rilasciate di cerbero-7b ”. 

Cerbero è stato addestrato su un mix di dataset: uno tradotto automaticamente dall’inglese, un altro di altissima qualità raccolto da volontari umani e infine uno preparato dal nostro gruppo di lavoro, generato usando un LLM molto grande. “Tutti sono stati sottoposti al filtraggio basato su BERT (altra rete neurale) che ne garantisce un’elevata qualità complessiva”. 

“Cerbero”, conclude Galatolo, “punta ad essere un modello generalista, senza nessuna specializzazione su un task specifico. Abbiamo valutato le capacità in modalità few-shot di risolvere problemi pratici come la classificazione della positività o negatività di testi, la presenza o meno di ironia o il rilevamento di contenuti tossici. Lo abbiamo anche testato riguardo a task di question answering tradizionali. La nuova versione sarà valutata su un gruppo molto più esteso di benchmark”. 

Dante, Università La Sapienza di Roma

A Roma nasce Dante, sotto la guida del professor Fabrizio Silvestri. Anche in questo caso, un modello open source, e un fine-tuning del francese Mistral. Il team tecnico è composto da Andrea Bacciu, Cesare Campagnano, e Giovanni Trappolini. “Tutti fanno parte del gruppo che dirigo Sapienza, con Andrea che adesso è ricercatore a tempo indeterminato ad Amazon”. “Per il fine-tuning di Dante LLM – spiega Silvestri – abbiamo impiegato la tecnica di Low Rank Adaptation (adattamento a rango ridotto – LoRA) con impostazioni specifiche come la quantizzazione a 8 bit. La quantizzazione è una tecnica usata per ridurre la quantità di dati necessari a rappresentare un’informazione, come le caratteristiche di un modello di intelligenza artificiale”.
Un esempio può aiutare: “Immaginiamo di avere una scatola piena di pennarelli colorati: per risparmiare spazio, si potrebbe decidere di tenere solo un pennarello per ogni colore principale, eliminando le sfumature molto simili tra loro. In pratica, la quantizzazione fa qualcosa di simile con i dati numerici, riducendo la varietà di numeri usati e semplificandoli, il che rende il modello più leggero e veloce, pur mantenendo il più possibile la sua efficacia originale”. “Sfruttiamo la versione italiana del dataset SQuAD  – conclude Silvestri – e 25.000 frasi dal dataset Europarl dall’inglese all’italiano.  Il modello risultante è rilasciato sotto licenza Apache 2.0”. 

I modelli aziendali

I modelli aziendali di cui siamo a conoscenza sono from scratch, cioè non basati su altri: si parte da zero. Nei mesi scorsi c’è stato un grande battage su Modello Italia, realizzato da iGenius, società attiva nell’AI. iGenius non ha risposto alle richieste di Guerre di Rete; la società ha parlato di una presentazione che sarà organizzata nei prossimi mesi. 

Fastweb, i dati e l’infrastruttura

In Italia c’è un altro grande attore corporate che ha intravisto le potenzialità dei modelli linguistici di grandi dimensioni e ne ha realizzato uno in casa: Fastweb. “Il percorso per rendere l’intelligenza artificiale un cardine della strategia aziendale nasce nel 2019 su spinta di Walter Renna, oggi amministratore delegato ma al tempo direttore di divisione prodotto, dice a Guerre di Rete Giovanni Germani, manager of Architecture & AI della società. “Per questo, abbiamo creato una squadra che va a riunire tutte le competenze AI, data science e automation, una squadra che sono stato chiamato a guidare”.

La scelta di puntare su un LLM nazionale deriva dal fatto che “dall’interlocuzione coi clienti abbiamo notato che la maturità dell’ecosistema italiano e la comprensione delle potenzialità  e dei rischi dell’intelligenza artificiale generativa sono davvero eterogenee. Molti utenti dispongono di idee e casi d’uso interessanti, ma non si sentono a proprio agio a lasciare i dati su server ubicati  in un altro paese. Meta è l’unica che è rimasta open source, anche la versione 3 di LLama è open: il problema di Llama è che l’addestramento sulla lingua italiana è fatto su una mole piccola di documenti,  meno dell’1%”, riflette Germani. Che aggiunge: “Gli LLM sono tra gli asset strategici del futuro. L’Europa? Mediamente è rimasta indietro rispetto ad altri territori, come peraltro l’Italia: per questo è necessario non accumulare ulteriore distacco”. E creare, quindi, un modello completamente italiano.

Ma quali sono, allora, gli ingredienti per un LLM tricolore in grado di reggere la competizione? Germani accetta di raccontare il percorso di Fastweb. “Non siamo partiti da modelli esistenti ma da una rete neurale completamente vuota; c’è stata una fase di pre-addestramento realizzata con dataset in lingua italiana. Ci tengo a sottolineare che i dati non sono frutto di scraping [cioè rastrellati sul web, ndr] o di fonti open, ma provengono da fonti di qualità, come la pubblica amministrazione e l’editoria. Una volta creato un dataset equilibrato per la nostra lingua, passeremo a training e fine-tuning”. Secondo Germani, “oggi mancano persino benchmark affidabili per dire quanto un modello performi meglio in lingua italiana. Proprio per questo, un’altra delle sfide che abbiamo raccolto è quella di creare un benchmark di riferimento per la nostra lingua, in collaborazione con l’università”.

Il dirigente non ha dubbi: l’ingrediente fondamentale per farcela a competere  è possedere l’infrastruttura hardware. “L’unica strada è che sia on premises: per questo abbiamo stipulato una partnership con Nvidia, da cui abbiamo acquistato decine di elaboratori Super pod, che useremo per addestrare il nostro LLM e che potremo anche mettere a disposizione dei clienti in modalità di co-progettazione: data la nostra competenza, possiamo aiutare chi lo chiede a mettere a terra le proprie idee”.

Germani parla anche di accordi commerciali. “Nel nostro caso, avremo accordi specifici e chiari con vari soggetti, testi in grado di tutelare ambo le parti. Le forme della collaborazione potranno variare, e stiamo cercando di identificarle tutte: ci vuole tempo, perché si tratta di fattispecie nuove, per cui non esiste una tradizione di riferimento: ognuno approccia l’intelligenza artificiale in maniera diversa, e anche gli editori  stanno sperimentando: e dal loro punto di vista, il tema del copyright è la base di ogni ragionamento”.Nomi non ne fa, ma trattative sarebbero aperte con gruppi attivi nell’informazione e nel comparto editoriale librario. “Abbiamo anche avviato un canale con la pubblica amministrazione” dice Germani. 

Quanto ai dialetti, patrimonio e ricchezza di ogni lingua, c’è una sorpresa: “Quello che notiamo nei test che conduciamo è che un LLM ben costruito sviluppa in maniera naturale una certa capacità di traduzione anche rispetto a fonti dialettali. Basta che vi sia una sufficiente quantità di letteratura disponibile, anche fonti pubbliche”. 

Al lavoro sul modello di Fastweb partecipano, nella squadra interna, circa trentacinque persone, cui si aggiungono un’altra trentina di professionisti esterni. Quanto alle tempistiche, “le prime versioni from scratch arriveranno entro la fine del 2024. La prima questione ora è approntare le macchine che abbiamo acquistato; inoltre, al momento, stiamo testando la bontà del  dataset”. Il resto arriverà. 

Tiscali e il progetto Villanova

Alle aziende in corsa di recente si è aggiunta Tiscali, che ha appena lanciato il progetto di intelligenza artificiale generativa multimodale “Villanova”. Vale la pena di ricordare che l’azienda sarda fu tra i pionieri del web italiano sul finire degli anni Novanta: allora l’isola fu capace di attirare i nomi più prestigiosi a livello mondiale di quell’epoca pionieristica, affiancandoli a giovani di talento: personaggi come il guru Nicholas Negroponte e Reinier van Kelij, 

Oggi Tiscali è tra le cinque imprese selezionate in Italia nell’ambito del primo progetto di comune interesse europeo (Ipcei Cis) sulle tecnologie per la creazione di una catena del valore europea delle infrastrutture e servizi cloud. La Commissione europea ha autorizzato l’Italia all’erogazione di un valore massimo di aiuti di Stato alle cinque imprese italiane partecipanti di circa 409 milioni di euro, su un totale di oltre 1,2 miliardi a livello europeo.

L’obiettivo principale dell’Ipcei Cis, dice Tiscali in una nota, “è la creazione di un ambiente decentralizzato completamente nuovo, che consentirà un’infrastruttura software per l’uso avanzato delle risorse di elaborazione dei dati, dal cloud all’edge. Questo nuovo ecosistema aperto, gestito da più fornitori, ridurrà le dipendenze tecnologiche e gli effetti di lock-in. Inoltre, consentirà una nuova dimensione dei modelli di business basati sui dati, ad esempio legati all’AI e all’IoT, per un ampio spettro di settori e industrie come la produzione, la mobilità, l’energia e il turismo”. 

Per quanto riguarda il Progetto Villanova, “i modelli, i componenti e le tecnologie di AI generativa realizzate saranno in grado di abilitare la creazione dinamica di contenuti testuali e multimediali di alta qualità in tempo reali”, prosegue la società. 

“Il primo aspetto che teniamo in considerazione in questo progetto è avvicinare le piattaforme di intelligenza artificiale ai problemi reali”,  afferma a Guerre di Rete Davide Rota, ad di Tiscali. “Come, del resto, facemmo negli anni Novanta. Questo è il primo passo”. Il secondo è “farlo in un ambiente che non sia nativamente inglese, ottimizzando al massimo i settori più rilevanti: perché è molto più interessante utilizzare l’intelligenza artificiale per la scienza che per pianificarsi la cena. Infine, credo sia necessario realizzare interfacce semplici e sostenibili dal punto di vista energetico”. 

Tutti gli altri 

La lista qui sopra, come detto, non è completa, ed è difficile comparare i progetti italiani a quelli internazionali. Qualcosa, però, pare muoversi davvero, anche se il futuro corre come mai nella storia.  Nuovi progetti nascono di continuo: l’ultimo è della società italiana Almawave sta sviluppando un proprio LLM, Velvet. Il focus sarà sul nostro idioma, ma sono previsti nel progetto anche portoghese brasiliano e swahili. Anche in questo caso, nessun dettaglio rilasciato, se non che arriverà alla fine dell’anno. Come Modello Italia di iGenius, anche Velvet si appoggerà sui supercomputer bolognesi del consorzio interuniversitario Cineca; che, peraltro, ha “prestato” le proprie macchine anche a Mistral. Forse è proprio questa del Cineca, a oggi,  la punta di diamante dell’IT italiano. 


文章来源: https://www.guerredirete.it/un-chatgpt-italiano-van-cercando/
如有侵权请联系:admin#unsafe.sh