I dati sintetici salveranno l’intelligenza artificiale?

di Andrea Daniele Signorelli

Se i dati sono il cibo di cui si alimenta l’intelligenza artificiale, allora ChatGPT e i suoi fratelli hanno davanti a loro una seria minaccia: la carestia. Da qualche tempo gli addetti ai lavori stanno infatti lanciando l’allarme sul rischio che i dati disponibili per addestrare i large language model (i modelli linguistici in grado di generare testi di ogni tipo, come ChatGPT) si stiano esaurendo.

È ciò che in termini tecnici viene definito “data wall”: il momento in cui tutti i dati disponibili online sono stati già utilizzati oppure sono resi inaccessibili. Uno scenario che potrebbe seriamente compromettere l’evoluzione dell’intelligenza artificiale, il cui sviluppo necessita di una quantità sempre crescente di “token” (le porzioni di testo impiegate in fase di addestramento): se per addestrare GPT-3, ovvero il modello linguistico alla base della prima versione di ChatGPT, erano stati necessari 500 miliardi di token testuali (tra cui l’intera Wikipedia in lingua inglese e ampie porzioni di forum come Reddit), per GPT-4 si stima che ne siano stati invece utilizzati 13mila miliardi, quasi trenta volte tanto.

Discussione su questo Post