I dati sintetici salveranno l’intelligenza artificiale?
人工智能的数据来源面临枯竭风险。大型语言模型如ChatGPT的训练依赖海量文本数据("token"),但随着可用数据被耗尽或受限("数据墙"),其发展可能受阻。从GPT-3到GPT-4,所需训练数据量激增近30倍(从5000亿到1.3万亿token)。 2025-3-20 07:1:39 Author: guerredirete.substack.com(查看原文) 阅读量:28 收藏

di Andrea Daniele Signorelli

Se i dati sono il cibo di cui si alimenta l’intelligenza artificiale, allora ChatGPT e i suoi fratelli hanno davanti a loro una seria minaccia: la carestia. Da qualche tempo gli addetti ai lavori stanno infatti lanciando l’allarme sul rischio che i dati disponibili per addestrare i large language model (i modelli linguistici in grado di generare testi di ogni tipo, come ChatGPT) si stiano esaurendo.

È ciò che in termini tecnici viene definito “data wall”: il momento in cui tutti i dati disponibili online sono stati già utilizzati oppure sono resi inaccessibili. Uno scenario che potrebbe seriamente compromettere l’evoluzione dell’intelligenza artificiale, il cui sviluppo necessita di una quantità sempre crescente di “token” (le porzioni di testo impiegate in fase di addestramento): se per addestrare GPT-3, ovvero il modello linguistico alla base della prima versione di ChatGPT, erano stati necessari 500 miliardi di token testuali (tra cui l’intera Wikipedia in lingua inglese e ampie porzioni di forum come Reddit), per GPT-4 si stima che ne siano stati invece utilizzati 13mila miliardi, quasi trenta volte tanto.

Leggi tutto.

Discussione su questo Post


文章来源: https://guerredirete.substack.com/p/i-dati-sintetici-salveranno-lintelligenza
如有侵权请联系:admin#unsafe.sh