L’Intelligenza Artificiale sta rapidamente trasformando il nostro mondo, integrandosi in ogni aspetto della nostra vita quotidiana, dal software per computer alle app per smartphone. Ma c’è un problema: la carenza di dati.
Secondo alcuni studi universitari, i dati utili per continuare ad “addestrare” le LLM sono in esaurimento. I dati linguistici di alta qualità potrebbero esaurirsi entro il 2027 !
I dati sono il carburante dell’IA
I sistemi di IA hanno bisogno di enormi quantità di dati, noti come big data, per poter apprendere ed evolvere. Senza una quantità sufficiente di dati di qualità, l’IA non può progredire.
Man mano che vengono “nutriti” di grandi set di dati, gli algoritmi di machine learning migliorano le proprie capacità di comprensione ed elaborazione delle informazioni. Possono riconoscere pattern sempre più complessi e sofisticati, fino a simulare capacità umane come il linguaggio, la visione, il ragionamento logico.
Perché i dati sono considerati in esaurimento ?
A causare l’imminente carenza di dati è una combinazione di più fattori:
- la quantità di dati generati a livello globale sta rallentando rispetto al passato. Dopo anni di crescita esponenziale, la produzione di nuovi dati utili sta subendo un forte rallentamento.
- molti dei dati prodotti non sono adeguati per l’addestramento IA. Ad esempio, contenuti multimediali come video e immagini spesso non sono adeguatamente taggati e metadatati per poter essere sfruttati.
- ridondanza nei dati. Gran parte dei dati prodotti sono in realtà duplicati o comunque molto simili a dati già esistenti, quindi il loro valore aggiunto per l’IA è minimo.
- le leggi sulla privacy stanno limitando l’utilizzo dei dati. Normative come il GDPR stanno a volte giustamente limitando l’uso incontrollato dei dati personali, ma questo si traduce anche in minori quantità di dati a disposizione per l’addestramento AI.
Le aziende tecnologiche affrontano una carenza di dati interni
Le grandi aziende tecnologiche come Google, Meta e Microsoft possiedono enormi quantità di dati. Però hanno già utilizzato la stragrande maggioranza dei dati interni in loro possesso. Ora cominciano ad avere difficoltà a reperire nuovi dati per migliorare i loro modelli di IA.
Un esempio è Meta, che attualmente non dispone di abbastanza dati per addestrare efficacemente i suoi sistemi di intelligenza artificiale. Sta cercando modi per generare più dati internamente chiedendo ai dipendenti di etichettare determinati contenuti. Ma questi sforzi non sono sufficienti per produrre i grandi volumi di dati necessari.
La necessità di nuovi dati aumenta esponenzialmente
Man mano che l’IA diventa più avanzata, la quantità di dati necessaria per continuare ad effettuare progressi aumenta in modo esponenziale. I modelli di linguaggio di grandi dimensioni, come GPT o Claude, richiedono miliardi di parametri e quantità immense di testo per l’addestramento. Questa necessità di dati cresce in modo esponenziale con l’aumentare delle capacità dell’IA.
Raccogliere tali volumi di dati aggiuntivi sta diventando una sfida. Secondo questo studio, l’addestramento dei modelli di linguaggio raddoppia ogni anno e mezzo circa. Mantenere questo ritmo di crescita nel lungo periodo sarà difficile data la carenza di dati, e questo bloccherà l’evoluzione delle capacità IA.
Cosa comporta la carenza di dati
Se la carenza di dati utili per l’IA continuerà, le conseguenze per lo sviluppo tecnologico potrebbero essere pesanti.
Blocco nello sviluppo di nuove applicazioni: senza nuovi dati, l’IA non può migliorare le sue capacità e quindi non si potranno sviluppare nuove applicazioni sempre più “intelligenti” in tutti gli ambiti.
Stagnazione della ricerca sull’IA: non sarà più possibile sperimentare nuovi modelli e algoritmi.
Impatto sull’economia digitale: settori come l’IoT, i veicoli a guida autonoma, la robotica avanzata, non potrebbero progredire, con eventuali ricadute economiche.
Problemi di sicurezza: sistemi IA già distribuiti e basati su vecchi dati diventerebbero più vulnerabili a minacce e attacchi.
Creare dati sintetici: possibile soluzione alla carenza di dati
Per ovviare al problema della scarsità di dati, le aziende tecnologiche stanno investendo nella creazione di grandi set di dati sintetici per addestrare l’IA. I dati sintetici sono dati generati da modelli statistici e di machine learning, e non raccolti dal mondo reale.
I dati sintetici, se generati correttamente, permettono di espandere la quantità di dati utilizzabili per l’IA. Tuttavia, c’è il rischio che introducano distorsioni e pregiudizi nei modelli se i dati originali presentano problemi. La qualità e rappresentatività dei dati sintetici è quindi fondamentale.
Ad esempio, è possibile generare immagini sintetiche di oggetti realistici che non esistono nella realtà. Queste immagini artificiali possono essere utilizzate per addestrare reti neurali per il riconoscimento visivo. Analogamente, si possono produrre testi generati da modelli di linguaggio addestrati su grandi corpora di testi reali.
Conclusioni
La carenza di dati a disposizione è una minaccia per il futuro sviluppo ed evoluzione dell’IA. Sono necessarie nuove fonti di dati di qualità per continuare ad alimentare le LLM (large language models) dell’intelligenza artificiale.
Soluzioni promettenti sono la generazione di ingenti quantità di dati sintetici e l’adozione di rigorosi standard etici per l’utilizzo di dati reali. E’ una sfida che richiederà sforzi congiunti tra ricercatori, autorità e aziende tecnologiche per garantire all’IA l’enorme quantità di dati di cui ha bisogno.