I ricercatori di Google DeepMind hanno dimostrato che i moderni modelli di intelligenza artificiale, come Chinchilla 70B, sono in grado di comprimere file audio e immagini meglio dei programmi specializzati in compressione audio come FLAC e video come PNG. Questa incredibile capacità è dovuta al fatto che i modelli IA imparano a prevedere i dati, e la previsione è strettamente legata alla compressione.
Cosa significa comprimere un file?
Quando parliamo di compressione intendiamo ridurre le dimensioni di un file, in modo da occupare meno spazio su disco o trasmetterlo più velocemente su internet. Ad esempio, le foto scattate dalla fotocamera digitale in formato JPEG vengono compresse rispetto all’immagine originale RAW. La compressione JPEG elimina dettagli impercettibili all’occhio umano riducendo lo spazio occupato dall’immagine anche di 10 volte.
Esistono due tipi di compressione: lossy e lossless. La compressione lossy come JPEG deteriora un po’ la qualità dell’immagine originale per ottenere file più piccoli. La compressione lossless invece riduce le dimensioni senza perdita di qualità, mantenendo intatte tutte le informazioni originali. PNG e FLAC sono esempi di formati di compressione lossless rispettivamente per immagini e audio.
Modelli IA superano programmi specializzati
I ricercatori di Google DeepMind hanno provato a comprimere file immagini e audio usando grandi modelli di intelligenza artificiale addestrati per il linguaggio come Chinchilla 70B. Hanno scoperto che questi modelli, anche se addestrati principalmente su testo, comprimono decisamente meglio di programmi specializzati in compressione lossless come PNG e FLAC!
Ad esempio, Chinchilla 70B comprime immagini ImageNet a solo il 43.4% delle dimensioni originali, mentre PNG arriva al 58.5%. Su file audio LibriSpeech, Chinchilla ottiene il 16.4% contro il 30.3% di FLAC. Quindi i modelli IA migliorano la compressione lossless del 26% per le immagini e del 45% per l’audio!
Confronto con il programma di compressione gzip
Oltre a formati specializzati come PNG e FLAC, i ricercatori hanno confrontato la compressione dei modelli IA anche con noti programmi di compressione generici come gzip (gz).
Gzip sfrutta gli algoritmi di compressione LZ77 e Huffman coding ed è considerato uno dei migliori compressori generici. Tuttavia, dai test anche gzip viene surclassato dai modelli IA !
Ad esempio, su file di testo Wikipedia, il modello Chinchilla 70B ottiene un tasso di compressione del 21%, significativamente migliore rispetto al 32.3% di gzip. Su immagini ImageNet, Chinchilla comprime al 43.4% contro il 70.7% di gzip. Infine, su file audio LibriSpeech il tasso di Chinchilla è 16.4% rispetto al 36.4% di gzip.
Quindi i modelli IA superano gzip di un ampio margine, da 1.5x a 2x in termini di tasso di compressione a seconda della tipologia di dati. Questo dimostra la superiorità dell’apprendimento profondo rispetto agli algoritmi tradizionali di compressione su una vasta gamma di modalità.
Come fanno i modelli IA a comprimere così bene?
La ragione di queste performance è che i moderni modelli IA come Chinchilla sono addestrati specificamente a prevedere la prossima parola in una frase. Questa capacità di fare previsioni accurate si trasferisce anche a prevedere il prossimo byte in una sequenza di byte arbitraria, come quella di un file immagine o audio.
Secondo il teorema di Shannon sulla codifica delle sorgenti, la lunghezza ottimale di codifica di un messaggio è uguale all’entropia della distribuzione statistica che lo ha generato. In altre parole, se un modello è bravo a prevedere i dati, può anche comprimerli efficacemente.
I ricercatori hanno usato un metodo di compressione lossless chiamato arithmetic coding insieme ai modelli IA. Questo metodo assegna intervalli di codifica variabili ai simboli (nel caso di file binari, ai byte), basati sulle probabilità predette dal modello. Più il modello prevede correttamente i simboli, più saranno compressi!
L’importanza dell’apprendimento in-contesto
Ma come fa Chinchilla 70B, addestrato su frasi in inglese, a comprimere così bene anche immagini e audio mai lavorati prima? La chiave è la sua capacità di apprendimento in-contesto: riesce ad adattarsi rapidamente alla nuova modalità di dati semplicemente osservando pochi esempi dentro il contesto.
I modelli IA di grandi dimensioni come Chinchilla hanno miliardi di parametri che permettono questa rapida specializzazione in-contesto grazie alle loro impressionanti abilità di generalizzazione. In pratica, è come se il modello dicesse “ho capito che tipo di dati sono questi, ora posso prevederli efficacemente“.
Questa flessibilità rende i modelli IA capaci di eccellere in diversi ambiti.
Limiti dell’apprendimento in-contesto
Tuttavia l’apprendimento in-contesto ha ancora dei limiti. La lunghezza del contesto, cioè quanti byte il modello può osservare contemporaneamente, limita le prestazioni di compressione. Infatti all’aumentare della lunghezza del contesto, tipicamente migliora la compressione perché il modello ha più informazioni a disposizione.
I ricercatori hanno anche osservato che le dimensioni del modello IA sono critiche: troppo piccolo e non comprime abbastanza, troppo grande e i suoi parametri occupano troppa memoria. Per ogni tipo di dati esiste una taglia ottimale di modello IA che bilancia prestazioni di compressione e dimensioni del modello stesso.
Chincilla AI
Chincilla AI è un modello linguistico di intelligenza artificiale sviluppato da Google DeepMind nel 2022. Si tratta di un sistema di deep learning in grado di generare testo in modo automatico a partire da brevi prompt forniti dall’utente. Chincilla AI è stato progettato per essere più veloce e accurato rispetto ad altri modelli linguistici come ChatGPT, pur mantenendo costi computazionali equivalenti. Secondo i creatori di DeepMind, Chincilla è in grado di ottenere risultati più accurati del 7% rispetto ai competitor a parità di parametri di modello. Ciò è stato raggiunto ottimizzando l’architettura e le funzioni di perdita durante l’addestramento su grandi quantità di dati testuali. Attualmente Chincilla AI rappresenta uno dei modelli linguistici più avanzati nel campo dell’intelligenza artificiale.
Conclusioni
Questa ricerca mostra quanto i moderni modelli IA siano straordinariamente potenti e generali grazie alle loro capacità di apprendimento in-contesto e previsione. Riescono a comprendere nuove modalità di dati e migliorare in modo significativo la compressione lossless rispetto a programmi specializzati.
Tuttavia ci sono ancora margini di miglioramento aumentando la lunghezza del contesto che il modello può osservare contemporaneamente. I ricercatori dovranno anche trovare il giusto equilibrio tra dimensioni del modello e prestazioni di compressione.
Questi progressi nell’intelligenza artificiale hanno il potenziale per migliorare drasticamente la gestione e trasmissione efficiente di immagini, video, audio e altri contenuti digitali.