Negli ultimi anni, l’intelligenza artificiale (IA) ha raggiunto risultati considerevoli. Nonostante i notevoli progressi tecnologici, rimane aperta una questione fondamentale. Quanto le tecnologie attuali siano realmente vicine al raggiungimento dell’intelligenza generale artificiale (AGI). Il recente benchmark ARC-AGI-2 introdotto della Arc Prize Foundation rappresenta una nuova valutazione delle capacità generali dei modelli IA.

Questo nuovo test mette alla prova i sistemi soprattutto sulla loro abilità nell’adattarsi efficacemente a situazioni completamente nuove; situazioni mai incontrate prima durante il training. I primi risultati sottolineano chiaramente che c’è ancora molta strada da fare per avvicinare l’IA alle capacità cognitive umane.
ARC-AGI-2: sfida innovativa nell’intelligenza artificiale
ARC-AGI-2 segue e migliora il precedente ARC-AGI-1, un test rimasto inviolato per quasi cinque anni fino alla fine del 2024. La nuova versione del benchmark propone problemi sotto forma di puzzle. Per esempio, i modelli di IA devono riconoscere schemi visivi complessi e restituire la soluzione corretta come griglia colorata. Una novità fondamentale di ARC-AGI-2 è l’introduzione della metrica di efficienza. Questo parametro misura non solo la correttezza delle soluzioni proposte, ma anche il tempo e il costo necessari per arrivarvi.

I risultati preliminari dimostrano chiaramente le attuali difficoltà dei modelli IA avanzati. Modelli “ragionanti” come OpenAI o1-pro e DeepSeek R1 raggiungono appena l’1-1,3%. Anche modelli estremamente performanti, sebbene non focalizzati esclusivamente sul ragionamento come GPT-4.5, Claude 3.7 Sonnet e Gemini 2.0 Flash, ottengono punteggi simili, intorno all’1%. In confronto, il punteggio medio ottenuto da un campione di oltre 400 esseri umani è stato del 60%; quindi, un ampio divario ancora esistente fra macchine e persone nella gestione di problemi generali.

L’efficienza nell’evoluzione dell’IA
Una caratteristica distintiva introdotta con ARC-AGI-2 è proprio il concetto di efficienza. François Chollet, noto ricercatore e cofondatore della Arc Prize Foundation, ha sottolineato come il principale limite di ARC-AGI-1 fosse la possibilità di risolvere problemi complessi tramite l’uso massivo della potenza computazionale, o “forza bruta”.
ARC-AGI-2 invece obbliga i modelli a interpretare e risolvere i problemi in tempo reale; senza utilizzare strategie basate sulla memorizzazione o sull’utilizzo intensivo di risorse. Un esempio emblematico è il modello o3 di OpenAI: vincitore indiscusso di ARC-AGI-1 con il 75,7%, ha ottenuto solo il 4% su ARC-AGI-2; e con un costo abbastanza elevato di circa 200 dollari per singolo problema risolto. Ciò dimostra chiaramente che l’efficienza rappresenta ora un criterio fondamentale nella valutazione della reale intelligenza artificiale generale.
ARC Prize 2025: competizione come stimolo all’innovazione

In parallelo al lancio del nuovo benchmark, la Arc Prize Foundation ha annunciato una competizione internazionale per il 2025. Il fondo premi complessivo sarà di 1 milione di dollari. La sfida proposta agli sviluppatori è raggiungere almeno l’85% di accuratezza su ARC-AGI-2, mantenendo il costo per soluzione molto basso (circa 0,42 dollari per task). L’obiettivo di questa competizione è di stimolare lo sviluppo di nuovi metodi e idee per superare i limiti attuali della ricerca sull’IA. L’attenzione sempre più elevata verso nuovi e più sofisticati benchmark dimostra la necessità di metriche più appropriate per valutare il reale progresso verso l’AGI.
ARC-AGI-2: conclusioni
La presentazione del benchmark ARC-AGI-2 rappresenta un momento significativo nella comprensione e nello sviluppo dell’AGI. Nonostante i risultati attuali evidenzino limiti significativi nei modelli esistenti, rappresentano anche una chiara indicazione della direzione della ricerca: efficienza, flessibilità e capacità di apprendimento autonomo.
ARC Prize 2025 potrebbe quindi svolgere un ruolo determinante nel promuovere nuove idee, accelerando l’innovazione tecnologica e avvicinando sempre più le capacità delle macchine a quelle della mente umana.