OpenAI o1: l'IA che ragiona prima di rispondere ai prompt

OpenAI ha presentato qualche ora fa 2 nuovi modelli di intelligenza artificiale denominati “o1-preview” e “o1-mini“; sono progettati per affrontare problemi complessi. Questi modelli si distinguono per la loro capacità di “ragionare” prima di fornire una risposta. No, OpenAI o1 non è ancora un’AGI! Anche se OpenAI sembra essere sulla strada giusta per arrivarci.

Questa tecnologia il cui nome in codice è il tanto vociferato Strawberry è un significativo passo avanti; supera le prestazioni dei modelli precedenti soprattutto in ambiti come la scienza, la programmazione e la matematica. L’obiettivo principale di OpenAI con questa nuova serie è quello di creare un’intelligenza artificiale in grado di emulare il processo di pensiero umano; analizzando attentamente i problemi, considerando diverse strategie e correggendo eventuali errori durante il processo di ragionamento.

We're releasing a preview of OpenAI o1—a new series of AI models designed to spend more time thinking before they respond.

These models can reason through complex tasks and solve harder problems than previous models in science, coding, and math. https://t.co/peKzzKX1bu
— OpenAI (@OpenAI) September 12, 2024

Questa nuova serie di modelli offre una capacità di problem-solving che durante test di benchmark supera quella di molti esperti umani. Il lancio di questi modelli potrebbe essere una svolta non solo per OpenAI, ma per l’intero campo dell’IA; apre nuove possibilità in settori che richiedono un ragionamento e una comprensione profonda.

Il funzionamento tecnico di OpenAI o1

Il cuore del funzionamento di OpenAI o1-preview risiede in un algoritmo di apprendimento per rinforzo su larga scala. Questo metodo consente al modello di apprendere come utilizzare efficacemente il “Chain of Thought“; ovvero la catena di pensiero, per affrontare problemi in modo produttivo. Durante il processo di addestramento, il modello ottimizza continuamente la sua catena di pensiero attraverso l’apprendimento per rinforzo; migliora progressivamente la sua capacità di risolvere problemi complessi.

OpenAI ha osservato che le prestazioni del modello o1 migliorano significativamente con l’aumento del tempo dedicato all’apprendimento per rinforzo durante l’addestramento e del tempo di inferenza durante i test. Questo approccio basato sull’inferenza si differenzia notevolmente dai metodi tradizionali di pre-addestramento dei modelli linguistici di grandi dimensioni (LLM); offre vantaggi unici in termini di scalabilità e adattabilità a diverse tipologie di problemi.

Il modello o1-preview potenzia notevolmente la sua capacità di affrontare compiti di ragionamento complessi attraverso l’implementazione della Chain of Thought . Questo concetto si ispira al processo cognitivo umano nell’affrontare problemi difficili; scomporre il problema in passaggi più piccoli, sperimenta strategie diverse e corregge gli errori lungo il percorso.

Grazie all’addestramento basato sull’apprendimento per rinforzo, o1-preview è in grado di riflettere approfonditamente prima di fornire una risposta; raffinando progressivamente i passaggi del suo ragionamento. Questo metodo di ragionamento migliora significativamente le prestazioni di o1-preview in compiti complessi. Il modello o1-preview è in grado di scomporre gradualmente la difficoltà di un problema, giungendo infine alla soluzione corretta; un processo che rispecchia il modo in cui gli esseri umani affrontano sfide cognitive impegnative.

Se vuoi approfondire il funzionamento di OpenAI o1 puoi leggere questo pdf.

Valutazione e benchmark di OpenAI o1

Per valutare le prestazioni del nuovo modello o1-preview, OpenAI ha condotto una serie di test, confrontandoli solo con il suo predecessore GPT-4o e con esperti umani in vari campi. OpenAI ha evitato ogni confronto con altri modelli IA come Claude Sonnet 3.5, Gemini, LLama, Grok ed altri.

I risultati di questi test hanno dimostrato un notevole miglioramento delle capacità di ragionamento e problem-solving del nuovo modello.

Uno dei test più significativi è stato l’AIME (American Invitational Mathematics Examination); un esame di matematica avanzata per studenti delle scuole superiori negli Stati Uniti. In questo contesto, il modello o1-preview ha risolto il 93% dei problemi; il modello si posiziona tra i migliori 500 studenti a livello nazionale e supera la soglia per la qualificazione all’Olimpiade Matematica degli Stati Uniti. Questo risultato è notevole se si considera che il modello GPT-4o ha risolto solo il 12% dei problemi nello stesso test.

o1 è valido anche in altri settori

Anche se o1 eccelle in matematica e nel coding, il modello si fa valere anche in altri settori. E’ stato testato sul benchmark MMLU (Massive Multitask Language Understanding); un test che copre 57 diverse materie che vanno dalla storia e letteratura all’economia e alla chimica. In questo test o1 ha sovraperformato GPT-4o in 54 aree su 57 .

Nel benchmark GPQA, che valuta la conoscenza in fisica, chimica e biologia, o1-preview ha superato le prestazioni di esperti con dottorato di ricerca; diventa così il primo modello di IA a raggiungere questo traguardo.

LSAT è l’esame che viene tradizionalmente utilizzato per valutare le capacità di ragionamento logico e analitico degli aspiranti studenti di giurisprudenza. Questo tipo di test può essere utilizzato per valutare le abilità di comprensione del linguaggio naturale, il ragionamento e la capacità di risolvere problemi complessi di un modello di IA. Nel test LSAT (Law School Admission Test) o1 raggiunge il valore di 98.9% ! GPT-4o non andava oltre il 69.5% .

In termini di programmazione, OpenAI o1 ha ottenuto un punteggio Elo di 1807 nei concorsi di programmazione simulati di Codeforces; ha superando il 93% dei concorrenti umani. Questo risultato segna un miglioramento significativo rispetto a GPT-4o, che ottiene un punteggio Elo di 808.

Questi benchmark indicano che OpenAI o1 è in grado di risolvere attività di routine e affrontare problemi altamente complessi in più domini.

Sebbene questi risultati non significhino che o1-preview sia superiore agli esperti umani in tutti i compiti, dimostra un livello di capacità di risoluzione dei problemi che si avvicina o supera quello dei dottori di ricerca in determinati ambiti specifici.

Applicazioni pratiche nella scienza e nella ricerca

Il nuovo modello di ragionamento o1-preview si presta particolarmente bene alla gestione di problemi complessi in ambiti scientifici, di programmazione e matematici. Le sue potenziali applicazioni spaziano in diversi settori cruciali per l’innovazione e la ricerca.

Nel campo medico, i ricercatori possono utilizzare o1-preview per annotare dati complessi di sequenziamento cellulare; si aprono nuove strade per la comprensione di malattie e lo sviluppo di terapie mirate.

Nel settore della fisica, il modello può assistere gli scienziati nella generazione di formule matematiche complesse; particolarmente utili per calcoli nel campo dell’ottica quantistica. Questo potrebbe accelerare la ricerca in aree di frontiera della fisica teorica e applicata.

Per gli sviluppatori software, o1-preview offre un supporto prezioso nella costruzione ed esecuzione di flussi di lavoro multi-step; semplifica la gestione di compiti di programmazione complessi. Questa capacità potrebbe rivoluzionare e velocizzare il modo in cui il software viene sviluppato, debuggato e ottimizzato; porterà a un’efficienza senza precedenti nel ciclo di sviluppo del software.

Applicazioni pratiche alla portata di tutti

Il modello OpenAI o1 può essere di grande aiuto anche per gli utilizzatori comuni. Grazie alle sue avanzate capacità di ragionamento, il modello può essere utilizzato in diversi contesti quotidiani. Ad esempio, potrebbe essere impiegato per analizzare referti medici, fornendo spiegazioni dettagliate e comprensibili delle terminologie mediche complesse; un aiuto a comprendere meglio la propria salute.

Inoltre, il modello può essere utilizzato per supportare l’apprendimento; oppure spiegazioni dettagliate su concetti complessi in matematica o scienze; per rendere più accessibili argomenti che potrebbero risultare difficili da comprendere attraverso i metodi tradizionali.

Un altro esempio pratico è l’uso del modello per la gestione finanziaria personale. Grazie alla sua capacità di analizzare dati complessi ed allegati, il modello potrebbe aiutare a interpretare estratti conto bancari, identificare modelli di spesa e suggerire modi per ottimizzare il budget personale.

Inoltre, il modello potrebbe essere utilizzato per generare idee creative o per assistere nella scrittura di documenti; con suggerimenti di miglioramento stilistico o grammaticale. In ambito educativo, potrebbe supportare gli studenti nello studio; può aiutarli a risolvere problemi matematici o a comprendere meglio i concetti scientifici attraverso spiegazioni passo-passo.

Qui sotto vediamo come sia semplice e alla portata di tutti creare un semplice gioco, il noto Snake, facendosi assistere da o1.

OpenAI o1-mini: una versione più agile e veloce

Parallelamente al lancio di o1-preview, OpenAI ha introdotto o1-mini. E’ una versione più compatta e veloce del modello, focalizzata sulla generazione e il debug di codice. o1-mini si distingue per la sua efficienza in termini di costi, con una riduzione dell’80% rispetto a o1-preview, mantenendo al contempo prestazioni elevate in ambiti STEM (Scienza, Tecnologia, Ingegneria e Matematica).

Il modello eccelle particolarmente in compiti di programmazione, matematica e scienze, offrendo un equilibrio ottimale tra prestazioni e costo computazionale. o1-mini utilizza lo stesso pipeline di apprendimento per rinforzo computazionalmente intensivo di o1 durante il pre-addestramento; genera prestazioni simili su molti compiti di ragionamento, ma a un costo significativamente inferiore. Sebbene le sue prestazioni siano inferiori in compiti che richiedono conoscenze non-STEM, o1-mini si avvicina molto alle capacità di o1-preview e o1 nel campo del ragionamento STEM.

Entrambi i modelli supportano una modesta finestra di contesto fino a 128k token (circa 4 file pdf di poche pagine). In conclusione, l’utilizzo del modello OpenAI o1 richiede una comprensione delle proprie esigenze specifiche e delle capacità del modello. Con la sua capacità di ragionare prima di rispondere, il modello o1 offre un’opportunità unica per affrontare problemi complessi in modo più efficace rispetto ai modelli precedenti.

Come accedere al modello OpenAI o1

L’acesso ai modelli OpenAI o1, noti anche come “Strawberry” per il momento non è gratuito; come lo è invece GPT-4o da browser o da app Android/iOS. Si può accedere già da oggi ai modelli tramite ChatGPT Plus o attraverso l’API di OpenAI, a seconda delle necessità specifiche.

OpenAI potrebbe rendere accessibile a tutti gli utenti gratuiti la versione ridotta o1-mini, entro qualche giorno.

Gli abbonati a ChatGPT Plus possono selezionare il modello o1-preview o o1-mini attraverso il selettore di modelli, con limiti di messaggi settimanali di 30 per o1-preview e 50 per o1-mini. Per gli sviluppatori, l’accesso avviene tramite l’API, che consente di integrare il modello o1 nelle proprie applicazioni.

L’API offre un limite di 20 richieste al minuto, con piani per aumentare questi limiti in futuro. Tuttavia, attualmente l’API non supporta alcune funzionalità avanzate come le chiamate di funzione e le risposte in streaming. Per integrare il modello, è consigliabile consultare la documentazione ufficiale di OpenAI, che fornisce dettagli su come iniziare e sfruttare al meglio le capacità del modello.

Il modello o1-preview è particolarmente adatto per compiti che richiedono un ragionamento complesso e una conoscenza generale ampia, mentre il modello o1-mini offre una soluzione più economica e veloce, ideale per applicazioni che necessitano di capacità di ragionamento senza un ampio bagaglio di conoscenze generali.

Naturalmente, come accade con altri modelli popolari (Claude, Gemini, LLama) anchei modelli o1-preview o o1-mini saranno presto disponibili in servizi di terze parti in abbonamento; parliamo di servizi come Poe, Perplexity e altri. Il servizio You.com ha già inserito i modelli OpenAI o1 nella sua interfaccia.

OpenAI API : prezzi di o1-preview e o1-mini

Se sei uno sviluppatore o ricercatore che utilizza le API di OpenAI, devi sapere che i modelli OpenAI o1-preview e o1-mini presentano differenze significative in termini di costi e funzionalità rispetto GPT-4o.

Il modello o1-preview è il più avanzato della serie, progettato per affrontare compiti complessi che richiedono una conoscenza generale ampia. Questo modello ha un costo di $15 per ogni milione di token di input e $60 per ogni milione di token di output. È particolarmente adatto per applicazioni che richiedono un ragionamento approfondito e una capacità di problem-solving su vasta scala, come la scienza e la matematica avanzata.

D’altra parte, il modello o1-mini è una versione più economica e veloce, ideale per compiti di coding, matematica e scienza. Il costo per il modello o1-mini è notevolmente inferiore, con un prezzo di $3 per ogni milione di token di input e $12 per ogni milione di token di output. Questa riduzione del costo del 80% rispetto al modello o1-preview rende l’o1-mini una scelta eccellente per sviluppatori e ricercatori che necessitano di potenti capacità di ragionamento senza un ampio bagaglio di conoscenze generali.

Pro e contro di OpenAI o1

Abbiamo parlato a lungo dei vantaggi di OpenAI o1. Se vogliamo considerare anche i contro e non solo i pro, bisogna notare che OpenAI o1 richiede un calcolo computazionale molto più elevato se comparato con GPT4-o; di conseguenza è un modello che è più costoso, sia per chi lo usa sia per il dispendio energetico richiesto.

Ma questi sono i prezzi da pagare per l’innovazione IA. OpenAI o1 è anche considerevolmente più lento di GPT4-o, in quanto deve completare la fase di “thinking” prima di rispondere. Il vantaggio è che OpenAI o1 ti darà molto probabilmente la risposta migliore.

Alla domanda “dammi 5 nazioni con la lettera A in terza posizione nel nome“, GPT-4o ha risposto in 3 secondi , ma ha fornito 5 risposte incorrette. Alla stessa domanda o1 ha risposto correttamente, ma il modello ha richiesto 32 secondi. Anche o1-mini risponde correttamente al prompt e con un tempo di soli 9 secondi. Tempo molto inferiore al modello o1, ma il triplo del tempo rispetto GPT-4o.

OpenAI o1: conclusioni

L’introduzione dei modelli o1-preview e o1-mini dimostrano la nuova capacità da parte dei modelli IA di emulare il processo di pensiero umano in modo più accurato, dedicando tempo alla riflessione prima di fornire risposte a problemi complessi.

Le prestazioni in ambiti come la matematica, la programmazione e le scienze aprono nuove possibilità per l’applicazione dell’IA in settori critici della ricerca e dell’innovazione. E’ importante ricordare e considerare che, nonostante questi progressi, l’IA rimane uno strumento da utilizzare con cautela e sotto la supervisione umana. Le implicazioni etiche e sociali dell’implementazione di sistemi di IA così avanzati richiedono una riflessione continua.

Non siamo ad un punto di arrivo, questo è ancora solo l’inizio. OpenAI sta pianificando aggiornamenti e miglioramenti regolari a questi modelli. OpenAI sta inoltre continuando a sviluppare modelli della serie GPT insieme a questa nuova serie o1; poi non dimentichiamoci dell’annunciata e mai lanciata voice chat GPT; quindi ci sarà molto da aspettarsi in futuro. Aspettiamoci anche risposte dalla concorrenza; con Anthropic in prima linea che ancora non ha lanciato Claude Opus 3.5 e che già in passato ha superato le perfomance dei modelli OpenAI.

Ultimi Articoli

OpenAI o1, il modello che ragiona prima di rispondere

Il funzionamento tecnico di OpenAI o1

Valutazione e benchmark di OpenAI o1

o1 è valido anche in altri settori

Applicazioni pratiche nella scienza e nella ricerca