Con un post su Twitter, Anthropic una startup fondata nel 2021 da un gruppo di ricercatori che hanno lasciato OpenAI, ha lanciato il suo nuovo modello di intelligenza artificiale: Claude 2.
Dal comunicato stampa pubblicato sul sito risulta che il nuovo modello, Claude 2, ha prestazioni migliorate, risposte più lunghe e può essere accessibile tramite API come un sito beta pubblico, claude.ai.
Claude viene proposto come un collega o assistente personale che può essere istruito in linguaggio naturale per aiutare in molte attività. Lavorando sui modelli precedenti, gli sviluppatori hanno apportato miglioramenti sulla codifica, matematica e ragionamento. Per esempio, Claude 2 ha ottenuto un punteggio di 76,5% nella sezione a scelta multipla dell’esame di abilitazione alla professione forense, rispetto al 73,0% con Claude 1.3. Un altro esempio riportato sul sito è stato quello in riferimento al GRE (Graduate Record Examination) che rappresenta un test standardizzato richiesto per l’ammissione a molte scuole di specializzazione negli Stati Uniti durante il quale viene valutata la capacità del candidato di comprendere, analizzare e valutare il materiale scritto e la capacità di articolare idee complesse in modo chiaro ed efficace: Claude 2 ha ottenuto punteggi superiori al 90% negli esami di lettura e scrittura e simili al candidato mediano nel ragionamento quantitativo.
Un altro miglioramento importante lo rappresentano i token, ovvero la lunghezza dell’input e dell’output di Claude: si possono inserire fino a 100K token in ogni prompt, il che significa che “Claude può lavorare su centinaia di pagine di documentazione tecnica o anche un libro e può anche scrivere documenti più lunghi – da memo a lettere a storie fino a qualche migliaio di token – tutto in una volta.”
Riguardo le competenze di codifica, Claude 2 ha ottenuto il 71,2% rispetto al 56,0% sul Codex HumanEval, un test di codifica Python. Su GSM8k, un insieme di problemi matematici per la scuola elementare, Claude 2 ha ottenuto l’88,0% rispetto all’85,2%. Con una roadmap ben definita di miglioramenti previsti per Claude 2, la società assicura che saranno implementate nei prossimi mesi.
Un altro ambito migliorato è quello della sicurezza: è più difficile da sollecitare Claude 2 a produrre output offensivi o pericolosi. Utilizzando una valutazione interna del red-teaming per i loro modelli su un grande set rappresentativo di prompt dannosi, Claude 2 è risultato 2 volte migliore nel dare risposte innocue rispetto a Claude 1.3. “Anche se nessun modello è immune dalle jailbreaks, abbiamo utilizzato una varietà di tecniche di sicurezza, così come un ampio red-teaming, per migliorare i suoi output.
Le nuove competenze di Claude 2 sono state già testate da vari aziende che collaborano con Anthropic e i loro feedback sono più che incoraggianti. Eccone alcuni:
Jasper è una piattaforma AI generativa che consente a persone e team di scalare le loro strategie di contenuti: Claude 2 è in grado di competere con altri modelli all’avanguardia per una vasta gamma di casi d’uso, ma ha una particolare forza per gli usi a bassa latenza di lunga durata. “Siamo veramente felici di essere tra i primi a offrire Claude 2 ai nostri clienti, portando semantica migliorata, formazione di conoscenze aggiornata, ragionamento migliorato per prompt complessi e la capacità di remixare facilmente contenuti esistenti con una finestra di contesto 3 volte più grande”, ha detto Greg Larson, VP of Engineering presso Jasper. “Siamo orgogliosi di aiutare i nostri clienti a rimanere all’avanguardia attraverso partnership come questa con Anthropic.”
Sourcegraph è una piattaforma AI di codice che aiuta i clienti a scrivere, correggere e mantenere il codice. Il loro assistente di codifica Cody utilizza la capacità di ragionamento migliorata di Claude 2 per dare risposte ancora più accurate alle query degli utenti mentre passa anche più contesto del codebase con fino a 100K finestre di contesto. Inoltre, Claude 2 è stato addestrato su dati più recenti, il che significa che ha conoscenza di nuovi framework e librerie da cui Cody può attingere. “Quando si tratta di codifica AI, gli sviluppatori hanno bisogno di un accesso rapido e affidabile al contesto del loro codebase unico e di un potente LLM con una grande finestra di contesto e forti capacità di ragionamento generale”, afferma Quinn Slack, CEO e Co-fondatore di Sourcegraph. “Le parti più lente e frustranti del flusso di lavoro dello sviluppatore stanno diventando più veloci e più piacevoli. Grazie a Claude 2, Cody sta aiutando più sviluppatori a costruire più software che spinge il mondo avanti.”
Claude 2 è generalmente disponibile negli Stati Uniti e nel Regno Unito, ma si intende renderlo più disponibile a livello globale nei prossimi mesi.