L’azienda Cognition ha presentato ieri Devin, definito come il primo ingegnere software IA al mondo in grado di codificare, creare siti Web e software, tramite un unico prompt, progettato per lavorare a fianco degli ingegneri umani. Non è poco.
Fino ad oggi abbiamo visto chatbot IA di vario genere; in grado di rispondere a dei prompt testuali, generatori di immagine da prompt come Midjourney, DALL-E 3 e Stable Diffusion; anche generatori di musica come Suno, oppure generatori di video realistici partendo da un prompt come Sora.
Devin AI
Ora con Devin, è possibile realizzare un intero software partendo da un prompt. Se con i chatbot che conosciamo è già possibile chiedere aiuto in alcune parti del codice, ora Devin sarà in grado di generare un intero software partendo da un prompt, come se fosse un generatore di immagine.
Cognition non lo sta pubblicizzando come un sostituto degli ingegneri informatici umani, ma come un “compagno di squadra” con cui lavorare più velocemente e meglio. Con Devin, gli ingegneri informatici potranno concentrarsi su problemi e idee più interessanti. Mentre il lavoro più duro e tedioso lo fanno fare a Devin.
Cognition ha presentato il modello testando Meta’s Llama 2 su Replicate, Perplexity e Together (video sotto). Il sistema è stato in grado di costruire l’intero progetto, auto correggendo gli errori durante la creazione.
Devin può risolvere le attività richieste tramite prompt. Utilizza il proprio editor di codice, una shell, e un browser web, come se fosse un ingegnere informatico al lavoro.
Può ricordare il contesto rilevante, imparare nel tempo e correggere gli errori. Ciò che distingue Devin è la sua capacità di pianificare compiti complessi; una sorta di “ragionamento” che lo porta a completare la richiesta iniziale.
L’ex direttore di Tesla AI, Andrej Karpathy ha descritto così Devin: “Devin è una dimostrazione impressionante di ciò che forse seguirà dopo: coordinare una serie di strumenti che uno sviluppatore deve mettere insieme per scrivere codice: un terminale, un browser, un editor di codice, ecc., e una supervisione umana che si sposta a un livello sempre più elevato di astrazione”.
Il fondatore di Perplexity, Aravind Srinivas ha affermato che “sembra varcare la soglia del livello umano e funzionare in modo affidabile“.
Le performance di Devin
Cognition ha testato Devin su SWE-bench, un benchmark che chiede agli agenti di risolvere i problemi reali di GitHub riscontrati in progetti open source come Django e scikit-learn.
Devin ha risolto correttamente il 13,86% dei problemi end-to-end. I migliori modelli precedenti sono stati in grado di risolvere solo il 4,80% dei problemi (Claude 2); in più, con l’assistenza di un umano. Mentre Devin ha raggiunto quel punteggio senza assistenza di un umano. Sarebbe stato interessante vedere in questa tabella anche il risultato il Claude 3 Opus.
Chi è Cognition
L’azienda Cognition si definisce un laboratorio di intelligenza artificiale focalizzata sul ragionamento.
Cognition vuole realizzare dei collaboratori IA con capacità che vanno ben oltre gli strumenti IA esistenti che non sono in grado di eseguire un ragionamento. Attraverso il ragionamento applicato all’IA, Cognition vuole aprire possibilità in un’ampia gamma di discipline: il codice è solo l’inizio.
La startup è stata fondata nel novembre 2023. Ha già ottenuto un finanziamento di 21 milioni di dollari guidato dal Founders Fund di Peter Thiel.
Alcuni personaggi noti come Fred Ehrsam, fondatore della piattaforma crittografica Coinbase, il CEO di DoorDash Tony Xu e l’investitore di tecnologia Elad Gil sono tra coloro che sostengono Cognition.
Conclusione
Sembra che Cognition abbia realizzato qualcosa che va oltre un modello di linguaggio di grandi dimensioni (LLM) addestrato. Devin sembra che si avvicini di più a un AGI, ovvero un sistema in grado di eseguire qualsiasi compito intellettuale che un essere umano possa fare, come ad esempio apprendere, ragionare, risolvere problemi, comprendere il linguaggio naturale e pianificare. Caratteristiche richieste per portare a fine la creazione di un software partendo da un prompt.
Per ora non c’è niente da provare e niente di disponibile al pubblico. Al momento si può solo entrare in una lista di attesa per provare Devin.ai. Non è neanche ben chiaro se Devin sarà limitato solo alle aziende o anche a singoli sviluppatori, ma nel blog, Cognition afferma “Vogliamo aiutare le persone di tutto il mondo a trasformare le loro idee in realtà“.
Una cosa è chiara, stiamo andando verso un futuro in cui la creazione di un software sarà limitata solo dall’immaginazione e dall’idea del progetto.
2 commenti
Anche chatgpt con qualche piccola dritta corregge gli errori di codice che ogni tanto genera… Semplicemente ri-attinge alla base dati cercando di non mandare in errore quanto già generato… Da qui a parlare si “ragionamento” serve l’unica funzione in grado di risolvere qualsiasi problema (a parole) : il marketing.
Ciao Nicola, ho scritto anche io nell’articolo che con i chatbot attuali si può lavorare con il codice e se hai letto le conclusioni ho sottolineato due volte che “sembra” che si avvicini di più a un AGI che a un modello LLM addestrato.Comunque questa mattina ho visto che qualcuno (al di fuori di Cognition) che era in lista di attesa, ha già avuto la possibilità di provarlo
https://twitter.com/mckaywrigley/status/1767985840448516343
dopo aver visto il video direi che Devin è molti passi avanti ad un chatbot LLM, è un vero è proprio agente IA che lavora per te.