Microsoft ha appena annunciato il lancio di Phi-3-Mini, un modello IA compatto ma sufficientemente potente per eseguire attività direttamente su smartphone e laptop. Nonostante la sua dimensione ridotta, Phi-3-Mini promette prestazioni paragonabili a quelle di modelli più grandi (fino a x10 volte più grandi secondo lo studio), grazie a un processo di addestramento incentrato sulla qualità dei dati piuttosto che sulla quantità.
Phi-3-Mini fa parte di una nuova famiglia di tre modelli IA compatti annunciati da Microsoft, con i modelli Phi-3-Small e Phi-3-Medium che verranno rilasciati nei prossimi mesi o settimane. Il Phi-3-Mini è un evoluzione del Phi-2-Mini che Microsoft aveva rilasciato a dicembre.
Phi-3-Mini: addestramento mirato
L’addestramento di Phi-3-Mini si basa su un insieme di dati relativamente piccolo di 3,3 trilioni di token, ma nonostante questo Microsoft afferma che il modello può eguagliare le prestazioni di LLM anche dieci volte più grandi grazie al suo processo di addestramento innovativo. Anziché fare affidamento su enormi quantità di dati web non elaborati/filtrati, Phi-3-Mini è stato addestrato su un insieme di dati altamente filtrati e su dati sintetici generati da altri modelli di IA.
Secondo Microsoft, questo approccio basato sulla qualità piuttosto che sulla quantità dei dati, ha permesso a Phi-3-Mini di deviare dalle tipiche “leggi di scalabilità” che regolano le prestazioni dei modelli di IA. Quindi non sempre “più grande” significa “migliore” quando si crea un modello IA.
Nei test interni e nelle valutazioni open source, il modello ha dimostrato prestazioni superiori rispetto a modelli più grandi come Mixtral 8x7B e addirittura di GPT 3.5, pur mantenendo un ingombro ridotto di soli 3,8 miliardi di parametri in grado di essere eseguito su pc, smartphone e laptop.
Vantaggi dei modelli di IA compatti
Mentre i giganteschi modelli di linguaggio (LLM) come GPT-4 hanno applicazioni più vaste, l’ascesa di modelli IA mirati e leggeri come Phi-3-Mini potrebbe segnare un cambiamento nell’accessibilità e nell’adozione dell’intelligenza artificiale da parte delle aziende che necessitano di modelli da eseguire su dispositivi con risorse limitate. Per esempio i modelli mini sono molto ricercati dai produttori di smartphone e laptop che vogliono affiancare un modello IA che sia in grado di essere eseguito in locale.
Uno dei principali vantaggi dei modelli di IA compatti è la loro capacità di funzionare localmente, eliminando la necessità di connettersi a potenti sistemi cloud. Questa caratteristica potrebbe essere particolarmente vantaggiosa per chi desidera mantenere la privacy e la sicurezza di dati sensibili.
Microsoft non è l’unica azienda tecnologica a scommettere sui modelli di IA compatti. Concorrenti come Google, Anthropic e Meta hanno recentemente introdotto i propri modelli leggeri mirati a compiti specifici, come chatbot linguistici, riassunti di documenti di ricerca e assistenza alla codifica.
Per esempio sta avendo molto successo il modello Gemini Nano utilizzato in locale sul Samsung S24, sul Pixel 8 Pro e forse lo vedremo anche su iPhone 16. Altri competitore di Phi-3-Mini , oltre a Gemini Nano, sono Claude Haiku, i modelli Gemma di Google, nonché i modelli mini di Mistral come il Mixtral 8x7B.
Inoltre, poiché molte aziende dispongono di set di dati interni relativamente piccoli, i modelli compatti addestrati su quantità di dati gestibili possono offrire prestazioni ottimali per casi d’uso specifici, come la generazione di contenuti, la codifica o la risoluzione di problemi matematici strettamenti legati ai compiti dell’azienda.
Sfide e limitazioni dei modelli compatti
Nonostante i potenziali vantaggi, i modelli di IA compatti come Phi-3-Mini non sono privi di limitazioni. Microsoft riconosce che, a causa delle sue dimensioni ridotte, Phi-3-Mini è attualmente limitato alla lingua inglese e potrebbe essere soggetto a maggiori problemi di allucinazioni (ovvero risposte incoerenti o inventate).
Sebbene sia lontano dal produrre risultati simili alle LLM basate sul cloud, Phi-3 Mini può superare Phi-2 e altri modelli linguistici di piccole dimensioni (Mistral, Gemma, Llama-3-In) in compiti che vanno dalla matematica alla programmazione ai test accademici. La tabella benchmark qui sotto mostra i risultati del modello Phi-3 Mini. Include anche i modelli Phi-3 Small e Medium non ancora rilasciati.
Inoltre, il modello ha una capacità limitata di archiviare “conoscenze fattuali” a causa delle dimensioni ridotte del suo set di dati di addestramento. Tuttavia, Microsoft suggerisce che questa limitazione potrebbe essere affrontata in futuro abbinando Phi-3-Mini a un motore di ricerca.
Nonostante queste sfide, l’introduzione di Phi-3-Mini segna un passo importante verso la democratizzazione dell’intelligenza artificiale, rendendo questa tecnologia potente più accessibile a un’ampia gamma di dispositivi e utenti individuali.
Come testare Phi-3-Mini
Se sei interessato a testare il nuovo micro-chatbot di Microsoft, Phi-3-Mini è già disponibile al download per uso pubblico. Microsoft ha recentemente aggiunto Phi-3 alla propria piattaforma di servizi cloud, la galleria di modelli di Azure; inoltre il bot è disponibile anche sui siti di modelli open source Hugging Face e Olloma.
Come al solito puoi testare il modello Phi-3-Mini tramite uno dei software gratuiti a disposizione come LMStudio , Ollama , GPT4ALL, chatllm, Faraday o altri.
Anche Poe, dovrebbe rendere disponibile a breve Phi-3-Mini, sul suo aggregatore di modelli LLM.