Durante la conferenza per sviluppatori Microsoft Build 2024, Microsoft ha annunciato un’importante aggiunta alla sua famiglia di modelli di linguaggio compatti Phi-3: Phi-3-vision. Questo modello multimodale di solo 4,2 miliardi di parametri combina capacità di elaborazione del linguaggio naturale con abilità di ragionamento visivo generale e comprensione di grafici, diagrammi e tabelle. E’ progettato per scenari di IA on-device, ovvero per essere eseguito in locale su PC e laptop, aprendo nuove possibilità per applicazioni a bassa latenza.
Insieme agli altri membri della famiglia Phi-3, come Phi-3-mini, Phi-3-small e Phi-3-medium, Microsoft fornisce ora un versatile toolkit per sviluppatori che desiderano sfruttare l’IA nei loro progetti, mantenendo costi contenuti e prestazioni elevate.
Phi-3-vision: combinare linguaggio e visione in un modello compatto
Phi-3-vision si distingue per la sua capacità di elaborare sia testo che immagini come input, generando risposte testuali. Con soli 4,2 miliardi di parametri, questo modello multimodale offre prestazioni notevoli in compiti di ragionamento visivo generale, comprensione di grafici, diagrammi e tabelle; e persino estrazione e interpretazione di testo da immagini (OCR).
La potenza di Phi-3-vision risiede nella sua architettura compatta ma efficiente. Basandosi sulle fondamenta del modello Phi-3-mini, Phi-3-vision aggiunge capacità visive mantenendo un numero ridotto di parametri. Ciò lo rende ideale per l’implementazione su dispositivi edge e mobili, dove le risorse computazionali possono essere limitate.
Uno dei punti di forza di Phi-3-vision è la sua abilità nel comprendere e generare informazioni da grafici e diagrammi. Può analizzare rappresentazioni visive di dati complessi e fornire report dettagliati e approfondimenti chiave. Questa capacità apre nuove possibilità per applicazioni di business, analisi finanziaria e molto altro.
Phi-3-small e Phi-3-medium superano i modelli linguistici della stessa dimensione e quelli molto più grandi.
Anche Phi-3-vision nonostante le sue dimensioni ridotte, offre prestazioni eccezionali in una vasta gamma di attività. Secondo i test interni di Microsoft supera modelli molto più grandi come Claude-3 Haiku e Gemini 1.0 Pro in compiti di ragionamento visivo generale, OCR, comprensione di tabelle e grafici.
Maggiori dettagli sulle modalità di benchmark dei modelli Phi-3 sono disponibili a questo link.
Integrazione di Phi-3-vision nelle applicazioni con Azure AI
Microsoft ha reso Phi-3-vision disponibile attraverso Azure AI, consentendo agli sviluppatori di integrare facilmente questo potente modello multimodale nelle loro applicazioni. Phi-3-mini, un altro membro della famiglia Phi-3, è ora disponibile anche come parte dell’offerta Models-as-a-Service (MaaS) di Azure AI.
Azure AI Studio fornisce un ambiente completo per lavorare con i modelli Phi-3, incluso Phi-3-vision. Gli sviluppatori possono scegliere tra funzioni “code-first” e un’interfaccia utente intuitiva, a seconda delle loro preferenze e delle esigenze del progetto. Ciò rende l’accesso alle capacità di Phi-3-vision semplice e flessibile.
L’integrazione di Phi-3-vision in Azure AI apre nuove possibilità per una vasta gamma di applicazioni. Dalle soluzioni di business intelligence che sfruttano la comprensione dei grafici all’arricchimento delle chatbot con capacità visive, Phi-3-vision può portare l’AI multimodale in una moltitudine di settori e casi d’uso.
Oltre a Phi-3-vision, Microsoft ha annunciato che il modello GPT-4o di OpenAI è ora disponibile in Azure AI Studio e come API. Ciò amplia ulteriormente la gamma di potenti modelli di linguaggio a disposizione degli sviluppatori sulla piattaforma Azure.
La famiglia Phi-3
Al momento ci sono quattro modelli nella famiglia Phi-3.
- Phi-3-vision è un modello multimodale con 4.2 miliardi di parametri con capacità di linguaggio e visione.
- Phi-3-mini è un modello di linguaggio con 3.8 miliardi di parametri, disponibile in due lunghezze di contesto ( 128K e 4K ).
- Phi-3-small è un modello di linguaggio con 7 miliardi di parametri, disponibile in due lunghezze di contesto ( 128K e 8K ).
- Phi-3-medium è un modello di linguaggio 14 miliardi di parametri, disponibile in due lunghezze di contesto ( 128K e 4K ).
Trovi tutti i modelli Phi-3 sia su Azure AI che su Hugging Face .
Conclusioni e considerazioni
Phi-3-vision con la sua combinazione di capacità linguistiche e visive in soli 4,2 miliardi di parametri, apre nuove possibilità per applicazioni di AI on-device a bassa latenza e costi contenuti.
L’integrazione di Phi-3-vision in Azure AI rende questo potente modello facilmente accessibile agli sviluppatori; consente di incorporare capacità di AI multimodale all’avanguardia nelle loro applicazioni. Insieme agli altri membri della famiglia Phi-3, Microsoft fornisce ora un versatile toolkit per sfruttare l’IA in una vasta gamma di settori e casi d’uso.
Gli sviluppatori possono accedere e utilizzare i modelli Phi-3, compreso Phi-3-vision, sia tramite la piattaforma Azure AI di Microsoft che attraverso il popolare repository open source di modelli di AI Hugging Face. Questo rende i modelli Phi-3 ampiamente accessibili per l’integrazione in varie applicazioni.