Il laboratorio di ricerca IA francese Kyutai ha svelato Moshi, il primo assistente vocale IA a bassa latenza disponibile online. E’ il primo in quanto OpenAI non ha ancora reso pubblico il suo assistente vocale a bassa latenza potenziato da GPT-4o. Sviluppato in soli sei mesi da un team di otto ricercatori Kyutai, Moshi si distingue per prestazioni ai vertici del settore in termini di velocità di risposta, naturalezza dell’interazione e capacità di elaborazione audio.
Al momento Moshi non è multimodale come l’assistente vocale GPT-4o, ovvero non è in grado di interagire anche con immagini e lettura del testo. Moshi per ora interagisce solo tramite conversazioni audio.
Record in termini di latenza e reattività
Moshi stabilisce nuovi standard nel campo degli assistenti vocali grazie a una latenza di soli 160 millisecondi; un valore inferiore ai 320 millisecondi dichiarati da OpenAI nel suo assistente GPT-4o. Questo tempo di risposta estremamente ridotto permette conversazioni fluide e naturali, avvicinandosi all’esperienza di un dialogo tra esseri umani.
Il sistema è in grado di elaborare direttamente l’input audio, senza passare per una fase intermedia di conversione in testo. Ciò consente di raggiungere una latenza complessiva di 200 millisecondi dal microfono agli altoparlanti; un risultato notevole che rende l’interazione con Moshi naturale e scorrevole.
Moshi: elaborazione audio e comprensione emotiva
Una delle caratteristiche di Moshi è la capacità di riconoscere e imitare fino a 70 diversi stati emozionali. L’assistente può adattare il tono di voce, sussurrare, scherzare o persino adottare accenti specifici su richiesta. Questa versatilità emotiva arricchisce notevolmente l’esperienza di conversazione, rendendo Moshi più empatico e coinvolgente rispetto agli assistenti vocali tradizionali.
Il modello di linguaggio alla base di Moshi, denominato Helium, conta 7 miliardi di parametri. Sebbene sia più contenuto rispetto a giganti come GPT-4 (175 miliardi di parametri), Helium si distingue per l’ottimizzazione mirata alle applicazioni vocali e la capacità di funzionare localmente su dispositivi come laptop o computer personali.
Architettura ottimizzata per l’esecuzione locale
Kyutai ha posto particolare attenzione all’ottimizzazione del codice e alla riduzione delle dimensioni del modello. Grazie a questi sforzi, Moshi può funzionare localmente su dispositivi come MacBook Pro, senza necessità di una connessione internet. Questa caratteristica apre la strada a un utilizzo più diffuso e privato dell’assistente vocale, superando i limiti di soluzioni cloud-based.
L’approccio di Kyutai si distingue per la volontà di rendere accessibili tecnologie IA avanzate attraverso un modello open source. Ciò potrebbe accelerare l’innovazione nel settore e democratizzare l’accesso a assistenti vocali di nuova generazione.
Il ruolo di Kyutai nel panorama europeo dell’IA
Kyutai rappresenta un importante tassello nella strategia europea per competere nel campo dell’intelligenza artificiale. Kyutai è co-fondato da Xavier Niel, fondatore e azionista di maggioranza del gruppo Iliad, che controlla Free e altre società di telecomunicazioni. Il laboratorio vuole dimostrare che l’Europa può sviluppare tecnologie IA all’avanguardia.
Il successo di Moshi, raggiunto in tempi record, evidenzia il potenziale dell’ecosistema di ricerca europeo. Kyutai si propone come alternativa ai giganti della Silicon Valley, puntando su un approccio open source e collaborativo per accelerare l’innovazione nel settore dell’IA vocale.
Limitazioni
Nonostante i risultati mostrati nella demo, Moshi presenta ancora alcune limitazioni. Attualmente l’assistente supporta solo la lingua inglese. L’espansione ad altre lingue è tra le priorità di sviluppo futuro.
Il modello IA Helium, pur ottimizzato per applicazioni vocali, ha dimensioni più contenute rispetto ad altri sistemi IA generali. Kyutai dovrà bilanciare l’espansione delle capacità del modello con l’esigenza di mantenere prestazioni elevate su dispositivi locali.
Inoltre come già accennato in precedenza, Moshi non è multimodale, al momento può interagire solo con l’audio.
Infine la demo pubblica sembra avere capacità decisamente inferiori a quelle mostrate nella demo al pubblico. Sembra che sia dovuto all’inaspettato carico di richieste.
Kyutai afferma che il codice e i pesi dei modelli saranno presto condivisi liberamente. Saranno utili sia per i ricercatori nel campo sia per gli sviluppatori che lavorano su prodotti e servizi basati sulla voce. Questa tecnologia potrà quindi essere studiata in profondità, modificata, estesa o specializzata in base alle necessità. La comunità degli sviluppatori potrà estendere la base di conoscenza di Moshi, che sono attualmente volutamente limitate in un modello leggero.
Moshi: conclusioni e considerazioni
La combinazione di latenza ultra-bassa, elaborazione audio diretta e comprensione emotiva avanzata pone Kyutai in una posizione di rilievo nel panorama tecnologico globale.
Nonostante alcune limitazioni, questo progetto dimostra il potenziale dell’Europa nel competere ad alto livello nel settore dell’intelligenza artificiale. Inoltre, l’approccio open source di Kyutai potrebbe accelerare l’innovazione e democratizzare l’accesso a tecnologie IA avanzate.
Tuttavia, sfide importanti attendono Moshi e Kyutai. L’espansione multilingue, il perfezionamento delle capacità del modello e la multimodalità saranno cruciali per il successo a lungo termine del progetto.