Durante l’evento di OpenAI del 13 Maggio 2024, abbiamo visto un app desktop ChatGPT per Mac in grado di interagire con conversazioni in tempo reale; quasi come se si stesse conversando con un essere umano. Un vero e proprio assistente IA multimodale in grado di dialogare senza latenze e in tempo reale.
L’app è in grado di guardare cosa fa l’operatore. In quel caso sviluppava del codice Python, e lo assisteva nel suo lavoro, ascoltandolo e rispondendo alle sue domande. OpenAI in quell’occasione ha affermato che l’app ChatGPT sarebbe stata disponibile a breve su Mac e in seguito anche su Windows.
L’assistenza vocale in tempo reale è possibile grazie al nuovo modello GPT-4o. Non molto diverso da GPT-4 Turbo, si differenzia per i tempi di risposta (decisamente fulminei) e l’iterazione multimodale del modello. Il nuovo modello infatti offre tempi di risposta quasi istantanei. La latenza media è di soli 320 millisecondi, paragonabile ai tempi di reazione umani in una conversazione.
Questo permette di avere una conversazione vocale multimodale (con testo, video, audio) con GPT-4o. Durante una conversazione, GPT-4o può essere interrotto mentre ci risponde; può eseguire conversazioni con più persone. Dalla voce o dal video può capire il tuo stato emozionale; quindi può cambiare il tono della sua voce su tua richiesta. Può anche interagire con quello che guardi tramite lo smartphone; o con il lavoro che stai facendo sullo schermo del tuo computer.
Assistente IA multimodale su Windows
Durante l’evento Build2024 di Microsoft si capisce che sulle future versioni di Windows non sarà necessaria alcuna app ChatGPT come sul Mac. Perché tutte le stesse potenzialità mostrate alla demo di OpenAI saranno svolte in parte dal sistema operativo Windows tramite la nuova funzionalità Recall; e in parte da Copilot alimentato dalla velocità e capacità multimodali di GPT-4o.
La funzionalità Recall è già stata intravista in una recente build di Windows 11 nel canale insider. Due giorni fa è stata anche presentata all’interno dei nuovi PC Copilot+ .
Recall, risolve uno dei problemi che si incontrano quotidianamente: trovare qualcosa che sappiamo di aver visto prima sul nostro PC. Recall ti dà accesso a praticamente tutto ciò che hai visto o fatto sul tuo PC in un modo che sembra avere una memoria fotografica. Organizza le informazioni in base a relazioni e associazioni, aiutandoti a ricordare le cose che potresti aver dimenticato in modo da poter trovare rapidamente e intuitivamente ciò che stai cercando.
Recall funziona guardando e registrando tutto ciò che viene fatto al pc. La combinazione di Recall insieme alle potenzialità di Copilot e GPT-4o permetteranno di avere un Assistente IA multimodale su Windows 11.
La conferma di un assistente multimodale IA in Windows 11
Tutto questo è stato confermato ieri in un post su 𝕏, di 31 secondi !
Anche se la breve dimostrazione video è limitata al gioco Minecraft, tutto ciò che farai al computer potrà essere visionato da IA tramite Recall e assistito in tempo reale e con chat vocale da Copilot potenziata da GPT-4o.
Mustafa Suleyman, CEO di Microsoft AI, definisce l’assistente IA multimodale “un’esperienza magica” che è “intelligente, intuitiva, naturale e utile”. Parole simili ha usato Sam Altman prima del demo OpenAI del 13 Maggio con il lancio di GPT-4o. “Abbiamo lavorato duramente su alcune novità che pensiamo le persone adoreranno! mi sembra una magia” .
E’ quasi certo che potremo provare per la prima volta l’assistente multimodale di Windows con il rilascio di AI explorer in Windows 11 24H2 previsto per il prossimo autunno.
Recall e privacy
Microsoft ancora non ha spiegato nei dettagli le implicazioni di privacy di Recall. Funzionerà completamente in locale o alcune immagini saranno inviate in remoto per l’analisi tramite GPT4-o?
Nel secondo caso, quali sono le garanzie di privacy ? Per esempio essere monitorati da Recall mentre si gestisce un conto in banca non è un operazione tranquillizzante. Per ora si sa solo che la funzionalità Recall avrà delle impostazioni di Privacy; quindi si suppone che sarà possibile attivarlo o disattivarlo a piacimento.
Potenzialità e applicazioni future
L’integrazione di un assistente IA multimodale come Copilot in Windows, combinato con la funzionalità Recall, apre la strada a una vasta gamma di potenziali applicazioni future. Oltre all’assistenza in tempo reale durante lo sviluppo di codice o la navigazione sul web, questa tecnologia cambierà il modo in cui interagiamo con i nostri dispositivi in ambiti come l’istruzione, la creatività e la produttività.
Immagina uno studente che riceve tutoraggio personalizzato da Copilot mentre studia; l’IA adatta il suo approccio in base alle reazioni e alle esigenze individuali dello studente. Oppure un artista che collabora con l’IA per generare idee creative; riceve suggerimenti e feedback in tempo reale basati sulle sue creazioni precedenti. Le possibilità sono davvero infinite! L’integrazione di queste tecnologie nei nostri sistemi operativi quotidiani potrebbe portare a un significativo balzo in avanti nella produttività e nell’innovazione.
Tuttavia, è fondamentale considerare anche i potenziali usi malevoli di un assistente multimodale IA. Assistenti così avanzati potrebbero essere sfruttati per diffondere disinformazione, manipolare le persone o facilitare attività criminali. Sarà cruciale sviluppare solide misure di sicurezza e linee guida etiche per prevenire abusi. Ciò includerà la trasparenza sulle capacità e i limiti degli assistenti IA, meccanismi per identificare e mitigare i bias, e una stretta collaborazione tra sviluppatori, utilizzatori e autorità di regolamentazione.
Infine, c’è anche il rischio di avere in futuro, forse non molto lontano, degli assistenti IA multimodali con capacità di ragionamento quasi umane (AGI) con tutte le implicazioni del caso, di cui abbiamo parlato in questo articolo.
Assistente IA multimodale: conclusioni
Con l’avvento degli assistenti IA multimodali nei nostri computer, entriamo dentro il futuro immaginato nei film di fantascienza e ci offrirà il potenziale per trasformare il modo in cui lavoriamo, impariamo e creiamo. Tuttavia è fondamentale considerare attentamente le implicazioni etiche e di privacy.
La capacità di Recall di monitorare e registrare tutte le attività svolte su un PC solleva legittime preoccupazioni sulla privacy degli utenti. Sarà cruciale per Microsoft e altri sviluppatori di tecnologie simili implementare solide misure di sicurezza e fornire un controllo trasparente sulla raccolta e utilizzo dei loro dati. Inoltre, sarà essenziale educare sui potenziali rischi e responsabilizzarli a prendere decisioni informate sull’utilizzo di queste funzionalità.