Google ha annunciato importanti novità per Google Lens, l’app di ricerca visuale che permette di esplorare il mondo attraverso la fotocamera dello smartphone. Le nuove funzionalità rendono la ricerca ancora più intuitiva e naturale. Ora è possibile effettuare ricerche vocali e video direttamente nell’app.
Queste innovazioni sfruttano le potenzialità dell’intelligenza artificiale per comprendere meglio il contesto visivo; quindi, fornisce anche risposte più accurate e pertinenti. Le novità di Google Lens rappresentano un miglioramento della ricerca visuale; offrono nuove possibilità per interagire con l’ambiente circostante in modo semplice e immediato.
Ricerche vocali su Google Lens: basta un tocco per fare domande
La prima novità riguarda la possibilità di effettuare ricerche vocali direttamente in Google Lens. Basta puntare la fotocamera verso un oggetto o una scena e fare domande a voce; proprio come si farebbe con un amico.
Per attivare la funzione, si deve aprire l’app, toccare l’icona della fotocamera nella barra di ricerca e tenere premuto il pulsante dell’otturatore mentre si pone la domanda. Google Lens catturerà l’immagine e analizzerà contemporaneamente la richiesta vocale. In pochi istanti verranno forniti risultati pertinenti.
Questa modalità di interazione risulta particolarmente utile in mobilità. Oppure quando si hanno le mani occupate o si vuole ottenere informazioni rapidamente. Ad esempio, visitando un museo si può puntare la fotocamera verso un dipinto e chiedere dettagli sulla sua storia o sullo stile artistico. La ricerca vocale è disponibile a livello globale per le query solo in inglese; sia su dispositivi Android che iOS. Il supporto per altre lingue sarà aggiunto in seguito.
Video search: l’IA analizza le immagini in movimento
Altra novità è la nuova funzione di ricerca video; consente di fare domande su oggetti in movimento inquadrati dalla fotocamera. Questa funzione sfrutta un modello di intelligenza artificiale Gemini appositamente sviluppato per comprendere sequenze di immagini.
Per tilizzarla occorre aderire all’esperimento “AI Overviews and more” nei Search Labs di Google. Una volta attivata, basta tenere premuto il pulsante dell’otturatore in Google Lens per registrare fino a 20 secondi di video, ponendo contemporaneamente una domanda a voce.
Il sistema acquisisce il filmato come sequenza di immagini statiche, analizzandole con gli algoritmi di computer vision già impiegati in Lens. L’innovazione sta nell’utilizzo di un modello Gemini appositamente sviluppato per elaborare serie di fotogrammi consecutivi. Questo modello di intelligenza artificiale interpreta la sequenza video nel suo complesso. Le informazioni visive verranno poi elaborate insieme alla domanda vocale, generando una risposta pertinente.
Questa funzionalità apre scenari d’uso inediti, come la possibilità di chiedere informazioni fenomeni naturali osservati dal vivo.
Vantaggi dell’uso della voce in Google Lens
Maggiore naturalezza e immediatezza. L’utilizzo della voce rende la ricerca con Google Lens più naturale e intuitiva. Invece di dover digitare manualmente una domanda dopo aver scattato una foto, è possibile porre direttamente una domanda a voce mentre si inquadra l’oggetto di interesse. Questo processo risulta molto più simile a come ci si comporterebbe chiedendo informazioni a un amico, rendendo l’interazione con l’app più fluida e immediata.
Praticità in mobilità. La ricerca vocale è particolarmente utile quando si è in movimento o si hanno le mani occupate. Ad esempio, mentre si visita un museo si può puntare la fotocamera verso un’opera d’arte e chiedere dettagli sulla sua storia senza dover digitare nulla.
Maggiore contesto visivo. La funzione di ricerca video permette di catturare fino a 20 secondi di filmato mentre si pone la domanda a voce. Questo fornisce a Google Lens molto più contesto visivo rispetto a una singola immagine statica. Consente di analizzare oggetti in movimento e comprendere meglio la scena inquadrata. Quindi, il sistema può fornire risposte più accurate e pertinenti.
Analisi avanzata con intelligenza artificiale. Le ricerche vocali e video vengono elaborate da un modello di intelligenza artificiale Gemini appositamente sviluppato per comprendere sequenze di immagini in movimento. Questo permette un’analisi molto più sofisticata rispetto alla semplice ricerca per immagini; combina computer vision avanzata ed elaborazione del linguaggio naturale.
Google Lens: conclusioni
L’integrazione di input vocali e video in Google Lens rende l’interazione con l’app più naturale e intuitiva. Ciò amplia notevolmente le possibilità di utilizzo; dalla semplice curiosità alla ricerca di informazioni specifiche sull’ambiente circostante.
L’impiego di modelli di intelligenza artificiale avanzati come Gemini consente di comprendere meglio il contesto visivo e fornire risposte più accurate. Il rilascio delle nuove funzione è al livello globale. Tuttavia, al momento le funzionalità sono limitate alla lingua inglese. Il supporto per altre lingue sarà aggiunto in seguito.