Gemini 2.5 Computer Use, l'automazione web di Google

Google DeepMind ha annunciato il lancio di Gemini 2.5 Computer Use, un modello specializzato che segna un punto di svolta nell’interazione tra intelligenza artificiale e interfacce grafiche. A differenza dei tradizionali modelli linguistici che operano tramite API strutturate, questo sistema è progettato per interagire direttamente con interfacce utente proprio come farebbe una persona.

Il modello può navigare siti web, cliccare pulsanti, compilare moduli e scorrere pagine, automatizzando compiti che precedentemente richiedevano intervento umano. Basato su Gemini 2.5 Pro, questo modello specializzato sfrutta capacità avanzate di comprensione visiva e ragionamento per analizzare richieste e tradurle in azioni per ora solo all’interno di un browser.

Il nome computer use ricorda il progetto di Anthropic che però non è mai stato rilasciato per un uso pubblico. Computer use di Anthropic è un modello per un uso completo del computer con AI , non solo il browser.

Per ora, Google ha scelto di concentrarsi sull’ottimizzazione per browser web piuttosto che fornire accesso completo al sistema operativo. Questa specializzazione, sebbene limitante, ha permesso al team di DeepMind di raggiungere prestazioni superiori su benchmark specifici per il web; soprattutto per latenza ridotta e maggiore affidabilità.

Per gli sviluppatori Gemini 2.5 Computer Use è un mix che per chi costruisce assistenti vocali o prodotti basati su agenti AI è oro colato. Per i comuni mortali che non maneggiano righe di codice, ancora non esiste un prodotto “scatola chiusa” di Gemini 2.5 Computer Use pronto all’uso; come Operator di Anthropic, riservato agli abbonati Pro. Al momento c’è solo una demo “view-only” di Browserbase, un playground con task pre-definiti (es. “gioca a 2048”). A breve (settimane o giorni) sicuramente arriveranno estensioni per Chrome o Firefox.

Architettura e funzionamento di Gemini 2.5 Computer Use

Il funzionamento di Gemini 2.5 Computer Use si basa su un meccanismo ciclico composto da quattro fasi distinte; fasi si ripetono fino al completamento del task. Nella prima fase, il sistema riceve tre input fondamentali; la richiesta del cliente, uno screenshot dell’ambiente corrente e una cronologia delle azioni recenti.

Questi elementi forniscono al modello il contesto necessario per comprendere la situazione attuale e pianificare le prossime mosse. Il modello analizza queste informazioni e genera una risposta contenente una chiamata di funzione che rappresenta un’azione dell’interfaccia utente; come cliccare in determinate coordinate o digitare testo in un campo specifico.

Una peculiarità del sistema è la capacità di gestire coordinate su una griglia 1000×1000; coordinate che vengono poi convertite in pixel effettivi in base alla risoluzione dello schermo (con una dimensione consigliata di 1440×900 pixel per risultati ottimali.

Nella terza fase, il codice lato client esegue l’azione ricevuta; azione che può includere operazioni come trascinare elementi, navigare tra pagine o interagire con menu a tendina. Dopo l’esecuzione, il sistema cattura un nuovo screenshot dell’interfaccia grafica e l’URL corrente; quindi li invia al modello come feedback per avviare un nuovo ciclo.

Questo processo iterativo continua fino al completamento del task; oppure al verificarsi di un errore o la terminazione da parte di una risposta di sicurezza o decisione dell’utente. Il modello supporta attualmente 13 azioni diverse, tra cui open_web_browser, click_at, type_text_at, scroll_document, drag_and_drop e key_combination; ovvero un set di strumenti per interagire con la maggior parte delle interfacce web moderne.

Prestazioni e benchmark di Computer Use

I dati relativi alle prestazioni di Gemini 2.5 Computer Use sono superiori rispetto alle soluzioni concorrenti su più benchmark di riferimento. Nei test condotti su WebArena, il modello ha performance di leadership con un vantaggio significativo; supera le alternative di Anthropic e OpenAI.

Interessante è il risultato ottenuto su Online-Mind2Web, dove Gemini ha combinato alta accuratezza con bassa latenza. Anche nel controllo mobile, misurato tramite il benchmark AndroidWorld, il modello ha mostrato buoni risultati; dimostra anche versatilità oltre l’ambiente browser per cui è stato primariamente ottimizzato.

Google ha pubblicato dati che evidenziano come il suo modello offra “qualità leader per il controllo browser alla latenza più bassa“; un fattore critico per applicazioni in tempo reale dove la velocità di esecuzione è essenziale. Questi risultati sono particolarmente notevoli considerando che, a differenza di alcuni concorrenti, Gemini 2.5 Computer Use opera esclusivamente attraverso browser web; senza accesso diretto al sistema operativo.

Le metriche di consumo di token mostrano che una singola iterazione utilizza circa 150 token di input e 80 di output; un rapporto efficiente rispetto a modelli più generici che richiedono più contesto testuale per comprendere la UI.

Un approccio multilivello alla gestione dei rischi

La sicurezza costituisce un pilastro fondamentale nell’architettura di Gemini 2.5 Computer Use. Google ha implementato un sistema di protezione multilivello per mitigare i rischi intrinseci associati all’automazione delle interfacce. Il modello integra un servizio di sicurezza esterno che valuta ogni azione proposta prima dell’esecuzione. La può classificare come “normale/consentita” o “richiede conferma”.

Questa seconda categoria include operazioni potenzialmente rischiose; per esempio accettare termini di servizio, risolvere CAPTCHA, completare acquisti o inviare comunicazioni. Tutte operazioni per le quali è richiesta l’approvazione esplicita dell’utente. Google ha inoltre fornito agli sviluppatori la possibilità di implementare istruzioni di sistema personalizzate in grado di bloccare determinate azioni pericolose.

Le raccomandazioni per gli sviluppatori includono l’esecuzione degli agenti in ambienti sicuri e isolati come macchine virtuali sandboxed o container con permessi limitati; inoltre la sanificazione di tutti i testi generati per mitigare rischi di prompt injection, e l’implementazione di meccanismi di filtraggio per controllare dove il modello può navigare e cosa può fare.

Google consiglia vivamente di mantenere log dettagliati per debug, audit e risposta a incidenti, registrando prompt, screenshot, azioni suggerite dal modello e tutte le azioni eseguite dal client. Infine, è fondamentale garantire un ambiente GUI funzionale; poiché popup inaspettati, notifiche o modifiche al layout possono confondere il modello e compromettere l’affidabilità delle operazioni.

Applicazioni pratiche di Gemini 2.5 Computer Use

L’introduzione di Gemini 2.5 Computer Use cambia il modo in cui gli sviluppatori concepiscono l’automazione di interfacce. Tradizionalmente, la creazione di script di UI testing richiedeva la scrittura manuale di sequenze di comandi basati su selettori CSS o XPath; con una manutenzione onerosa soprattutto quando le pagine subivano modifiche di layout.

Con un modello visuale come quello di Google, è possibile delegare al motore la comprensione del contesto grafico, lasciando al programmatore la definizione dell’obiettivo ad alto livello. Questo approccio riduce drasticamente il tempo di sviluppo di assistenti virtuali, chatbot con capacità di prenotazione o bot di scraping che devono interagire con siti privi di API.

OpenAI sta accelerando con Operator, Anthropic sta riscrivendo Claude per il desktop, Microsoft ha iniziato a testare agenti su Windows 11. Gemini 2.5 Computer Use è già pronto da provare senza lista d’attesa.

La combinazione di Gemini 2.5 Computer Use con altri strumenti Google – come Vertex AI o Firebase Testing Agent – promette una catena completa, dalla progettazione alla validazione automatica, passando per il monitoraggio post‑rilascio. Chiunque voglia mantenere competitività nello sviluppo di prodotti digitali dovrebbe valutare seriamente l’integrazione di questa tecnologia; offre un vantaggio tangibile nella velocità di consegna.

In termini di costi, la tariffazione segue quella di Gemini 2.5 Pro, con un prezzo per milione di token competitivo; una soluzione economicamente sostenibile per team di sviluppo medio‑grandi. Una tecnologia già pronta per l’adozione in produzione, capace di migliorare l’efficienza di processi ripetitivi.

Ultimi Articoli

Google lancia Gemini 2.5 Computer Use, automazione web senza toccare il mouse

Architettura e funzionamento di Gemini 2.5 Computer Use

Prestazioni e benchmark di Computer Use

Un approccio multilivello alla gestione dei rischi

Applicazioni pratiche di Gemini 2.5 Computer Use