A Novembre 2022 è stato presentato al mondo ChatGPT, la popolare tecnologia di chat conversazionale di OpenAI. Poi, DALL-E, il modello IA in grado di generare immagini a partire da descrizioni testuali. Le Big Tech (Microsoft e Google in prima linea), sembravano colte di sorpresa e in deciso ritardo rispetto queste innovazioni. Ora, con Imagen 2, Google vuole offrire un modello IA generativo di immagini da testo altamente competitivo.
Microsoft, invece, è corsa ai ripari acquistando la tecnologia OpenAI. Da mesi, ormai, continua ad integrare la tecnologia IA di OpenAI praticamente ovunque nei suoi prodotti; parliamo del suo motore di ricerca Bing, poi Azure, Office 365. La tecnologia IA è stata inserita anche all’interno di Windows 11 nelle applicazioni Blocco Note e Paint. Cortana ? Messa nel dimenticatoio in fretta e furia e sostituita da Copilot.
Google è in decisa ripresa
All’inizio, Google era in evidente ritardo; non aveva niente di altrettanto valido da mettere subito in concorrenza con la tecnologia di OpenAI. Ma in questi ultimi mesi, gli sviluppatori hanno riguadagnato velocemente posizioni. Lo scorso dicembre è stato presentato il nuovo modello di testo LLM (large language model) di IA, in tre versioni Gemini Nano, Gemini Pro e Gemini Ultra.
Abbiamo già visto l’implementazione del piccolo modello Gemini Nano sulla serie Pixel 8. Da poche ore sappiamo che è stato integrato anche nel sistema operativo della nuova serie Samsung S24. Qui ha portato interessanti applicazioni IA. Per esempio, il live translate, funzionante in locale, con evidenti vantaggi sui tempi di risposta e problematiche legate alle privacy.
Gemini Pro, il modello IA intermedio di Google con prestazioni simili a GTP 3.5, è stato integrato in Google Bard. Il miglioramento rispetto la versione precedente di Bard, la chat conversazionale di Google, è stato notevole.
Gemini Ultra invece, il modello LLM più potente di Google, è in fase di rifinitura. Se tutto procede bene dovrebbe essere rilasciato entro la fine di Gennaio. Promette di essere superiore al modello GPT-4.
Google Imagen 2
Google ha compiuto passi significativi anche con l’introduzione di Imagen 2.
Imagen 2 è il più avanzato modello LLM di Google per la generazione di immagini a partire da descrizioni testuali. Sviluppato da DeepMind, laboratorio di ricerca sul machine learning di Google, Imagen 2 è in grado di produrre immagini estremamente realistiche e dettagliate rispondendo a complesse descrizioni fornite in input. Presentato lo scorso dicembre 2023, è in diretta concorrenza con altri modelli IA di generazione immagini come DALL-E 3, Midjourney, e Stable Diffusion.
Rispetto alla precedente versione, Imagen 2 ha visto miglioramenti significativi nella qualità delle immagini generate, nella capacità di rendere testi e loghi sovrapposti alle immagini e nella comprensione del linguaggio. Imagen 2 ha compiuto progressi notevoli in aree in cui tradizionalmente i modelli testo-immagine hanno difficoltà. Per esempio, la rappresentazione delle mani umane senza artefatti.
Consente un controllo preciso sullo stile dell’immagine generata. Gli utilizzatori possono fornire immagini di stile di riferimento insieme alle indicazioni testuali per guidare l’output del modello. Inoltre, include capacità avanzate di editing come ‘inpainting‘ e ‘outpainting‘, che consentono di modificare immagini esistenti o estenderle oltre le loro dimensioni originali.
Imagen 2 è in grado di generare immagini descritte in diversi linguaggi, dall’inglese al cinese.
Google ha implementato dei paletti di sicurezza per mitigare i potenziali rischi associati alla tecnologia generativa di IA. Si integra con SynthID di Google, un toolkit per l’applicazione di watermark invisibili al contenuto generato, per aiutare a identificare tale contenuto. Queste misure di sicurezza limitano anche la generazione di contenuti problematici, come immagini violente o esplicite.
Google Vertex AI
Imagen 2 è per ora disponibile solo agli sviluppatori e aziende attraverso l’API di Google Cloud Vertex AI. La piattaforma di Google dedicata allo sviluppo e al deployment di modelli di intelligenza artificiale, Vertex AI include una vasta libreria di modelli pre-allenati per applicazioni di computer vision, natural language processing e generative design.
Vertex AI offre una suite completa di strumenti e servizi per l’intero flusso di lavoro di ML, dalla preparazione dei dati all’addestramento, al tuning e alla distribuzione del modello. Include accesso a oltre 130 modelli e strumenti di IA generativa, incluso il modello Gemini. Con questi mezzi, gli sviluppatori possono gestire compiti come l’estrazione di testo dalle immagini, la conversione del testo dell’immagine in JSON e la generazione di risposte dalle immagini caricate.
I servizi Vertex AI di Google sono in diretta concorrenza con Microsoft Azure. Entrambe le piattaforme sono servizi cloud completamente gestiti che forniscono un insieme completo di strumenti per l’addestramento, la gestione e il deployment di modelli di machine learning e IA.
Imagen 2 e Bard: possibile integrazione
Negli ultimi giorni circolano voci che Imagen 2 potrebbe presto essere integrato anche in Bard, l’IA conversazionale di Google e in Google Search. L’aggiunta di Imagen 2 migliorerebbe significativamente le capacità di Bard.
Se confermate, queste novità suggeriscono che Google sta puntando a estendere Imagen 2 non solo attraverso servizi dedicati come Vertex AI, ma anche all’interno di assistenti digitali e tool di produttività per offrire modalità innovative di creazione e condivisione di contenuti.
Siamo convinti che presto Google apporterà anche modifiche sostanziali al Google Assistant, l’assistente virtuale sviluppato da Google integrato nel sistema operativo Android dei nostri smartphone.
Da non escludere l’implementazione di Bard, all’interno di Google Assistant magari sfruttando il modello Gemini Nano in grado di funzionare da locale, risolvendo in un sol colpo tutti i problemi di privacy legati all’utilizzo di Google Assistant da remoto. Questa implementazione potrebbe portare anche a miglioramenti significativi nelle capacità di conversazione di Google Assistant.
Se vuoi provare uno smartphone con Gemini Nano, puoi considerare l’acquisto di uno smartphone della serie Pixel 8 o della nuova serie Samsung Galaxy S24 .
Pixel 8 Pro
- 12 GB, Android 14 ,128GB UFS 3.1
- Wi-Fi 7 (802.11be), USB-C 3.2 , Bluetooth 5.3, LTE, 5G, NFC, eSIM
- Batteria da 5050 mAh con ricarica cablata da 30 W e ricarica wireless da 23 W.
Galaxy S24
- Dynamic AMOLED 2X
- Fotocamera 50MP, RAM 8GB, 256GB, 4.000 mAh, Marble Gray
Prezzi presi al momento della scrittura articolo. Se apprezzi le recensioni e i consigli che trovi sul nostro blog, ti invitiamo a utilizzare i link Amazon presenti in queste pagine. Così facendo, ci aiuterai a sostenere il nostro lavoro e a continuare a offrirti contenuti utili e informativi. Grazie per il tuo sostegno, lo apprezziamo tantissimo !