La tecnologia IA sta facendo passi da gigante. Quasi ogni giorno c’è una novità che ci fa rimanere basiti. Pochi giorni fa OpenAI ha meravigliato tutti con Sora; oggi un gruppo di ricerca dell’ Alibaba ha presentato EMO, Emote Portrait Alive.
In breve, EMO è in grado di produrre animazioni realistiche e convincenti di persone che parlano o cantano in vari stili, partendo da una foto o un ritratto e da un input audio, come un discorso o una canzone. Come nel caso di Sora, anche in questo caso i risultati sono semplicemente sbalorditivi e impensabili fino a un anno fa.
Soggetto : foto di Audrey Kathleen Hepburn-Ruston
Input vocale: Ed Sheeran – Perfect cantata da Samantha Harvey
Cos’è EMO?
Emote Portrait Alive è una tecnologia all’avanguardia che combina intelligenza artificiale (AI), apprendimento automatico (ML) e computer grafica, per creare “ritratti” vivi e reattivi. Questi “ritratti“, chiamati “EMOs“, possono emulare una vasta gamma di emozioni umane, rendendoli straordinariamente realistici e coinvolgenti.
Soggetto : foto di Leonardo Wilhelm DiCaprio
Input vocale: EMINEM – GODZILLA (FT. JUICE WRLD) COVER
Come funziona EMO?
La tecnologia alla base di Emote Portrait Alive è complessa, ma il concetto di base è semplice. Si parte da una foto o dal ritratto di una persona. Questa foto viene poi elaborata utilizzando algoritmi di AI e ML per creare un modello 3D del viso della persona. Questo modello viene quindi animato utilizzando una tecnica nota come “transfer learning”, che consente al modello di apprendere e replicare una varietà di espressioni facciali da un database di video di persone reali.
Il risultato finale è un video che non è solo una rappresentazione fedele del soggetto, ma che può anche emulare le sue emozioni.
Soggetto : Mona Lisa
Input vocale: Monologo di Shakespeare
Perché è importante?
Emote Portrait Alive rappresenta una svolta significativa. Con questa tecnologia, i ritratti e le foto prendono vita e possono ora catturare l’intera gamma delle emozioni umane, rendendoli più realistici e coinvolgenti che mai.
Questa tecnologia ha il potenziale per trasformare una varietà di campi, dall’arte alla pubblicità, al cinema e oltre. Potrebbe anche avere implicazioni per la comunicazione umana, fornendo un nuovo modo per esprimere e condividere le emozioni in un’era digitale.
La capacità della tecnologia di elaborare audio multilingue espande la sua utilità attraverso diverse lingue e culture. I creatori di contenuti possono generare performance in varie lingue, rendendo Emote Portrait Alive, uno strumento potente per la creazione di contenuti globali. Questo aspetto è fondamentale per raggiungere un pubblico diversificato e migliorare la rappresentazione culturale nei media digitali.
Soggetto : ragazza generata con IA
Input vocale: David Tao – Melody cantata da by NINGNING (mandarin)
Possibili abusi
Come con qualsiasi tecnologia emergente, ci sono preoccupazioni per un uso improprio. Alcuni potenziali abusi di questa tecnologia:
- Questa tecnologia potrebbe essere sfruttata per creare deepfake, o video falsi che sembrano reali. Ciò potrebbe essere usato per diffondere disinformazione, ingannare le persone o danneggiare la reputazione di chiunque.
- Violazione della privacy: questa tecnologia potrebbe essere usata per creare video di persone senza il loro consenso. Ciò potrebbe essere particolarmente preoccupante se i video vengono usati per scopi dannosi o molesti.
- Furto d’identità: Portrait Alive potrebbe essere usato per creare video di persone che sembrano reali, ma che in realtà sono false. Ciò potrebbe essere usato per scopi di furto d’identità, ad esempio per accedere a informazioni riservate o per commettere frodi.
Per prevenire questi potenziali abusi, è importante che siano stabilite norme etiche e giuridiche chiare sull’uso di questa tecnologia. I ricercatori e gli sviluppatori devono lavorare per sviluppare soluzioni tecniche di prevenzione degli abusi, come ad esempio la creazione di algoritmi in grado di rilevare i deepfake.
Conclusione
Emote Portrait Alive è una tecnologia rivoluzionaria che combinando AI, ML e computer grafica, trasforma qualunque immagine statica in entità viventi e reattive.
Mentre la tecnologia è ancora nelle sue fasi iniziali, e non è ancora accessibile a tutti, il potenziale è enorme. Che si tratti di creare opere d’arte più coinvolgenti, pubblicità più efficaci o nuovi modi di comunicare, questa tecnologia sta aprendo la strada a un futuro emozionante.
Da un lato questa tecnologia offre nuove possibilità creative e di intrattenimento, dall’altro solleva serie problematiche sull’autenticità delle esperienze digitali rispetto a quelle reali.