Da poco, Meta ha svelato il suo ultimo modello di intelligenza artificiale (AI) chiamato Voicebox: uno strumento per la conversione del testo in voce. Voicebox promette di superare le tecnologie attuali grazie alla sua capacità di imitare voci, rimuovere il rumore di sottofondo e correggere gli errori nella pronuncia. Questo modello di AI potrebbe aprire nuove possibilità in diversi settori, dall’assistenza virtuale all’accessibilità per le persone con disabilità visive.
Il modello Voicebox si basa sulla tecnologia di “flow matching” di Meta che consente a Voicebox di imparare da una gamma di dati vocali non etichettati senza richiedere l’annotazione manuale dei dati da parte degli operatori. I dati di addestramento di Voicebox includono file audio e trascrizioni di audiolibri per un totale di 50.000 ore. L’obiettivo dell’addestramento di Voicebox è riempire il testo con la voce, basandosi sui suoni circostanti e sulle istruzioni testuali per generare la voce corrispondente.
Funzionalità di Voicebox
Una delle caratteristiche distintive di Voicebox è la sua capacità di imitare la voce di file audio forniti dagli utenti, personalizzando in questo modo l’output vocale in base alle proprie preferenze o alle esigenze del progetto. Voicebox è in grado di generare suoni che corrispondono allo sfondo e allo stile del file audio di input, fornendo un’esperienza più realistica. L’azienda sostiene che Voicebox è 20 volte più veloce nel generare suoni rispetto alle tecnologie più avanzate attualmente disponibili, e gli utenti devono fornire solo un breve file audio di due secondi come input.
Un’altra funzionalità di Voicebox è la capacità di rimuovere il rumore di sottofondo dai file audio. Questo è particolarmente utile quando le registrazioni contengono rumori indesiderati che potrebbero compromettere la chiarezza della voce generata. Voicebox può aiutare a correggere gli errori di pronuncia, ottenendo una voce più precisa senza la necessità di registrare nuovamente il file audio.
Meta si è impegnata per rendere accessibile Voicebox a un pubblico globale; per adesso il modello supporta diverse lingue, tra cui inglese, francese, tedesco, spagnolo, polacco e portoghese. Questo amplia le possibilità di utilizzo di Voicebox e consente a ogni utente di comunicare nella propria lingua madre.
Preoccupazioni sulla sicurezza e soluzioni
Meta ha riconosciuto il potenziale abuso di tecnologie come Voicebox e ha deciso di non rendere il modello open source per evitare possibili utilizzi inappropriati. A questo fine, è stato sviluppato un modello di classificazione che può rilevare l’uso di deepfake o manipolazioni indesiderate; questo sistema di rilevamento garantisce un utilizzo responsabile e aiuta a proteggere l’integrità delle registrazioni vocali generate da Voicebox.
In ogni caso, Voicebox potrebbe avere un impatto significativo nell’ambito dell’assistenza virtuale, dell’accessibilità per le persone non vedenti e nella creazione di contenuti audio. Questa tecnologia apre le porte a nuove possibilità e potenziali applicazioni innovative nell’ambito dell’intelligenza artificiale e della generazione vocale.