Stability AI, un’azienda leader nel campo dell’intelligenza artificiale generativa, ha annunciato il rilascio di Stable Diffusion 3 Medium. E’ il suo modello open source più avanzato per la generazione di immagini basata su testo. Questo nuovo modello rappresenta un passo importante nell’evoluzione dell’IA generativa. Inoltre, conferma l’impegno di Stability AI nel democratizzare questa potente tecnologia.
Stable Diffusion 3 Medium è un modello compatto da 2 miliardi di parametri che offre una serie di funzionalità notevoli. Tra queste, spiccano la qualità e il fotorealismo complessivi, la comprensione dei prompt testuali complessi, e soprattutto la capacità di generare testo di alta qualità, di solito un punto debole degli attuali generatori di immagine IA.
Le caratteristiche principali del modello includono fotorealismo, migliore aderenza al prompt, tipografia, efficienza delle risorse e capacità di regolazione fine. Supera gli artefatti comuni nelle mani e nei volti. Offre immagini di alta qualità senza la necessità di flussi di lavoro complessi.
Stable Diffusion 3 Medium: caratteristiche
Stable Diffusion 3 Medium è in grado di generare immagini da prompt testuale con un livello eccezionale di dettaglio, colore e illuminazione. Gli output sono fotorealistici e di alta qualità. Grazie a innovazioni come il VAE (Variational Autoencoder) a 16 canali, il modello riesce ad affrontare e superare problemi comuni di altri modelli; per esempio, la resa realistica di mani e volti.
Comprensione dei prompt
Stable Diffusion 3 Medium dimostra una migliore capacità di interpretare e tradurre in immagini prompt testuali articolati e complessi. Questi possono includere ragionamenti spaziali, come la disposizione di elementi all’interno dell’immagine, descrizioni di azioni o movimenti. Anche indicazioni su stili artistici o generi specifici.
Si ha la flessibilità di sfruttare tutte e tre le diverse modalità di elaborazione del testo disponibili, oppure una loro combinazione, per bilanciare prestazioni e efficienza a seconda delle esigenze.
Questa versatilità consente al modello di comprendere e rappresentare fedelmente anche richieste molto dettagliate e sfaccettate espresse in linguaggio naturale, cogliendo sfumature, dettagli e concetti astratti con grande precisione.
Generazione di testo
Stable Diffusion 3 Medium si distingue per le sue straordinarie capacità di generazione di testo di alta qualità all’interno delle immagini prodotte.
Grazie all’innovativa architettura Diffusion Transformer sviluppata da Stability AI, il modello riesce a produrre testo con altissima precisione; inoltre, riduce al minimo gli errori di ortografia, spaziatura e formazione delle lettere.
Di conseguenza, Stable Diffusion 3 Medium è in grado di generare un testo coerente e privo di imperfezioni. Riesce a superare le limitazioni che spesso affliggono altri modelli di generazione di testo basati sull’intelligenza artificiale.
Che si tratti di creare didascalie, descrizioni, dialoghi o persino brevi racconti, questo modello offre risultati di qualità professionale. La resa è quasi impeccabile in termini di correttezza grammaticale, scelta lessicale appropriata e coerenza stilistica.
Modelli a confronto con Stable Diffusion 3 Medium
Abbiamo confrontato il risultato ottenuto da Stable Diffusion 3 Medium (prima immagine sotto) con altri generatori di immagine Open Source e disponibili su Civita.com (eseguiti su computer locale) e con il generatore online ideogram.ai (eseguito su server remoto) che offre dei crediti giornalieri gratuiti.
Per tutte le prove abbiamo usato lo stesso prompt: photo of three antique dragon glass magic potions in an old abandoned apothecary shop: the first one is blue with the label “1.5”, the second one is red with the label “SDXL”, the third one is green with the label “SD3”.
Solo Ideogram che usa un modello proprietario IA avanzato e con notevoli capacità computazionali a disposizione su server remoti, ha avuto un risultato coerente con il prompt e con la visualizzazione corretta del testo.
Quindi Stable Diffusion 3 Medium usando un piccolo modello e poche risorse (quelle di un pc o di un laptop casalingo) è riescito a raggiungere un livello qualitativo molto buono e a renderlo disponibile a tutti.
Collaborazioni con NVIDIA e AMD
L’aspetto principale di SD3 Medium è la sua accessibilità. A differenza di alcuni modelli IA ad alta intensità di risorse, SD3 Medium è progettato per funzionare su schede grafiche consumer standard. Questo può aiutarlo in una più ampia adozione da parte degli utenti. Per migliorare ulteriormente le prestazioni di Stable Diffusion 3 Medium, Stability AI ha collaborato con NVIDIA e AMD.
Stability AI ha collaborato con NVIDIA per migliorare le prestazioni di tutti i modelli Stable Diffusion, incluso Stable Diffusion 3 Medium, sfruttando le GPU NVIDIA RTX e TensorRT. Le versioni ottimizzate con TensorRT offriranno prestazioni di prim’ordine, con un aumento delle prestazioni fino al 50% rispetto alle versioni precedenti.
AMD ha ottimizzato l’inferenza di Stable Diffusion 3 Medium per vari dispositivi AMD, inclusi APU, GPU consumer e GPU enterprise MI-300X.
Accessibilità e licenze open source
Coerentemente con l’impegno di Stability AI per l’IA generativa open source, Stable Diffusion 3 Medium è rilasciato con la Stability Non-Commercial Research Community License. L’azienda incoraggia artisti professionisti, designer, sviluppatori e appassionati di IA a utilizzare la nuova Creator License per scopi commerciali. Per un utilizzo commerciale su larga scala, è necessario contattare Stability AI per ottenere una licenza Enterprise.
Provare Stable Diffusion 3
I dati del modello Stable Diffusion 3 Medium sono disponibili pubblicamente sulla piattaforma AI online Hugging Face e sono disponibili con una licenza aperta non commerciale e una licenza di creatore a basso costo al momento della stesura di questo articolo.
Inoltre, contemporaneamente al rilascio aperto di Stable Diffusion 3 Medium, sarà disponibile anche l’API per Stable Diffusion 3 Medium, che potrà essere utilizzata dai chatbot ‘ Stable Assistant ‘ e ‘ Stable Artisan ‘ in esecuzione su Discord. Per utilizzarli entrambi, devi iscriverti a un piano di abbonamento a pagamento mensile.
Conclusioni e considerazioni
Grazie alle sue capacità di fotorealismo, comprensione dei prompt, generazione efficacie del testo e efficienza delle risorse, questo modello apre nuove possibilità per artisti, designer e sviluppatori.
Inoltre, l’impegno di Stability AI per l’accessibilità e l’open source, insieme alle collaborazioni con aziende leader come NVIDIA e AMD, contribuisce a democratizzare ulteriormente questa tecnologia potente e innovativa.
Nonostante i suoi problemi finanziari, Stability AI prevede di migliorare costantemente Stable Diffusion sulla base dei feedback degli utenti, espandere le sue funzionalità e migliorarne le prestazioni. L’obiettivo dell’azienda è stabilire un nuovo standard per la creatività nell’arte generata dall’IA e rendere Stable Diffusion uno strumento essenziale per professionisti e appassionati.
Mentre l’IA generativa continua a evolversi rapidamente, Stable Diffusion 3 Medium si posiziona come un utile strumento per chiunque desideri esplorare e sfruttare le potenzialità di questa tecnologia in modo aperto e senza bisogno di accedere a servizi a pagamento.