Nvidia ha rilasciato ieri una demo di Chat with RTX. Chat with RTX è un software in grado di eseguire delle LLM localmente sul tuo PC. In realtà ci sono alcune limitazioni: è una versione demo, il software funziona solo su Windows 11. Poi, è richiesta una GPU RTX serie 30 o 40 con almeno 8 GB VRAM. Per ora solo i large language model Mistral 7B int4 o Llama sono supportati.
Ma cosa significa eseguire una LLM localmente ? Come saprai ChatGPT funziona come un “generatore di testo intelligente” che può interagire con gli utenti in modo conversazionale. Offre risposte alle domande e alle richieste in base alla sua conoscenza e alle esperienze di addestramento. ChatGPT funziona da remoto, le tue richieste vengono inviate ad un server remoto OpenAI. Con Chat with RTX invece puoi eseguire un modello di chat conversazionale direttamente sul tuo computer. Non c’è nessun accesso remoto e senza una connessione internet.
I benefici e i vantaggi di eseguire un grande modello di linguaggio (LLM) in locale sul tuo computer includono l’esperienza pratica, la personalizzazione, la privacy dei dati (le tue richieste rimangono locali). Si aggiunge l’assenza di censura ormai onnipresente in tutte le chat conversazionali online principalmente per motivi di sicurezza o copyright. Non da ignorare i costi (nessun abbonamento necessario) e la disponibilità offline.
Chat with RTX
Chat with RTX si basa sull’SDK TensorRT e accelera i calcoli utilizzando i core Tensor nelle GPU Ampere e Ada Lovelace. Il download iniziale è di 35,1 GB. A seconda del LLM selezionato durante il processo di installazione, potrebbero essere necessari da 50 a 100 GB di storage.
Una volta installato, puoi interagire con il LLM come fai con ChatGPT, Claude, Gemini (ex Bard), Bing/Copilot ecc.. La differenza è che le domande e le risposte saranno processate localmente sul tuo computer. A seconda del tuo hardware (di cui parlerò più in fondo) le risposte ricevute saranno più o meno veloci.
Una caratteristica distintiva di Chat with RTX è che ha la funzionalità RAG. In poche parole grazie alle funzionalità RAG, puoi selezionare dei tuoi contenuti (documenti, note, video, file audio), e Chat with RTX li elaborerà e potrà rispondere a delle domande specifiche relative ai contenuti inviati.
Tramite l’interfaccia puoi creare trascrizioni di video YouTube, per puoi interrogare Chat with RTX con domande sul video appena trascritto.
Alternative a Chat with RTX
In realtà tutto questo già esiste da tempo. Per esempio abbiamo già parlato di LM Studio. A differenza di Chat with RTX, permette di eseguire non solo il modello LLM Mistral e Llama ma qualunque LLM tra le migliaia disponibili in rete.
LM Studio è compatibile con vari modelli popolari come ggml Llama, Llama 2, Orca, Vicuna, Nous Hermes, WizardCoder, MPT ecc.. Questa compatibilità consente di esplorare modelli diversi, ampliando le tue conoscenze ed esperienze nel campo dei grandi modelli di lingua.
Inoltre, LM Studio non è limitato all’uso di determinate GPU come Chat with RTX.
Puoi trovare moltissime LLM su huggingface.co, la Repository più popolare per i modelli di linguaggio (LLM), che contiene migliaia di LLM adatte al tuo scopo.
Esistono anche alternative al popolare LM studio come ollama, GPT4ALL, chatllm, Faraday.
In particolare GPT4ALL, da non confondere con ChatGPT di OpenAI, che sta diventando molto diffuso grazie al suo sistema di Plug-in. Per esempio esiste un plugin chiamato LocalDocs che aggiunge funzionalità Retrieval-Augmented Generation (RAG) a GPT4ALL .
Retrieval-Augmented Generation (RAG)
La Retrieval-Augmented Generation o RAG è una tecnica per migliorare l’accuratezza e l’affidabilità dei modelli di intelligenza artificiale generativa con dati introdotti dall’utente (pdf, doc, video, ecc.).
Con la RAG, puoi essenzialmente conversare con i dati da te forniti. Per esempio, un modello di intelligenza artificiale integrato con degli ebook di medicina potrebbe essere un ottimo assistente per un medico o un infermiere. Oppure, se hai un ebook di un libro scientifico che non sei mai riuscito a comprendere a fondo, puoi inviarlo alla RAG e interrogare il modello su ogni tuo dubbio riguardante l’ebook.
Le aziende con la RAG potrebbero trasformare i propri manuali tecnici, i video o i registri in risorse da integrare in una LLM. Queste fonti di dati inserite possono consentire supporto ai dipendenti e una maggiore produttività.
Al momento Chat with RTX e GPT4ALL con il plugin LocalDocs permettono l’uso di RAG su computer locale. Ma è solo questione di tempo per avere il supporto RAG anche in altri software come LM Studio ed altri.
Hardware richiesto per eseguire una LLM in locale
L’uso di LLM locali magari con l’ausilio di RAG, richiedono un hardware potente e adeguato. La RAM del pc parte da un minimo di 16GB, ma quantità anche notevolmente maggiori (128GB) permettono tempi di risposta superiori e l’uso di LLM di dimensioni superiori.
Anche la VRAM della GPU dovrebbe essere almeno 8GB, ma i 24GB inclusi nella Nvidia RTX 4090 🧺 forniscono risultati molto più veloci. Anche le CPU con capacità IA possono accelerare notevolmente il processo di elaborazione rispetto una CPU senza funzionalità IA.
I prezzi di tutti i prodotti presenti in questo articolo sono stati presi al momento della scrittura. Se apprezzi le recensioni e i consigli che trovi sul nostro blog, ti invitiamo a utilizzare i link Amazon🧺presenti in questa pagina. Così facendo, ci aiuti a guadagnare commissioni per sostenere il nostro lavoro e continuare a offrirti contenuti utili e informativi. Grazie per il tuo sostegno, lo apprezziamo tantissimo!