Close Menu
Gomoot : tecnologia e lifestyleGomoot : tecnologia e lifestyle
    Ultimi Articoli
    la vita in scena

    La vita in scena, cosa resta del cinema di Vittorio De Sica

    16/06/2026
    Dawarich

    Dawarich, come sostituire Google Timeline

    15/06/202615 Views
    Turtle Beach Stealth Pro II

    Turtle Beach Stealth Pro II, cuffia da gaming per ogni piattaforma

    15/06/2026
    Soundcore Motion 300

    Soundcore Motion 300: speaker Bluetooth con app e LDAC a meno di 100 euro

    13/06/202645 Views
    Sniffet

    Sniffnet, il monitor di rete open source per scoprire quale app consuma banda

    12/06/2026

    Xiaomi Redmi Watch 6, a meno di 100 euro fa cose che non ti aspetti

    12/06/202615 Views
    The Ouroboros King

    The Ouroboros King: scacchi, carte e un serpente che si morde la coda

    11/06/202616 Views
    Syncthing

    Impostare Syncthing come backbone di sincronizzazione

    11/06/2026
    mercoledì 17 Giugno 2026
    X (Twitter) Threads Mastodon Bluesky WhatsApp
    Gomoot : tecnologia e lifestyleGomoot : tecnologia e lifestyle
    • Home
    • Computer
      1. MINI PC
      2. Laptop
      3. Monitor
      4. Teoria
      5. Mouse
      6. GPU
      7. Windows
      8. Motherboard
      9. Tastiere
      10. View All
      NiPoGi E3B

      Mini PC NiPoGi E3B con Ryzen 7 5700U: potenza compatta ad un prezzo aggressivo

      26/03/2026

      GEEKOM A5: mini pc con buone prestazioni grazie all’AMD Ryzen 7 5800H

      26/03/2026
      Geekom A8

      Recensione Geekom A8: il mini PC AMD che non ti aspetti

      11/03/2026
      ACEMAGICIAN S3A

      ACEMAGICIAN S3A: un mini pc per il gaming ma non solo

      09/03/2026
      MacBook Neo

      MacBook Neo, il portatile entry-level di Apple

      30/03/2026
      Galaxy Book5 Pro

      Il Samsung Galaxy Book5 Pro sfida il MacBook su qualità e autonomia

      18/03/2026
      Lenovo Chromebook Duet 11

      Lenovo Chromebook Duet 11, un versatile 2-in-1 con 10 anni di aggiornamenti

      24/12/2025
      Legion 5 15IRX10

      Lenovo Legion 5 15IRX10, potenza da workstation e versatilità gaming

      13/10/2025

      ASUS ROG Strix XG27AQNGV, il monitor per i competitive gamer

      05/05/2026

      Philips Evnia 27M2N6501L: il miglior monitor QD-OLED sotto i 500 euro per gaming e color grading

      14/04/2026

      MSI Modern MD272UPSW, il monitor 4K che è anche Smart TV

      13/04/2026
      ASRock Phantom Gaming PGO32UFS

      ASRock Phantom Gaming PGO32UFS: il primo OLED di ASRock punta in alto

      07/04/2026
      Immich

      Immich: accelerazione GPU, ricerca CLIP multilingua e External Library

      09/05/2026
      uv astral

      Il tooling Python è sempre stato un disastro. uv risolve tutto in un colpo solo

      04/05/2026

      Mise-en-place sta cambiando il modo di gestire gli ambienti di sviluppo

      01/05/2026
      Powertoys

      Microsoft PowerToys: una suite senza pretese che risolve problemi reali

      30/04/2026

      Logitech Mobi Fold è il mouse pieghevole per chi viaggia

      11/06/2026

      Logitech G Pro X2 Superstrike, il mouse con tecnologia HITS per click più veloci

      10/02/2026
      Mouse NZXT Lift 2

      Mouse NZXT Lift 2, mouse filare ultraleggero e preciso

      21/12/2025
      MX Master 4

      Logitech MX Master 4, feedback aptico e design migliorato

      20/12/2025
      rtx spark

      Con RTX Spark, NVIDIA reinventa il PC Windows

      08/06/2026
      MatX

      MatX raccoglie 500 milioni di dollari per sfidare Nvidia

      25/02/2026
      nvidia rtx 5090 ti

      Nvidia prepara una RTX 5090 “estrema” per il 2026

      09/02/2026
      dlss45 MFG 6× nvidia

      NVIDIA dynamic MFG e MFG 6×: più intelligenza per i frame generati

      06/02/2026
      winget configuration

      WinGet Configuration configura Windows da zero con un solo comando

      02/06/2026
      Windhawk

      Windhawk: il marketplace di mod che modella Windows 11 a tuo piacere

      28/05/2026
      secure boot

      Secure Boot in scadenza: cosa succede ai PC dopo il 27 giugno 2026

      06/05/2026
      pannello di controllo windows 11

      Microsoft accelera l’abbandono del Pannello di controllo su Windows 11

      09/04/2026

      Arduino UNO Q raddoppia RAM e storage

      23/01/2026
      ROG Strix B860-A Gaming

      Asus ROG Strix B860-A Gaming WiFi, motherboard per build ad alte prestazioni.

      17/01/2026
      pcie 250watt

      Asus alimenta una RTX 5060 Ti da 250 W su uno slot PCIe potenziato

      23/09/2025
      MSI MAG Z890 Tomahawk WiFi

      MSI MAG Z890 Tomahawk WiFi: scheda madre top per Intel Ultra

      12/06/2025

      Light Mount di be quiet! porta il silenzio nel gaming

      04/02/2026
      Signature Slim Solar+ K980

      Logitech Signature Slim Solar+ K980: la tastiera che si ricarica con la luce

      22/01/2026
      Epomaker HE75 Mag

      Tastiera magnetica Epomaker HE75 Mag: la scelta giusta per chi pretende il massimo spendendo poco

      23/11/2025
      Keys-To-Go 2

      Logitech Keys-To-Go 2: tastiera wireless per laptop, tablet e smartphone

      14/06/2025

      Logitech Mobi Fold è il mouse pieghevole per chi viaggia

      11/06/2026

      Armbian Imager 2.0: flashare una SBC non è mai stato così diretto

      08/06/2026
      rtx spark

      Con RTX Spark, NVIDIA reinventa il PC Windows

      08/06/2026
      winget configuration

      WinGet Configuration configura Windows da zero con un solo comando

      02/06/2026
    • Tech
      1. Curiosità
      2. Eventi
      3. memory cards
      4. Powerbank
      5. Smartwatch
      6. Gadgets
      7. Bluetooth speakers
      8. Intelligenza artificiale
      9. Offerte
      10. Software
      11. View All

      Starlink abbassa i satelliti per sicurezza orbitale

      02/01/2026

      Con Nano Banana, Gemini supera ChatGPT tra le app AI

      17/09/2025
      grotta lunare

      Scoperta una grotta lunare sotterranea

      16/07/2024
      Oleg Kononenko

      Oleg Kononenko: 1000 giorni nello spazio

      05/06/2024
      Google I/O 2026

      La conferenza Google I/O 2026 sarà a maggio

      18/02/2026

      NASA rinvia Artemis II per perdite di idrogeno

      03/02/2026
      BYD YangWang U9 Extreme

      BYD YangWang U9 Extreme: il nuovo re della velocità tra le auto di serie

      24/09/2025
      Awe Dropping Apple

      Awe Dropping del 9 settembre 2025, Apple svela il suo futuro

      09/09/2025
      SSD Crucial P310 2TB

      Crucial P310 2TB SSD NVMe: storage ad alta velocità a un ottimo prezzo

      08/06/2025
      V-NAND QLC Samsung

      Il futuro dello storage è pronto: Samsung svela la V-NAND QLC da 1 Tb

      12/09/2024
      microSD SD Express

      Samsung presenta la prima microSD SD Express

      07/03/2024

      ADATA lancia il primo SSD esterno USB4 SE920

      31/10/2023
      power bank

      Power Bank cablati e wireless Qi2 : guida all’acquisto

      03/03/2026

      Anker Nano Power Bank 5K, il caricatore più sottile con MagSafe e Qi2

      22/01/2026
      Sharge ICEMAG 2

      Sharge ICEMAG 2: power bank Qi2 15W con raffreddamento attivo

      12/05/2025
      Baseus Nomos

      Baseus Nomos Power Bank: ricarica wireless veloce e sicura

      11/05/2025

      Xiaomi Redmi Watch 6, a meno di 100 euro fa cose che non ti aspetti

      12/06/2026

      Amazfit Bip Max, lo smartwatch con GPS a meno di 100 euro

      02/06/2026

      Huawei Watch Fit 5 Pro: design e sensori da fascia alta in un formato ultrasottile

      08/05/2026

      Watch GT Runner 2 è il running watch più completo di Huawei

      30/03/2026

      WiiM Sound Lite: speaker Wi-Fi perfetto per l’audio domestico

      11/05/2026
      Ultimate Ear Wonderboom 3

      Ultimate Ears WONDERBOOM 3: suono di qualità a un prezzo accessibile

      24/03/2026

      Xiaomi Smart Tag offre Find My e Find Hub in un solo tracker

      12/03/2026
      Hollyland Lark A1

      Hollyland Lark A1: uno dei migliori microfoni lavalier per smartphone e vlogging

      03/03/2026

      JBL Xtreme 3, altoparlante potente e impermeabile

      19/05/2026

      JBL Boombox 4: speaker Bluetooth con AI e USB-C lossless

      18/05/2026
      JBL Clip 5

      JBL Clip 5, lo speaker Bluetooth ultra-portatile e suono potente

      16/05/2026
      Marshall Emberton III

      Marshall Emberton III: il re portatile del suono rock

      15/05/2026

      DiffusionGemma, il nuovo modello open source di Google

      11/06/2026
      Fable 5

      Claude Fable 5 e Mythos 5: Anthropic separa la potenza dall’accesso

      10/06/2026
      Hermes One

      Hermes Desktop, l’agente AI open source di Nous Research che impara dall’uso

      09/06/2026
      rtx spark

      Con RTX Spark, NVIDIA reinventa il PC Windows

      08/06/2026
      Ultimate Ear Wonderboom 3

      Ultimate Ears WONDERBOOM 3: suono di qualità a un prezzo accessibile

      24/03/2026
      Samsung Galaxy Watch 5

      Samsung Galaxy Watch 5 in offerta

      03/01/2025
      nubia z60 ultra

      Offerte Black Friday Nubia: telefoni premium a prezzi convenienti

      22/11/2024
      Scream Fest 2024

      Steam Scream Fest 2024: sconti horror per Halloween

      29/10/2024
      ramalama

      RamaLama, come eseguire modelli AI in locale dentro container OCI isolati

      17/06/2026
      Dawarich

      Dawarich, come sostituire Google Timeline

      15/06/2026
      Sniffet

      Sniffnet, il monitor di rete open source per scoprire quale app consuma banda

      12/06/2026
      Syncthing

      Impostare Syncthing come backbone di sincronizzazione

      11/06/2026

      DiffusionGemma, il nuovo modello open source di Google

      11/06/2026
      Fable 5

      Claude Fable 5 e Mythos 5: Anthropic separa la potenza dall’accesso

      10/06/2026

      Honor 600 Pro, il flagship di Honor in offerta

      09/06/2026
      Hermes One

      Hermes Desktop, l’agente AI open source di Nous Research che impara dall’uso

      09/06/2026
    • Mobiles
      1. Smartphones
      2. View All

      Honor 600 Pro, il flagship di Honor in offerta

      09/06/2026

      Xiaomi 17T porta il teleobiettivo Leica 5x nella fascia media

      02/06/2026
      POCO M8 5G

      Il POCO M8 5G con display AMOLED da 3200 nits cambia le aspettative sulla fascia entry

      10/04/2026

      OPPO Reno13 Pro, il mid-range con ambizioni da flagship

      01/04/2026

      Honor MagicPad 4, il tablet Android ultrasottile che sfida l’iPad, ma costa la metà

      10/06/2026

      Note A1 NXTPAPER di TCL, un blocco note digitale per studenti e professionisti

      28/04/2026

      TCL NXTPAPER 14 è il tablet che fa riposare gli occhi

      24/04/2026
      Galaxy Tab S10 FE

      Da Samsung due valide alternative all’ iPad, Galaxy Tab S10 FE e S10 FE+

      10/03/2026
    • Musica
      1. Cuffie
      2. DAC
      3. hi-fi
      4. Teoria
      5. View All
      Turtle Beach Stealth Pro II

      Turtle Beach Stealth Pro II, cuffia da gaming per ogni piattaforma

      15/06/2026

      Sony INZONE H6 Air, la prima cuffia gaming open-back di Sony

      04/05/2026

      JBL Sense Pro: la formula open-ear che convince

      27/04/2026

      SoundPEATS Air6 HS, auricolari semi-in-ear economici con LDAC

      23/04/2026
      Truthear KeyX

      Truthear KeyX, un DAC dongle che vale ogni centesimo

      28/04/2026
      Eversolo Play

      Eversolo Play: il tuttofare hi-fi per chi vuole meno cavi e più musica

      03/12/2025
      Pioneer VSA-LX805

      Pioneer VSA-LX805, un riferimento per i ricevitori AV high-end

      08/06/2025
      FiiO BTR15

      FiiO BTR15: DAC Bluetooth al prezzo più basso di sempre

      17/05/2025
      Eversolo Play

      Eversolo Play: il tuttofare hi-fi per chi vuole meno cavi e più musica

      03/12/2025
      Pioneer VSA-LX805

      Pioneer VSA-LX805, un riferimento per i ricevitori AV high-end

      08/06/2025
      Focal Aria 926

      Componenti per un ottimo impianto stereo

      31/07/2024

      Garmin acquista JL Audio

      16/08/2023
      truffa phishing zalando

      Truffa phishing: in regalo la gift card Zalando da 150€

      06/12/2024
      sim ed esim

      Differenza tra SIM fisica ed eSIM: vantaggi e sicurezza

      02/11/2024

      Malware: cosa sono e come difendersi

      19/10/2024
      crittografia a cosa serve

      Crittografia, come funziona e perchè dobbiamo utilizzarla

      16/10/2024
      Turtle Beach Stealth Pro II

      Turtle Beach Stealth Pro II, cuffia da gaming per ogni piattaforma

      15/06/2026
      Soundcore Motion 300

      Soundcore Motion 300: speaker Bluetooth con app e LDAC a meno di 100 euro

      13/06/2026

      Sony INZONE H6 Air, la prima cuffia gaming open-back di Sony

      04/05/2026
      Truthear KeyX

      Truthear KeyX, un DAC dongle che vale ogni centesimo

      28/04/2026
    • Lifestyle
      1. Criptovalute
      2. EV
      3. Gaming
      4. Trekking
      5. Scienze
      6. View All
      Alpha Arena : trading ai bot

      Alpha Arena : sfida tra modelli AI nel trading di criptovalute

      20/10/2025
      Coinbase

      Coinbase colpita da attacco informatico e minaccia di riscatto

      15/05/2025
      coinbase

      Coinbase : acquisti cripto tramite Apple Pay

      03/12/2024
      criptovalute

      Criptovalute: cosa sono e come funzionano le monete virtuali

      19/10/2024
      CATL e HyperStrong

      CATL e HyperStrong: l’accordo da 60 GWh che porta le batterie al sodio nell’era industriale

      29/04/2026
      tesla

      Tesla dice addio a Model S e Model X ma accelera sugli EV autonomi e i robot umanoidi

      29/01/2026
      Volvo EX60

      Volvo EX60: la sfida scandinava al dominio tedesco degli elettrici premium

      22/01/2026
      CATL sodium ion

      CATL annuncia la produzione di massa delle batterie agli ioni di sodio nel 2026

      30/12/2025
      The Ouroboros King

      The Ouroboros King: scacchi, carte e un serpente che si morde la coda

      11/06/2026
      Songs of conquest

      Songs of Conquest: un genere che torna a respirare

      04/06/2026
      Calico recensione pc

      Calico, benvenuti a Heart Village

      28/05/2026
      Down in Bermuda

      Down in Bermuda: un puzzle adventure di Yak & Co tra sfere di luce e isole esotiche

      21/05/2026
      Samsung Galaxy Watch 5

      Samsung Galaxy Watch 5 in offerta

      03/01/2025
      8a Scarpinata della Teverina

      A spasso per i sentieri: 8a Scarpinata della Teverina

      14/05/2024
      Valli e Calanchi

      A spasso per i sentieri: 1a Valli e Calanchi

      27/09/2023
      Maternum Marathon 2023

      A spasso per i sentieri: la 2a edizione di Maternum Marathon

      13/06/2023
      Il caffè riscrive il microbioma intestinale

      Il caffè riscrive il microbioma intestinale, e con esso umore, memoria e cognizione

      23/04/2026
      urano

      Le lune esterne di Urano Titania e Oberon, sono scure sul lato anteriore.

      19/06/2025
      Muon g-2

      L’anomalia Muon g-2 segue le leggi del Modello Standard

      13/06/2025
      Neuroplatform finalspark

      Neuroplatform, piattaforma online alimentata dal primo processore biologico al mondo

      27/05/2024
      la vita in scena

      La vita in scena, cosa resta del cinema di Vittorio De Sica

      16/06/2026

      Accordo Wizz Air e Starlink: Wi-Fi gratuito a bordo dal 2027

      09/06/2026
      CATL e HyperStrong

      CATL e HyperStrong: l’accordo da 60 GWh che porta le batterie al sodio nell’era industriale

      29/04/2026
      Il caffè riscrive il microbioma intestinale

      Il caffè riscrive il microbioma intestinale, e con esso umore, memoria e cognizione

      23/04/2026
    Gomoot : tecnologia e lifestyleGomoot : tecnologia e lifestyle
    Home»Software»RamaLama, come eseguire modelli AI in locale dentro container OCI isolati
    Software

    RamaLama, come eseguire modelli AI in locale dentro container OCI isolati

    RamaLama, lo strumento del team Podman che fa girare i modelli AI in locale dentro container isolati e li impacchetta in immagini OCI
    GrazianoGraziano17/06/2026
    Share Twitter WhatsApp Bluesky Threads
    ramalama

    Far girare un modello linguistico sul proprio computer è ormai una pratica diffusa, ma il modo in cui ci si arriva resta spesso poco pulito. Chi è passato per l’installazione manuale lo sa bene: driver CUDA o ROCm da allineare alla versione giusta di PyTorch, ambienti Python che entrano in conflitto tra loro, librerie compilate a mano.

    Strumenti come Ollama o LMstudio hanno semplificato di molto questo percorso, e non a caso sono diventati il punto di riferimento per chi inizia. Restano però un runtime che vive sopra il sistema operativo, con i propri file, i propri servizi e le proprie versioni da mantenere.

    RamaLama parte da un’idea diversa, ovvero trattare un modello AI esattamente come si tratta un’immagine container. È un progetto open source nato all’interno dell’ecosistema containers, lo stesso di Podman e Buildah.

    Quando lanci un modello, RamaLama ispeziona la tua GPU, scarica l’immagine OCI già ottimizzata per quell’hardware e avvia l’inferenza dentro un container isolato. Il sistema host resta intatto, perché tutto ciò che serve vive nel contenitore e sparisce quando chiudi. In questa guida vediamo come installarlo sui tre sistemi operativi, come far girare un modello recente come Gemma 4 o Qwen3.6, come esporlo via API e come impacchettare un modello in un’immagine pronta da distribuire.

    RamaLama: perché un modello dentro un container

    Il problema che RamaLama prova a risolvere non è far girare il modello, perché quello lo fanno già in molti. Il problema è come ci si arriva e cosa resta sul sistema una volta finito. Ogni acceleratore hardware ha il suo stack software: una scheda NVIDIA vuole CUDA, una AMD vuole ROCm o Vulkan, una Intel Arc ha le sue librerie, e i Mac con Apple Silicon usano Metal o MLX.

    RamaLama sposta questa complessità dentro un’immagine container. Al primo avvio ispeziona la macchina, riconosce il tipo di GPU presente e scarica un’immagine OCI accelerata, cioè costruita appositamente con tutte le librerie necessarie per quell’hardware. Se non trova nessuna GPU supportata, ripiega sulla CPU senza che tu debba cambiare nulla. Dentro quel container gira il vero motore di inferenza, che a seconda dei casi è llama.cpp oppure vLLM: è lì che il modello viene effettivamente eseguito, mentre sul tuo sistema non finisce nessuna libreria.

    Da qui derivano due conseguenze pratiche che, secondo me, sono il vero motivo per provarlo. La prima è la riproducibilità: l’immagine è legata alla versione minor di RamaLama, quindi due macchine con la stessa versione eseguono il modello nello stesso ambiente, senza il classico “da me funziona“. La seconda è la pulizia. I modelli che scarichi restano salvati in una cartella dedicata, di norma ~/.local/share/ramalama, quindi non li riscarichi a ogni avvio.

    Il container che li esegue, invece, è temporaneo, viene creato al momento del comando e cancellato appena chiudi. Sul sistema non resta alcun file sparso in giro.

    Installazione su Linux, macOS e Windows

    RamaLama ha un solo prerequisito: per sfruttare l’isolamento serve un container engine. Quando trova sia Podman sia Docker, RamaLama sceglie Podman per impostazione predefinita, perché permette container rootless e si integra meglio con la sua filosofia. Se preferisci Docker, basta impostare la variabile d’ambiente RAMALAMA_CONTAINER_ENGINE=docker. Se non c’è nessuno dei due, lo strumento prova comunque a eseguire il modello con il software presente sul sistema, ma in quel caso perdi proprio la parte di isolamento che lo rende interessante.

    Su Linux il modo più pulito, se sei su Fedora o derivate, è il pacchetto ufficiale.

    sudo dnf install ramalama
    

    Su qualsiasi altra distribuzione, o se vuoi l’ultima versione disponibile, lo script di installazione ufficiale funziona sia su Linux sia su macOS.

    curl -fsSL https://ramalama.ai/install.sh | bash
    

    In alternativa, trattandosi di un progetto Python, puoi installarlo via PyPI in un ambiente isolato. È la strada che preferisco quando voglio tenere separato lo strumento dal resto del sistema.

    pip install ramalama
    

    Su Windows il supporto passa per WSL2. Serve Docker Desktop oppure Podman Desktop configurati con il backend WSL2 e una versione di Python pari o superiore alla 3.9; l’installazione vera e propria avviene poi con pip install ramalama. Per usare la GPU NVIDIA dentro WSL2 occorre la configurazione dedicata descritta nella documentazione del progetto. Non è la procedura più immediata tra le tre, ma funziona: anche su Windows i modelli girano dentro container, non direttamente sul sistema.

    Una volta installato, conviene verificare che tutto sia a posto prima di scaricare gigabyte di modelli. Il comando info mostra la configurazione rilevata, incluso il container engine in uso e il supporto GPU.

    ramalama version
    ramalama info
    

    Se ramalama info riporta correttamente la tua scheda video, sei pronto. In caso contrario, nella maggior parte dei casi il problema è a monte, cioè nei driver o nel toolkit container del produttore, non in RamaLama.

    Prima esecuzione con ramalama

    Il comando con cui inizierai è ramalama run, che scarica il modello, prepara il container e ti lascia in una chat interattiva nel terminale. La prima esecuzione è sempre la più lenta, perché oltre al modello deve scaricare l’immagine accelerata adatta al tuo hardware; dalla seconda in poi parte in pochi secondi.

    ramalama run hf://unsloth/Qwen3.6-27B-GGUF
    

    Il prefisso hf:// indica che il modello va preso da Hugging Face, che è il transport su cui conviene puntare oggi. RamaLama ne supporta diversi, da ModelScope ai registri OCI veri e propri, fino a Ollama; quest’ultimo però è in via di dismissione, perché i suoi modelli non sono più compatibili con llama.cpp, quindi è bene abituarsi a indicare i modelli con hf://.

    Nel momento in cui scrivo, il panorama dei modelli “aperti” da far girare in locale ruota attorno a famiglie come Gemma 4 di Google, uscita ad aprile 2026 con varianti che vanno dalle più leggere (pensate per girare anche solo su CPU) ai modelli densi più capaci, e Qwen3.6 di Alibaba, disponibile in versione densa e in versione MoE (Mixture of Experts) con licenza Apache 2.0. Sono questi i pesi su cui ha senso ragionare adesso.

    Mentre la chat è attiva, in un altro terminale puoi vedere coi tuoi occhi che non c’è alcuna magia: il modello è semplicemente un container in esecuzione.

    podman ps
    

    Vedrai un container basato sull’immagine quay.io/ramalama/ramalama che ospita il processo di inferenza. Per la scelta del peso, tieni a mente che la quantizzazione determina quanta memoria serve. Un modello da 27 miliardi di parametri quantizzato a Q4_K_M richiede grosso modo 16-17 GB e gira bene su una scheda da 24 GB di VRAM, mentre se hai meno memoria conviene scendere di taglia o di quantizzazione. Puoi indicare il repository e lasciare a RamaLama la scelta del file, oppure puntare direttamente a una specifica variante .gguf quando vuoi il pieno controllo su quale quantizzazione caricare.

    RamaLama: dal chatbot al server

    La chat interattiva è comoda per le prove, ma il vero valore arriva quando esponi il modello come servizio. È il compito di ramalama serve, che avvia un endpoint REST e, se vuoi, una web UI raggiungibile dal browser.

    ramalama serve hf://unsloth/Qwen3.6-27B-GGUF
    

    Per impostazione predefinita il servizio si mette in ascolto sulla porta 8080, oppure su una porta libera tra la 8081 e la 8090 se la prima è occupata; con -p puoi forzarne una a tua scelta. L’endpoint esposto è compatibile con l’API di OpenAI, e questo è il punto che lo rende davvero utile: qualsiasi applicazione, libreria o script già scritto per chat/completions può puntare al tuo server locale cambiando solo l’URL di base. In pratica, una volta avviato il server, puoi interrogarlo con una normale chiamata HTTP.

    curl http://localhost:8080/v1/chat/completions \
      -H "Content-Type: application/json" \
      -d '{
        "messages": [
          {"role": "user", "content": "Spiegami cosa sono i container OCI in due righe"}
        ]
      }'
    

    Se preferisci un’interazione visiva, l’interfaccia web è attiva di default; quando non ti serve, la disattivi con --webui off per ridurre la superficie esposta. Un aspetto che apprezzo è la possibilità di far girare più modelli contemporaneamente come servizi in background, ciascuno nel suo container e sulla sua porta, semplicemente aggiungendo -d per il detach e un nome.

    ramalama serve -d -p 8080 --name assistente hf://unsloth/Qwen3.6-27B-GGUF
    ramalama serve -d -p 8081 --name piccolo hf://unsloth/Qwen3.6-4B-GGUF
    ramalama stop --all
    

    In questo modo puoi tenere, per esempio, un modello grande per i compiti complessi e uno piccolo e veloce per le risposte rapide, instradando le richieste verso l’uno o l’altro a seconda del bisogno. Quando hai finito, ramalama stop chiude i container e libera la memoria, senza lasciare processi orfani sul sistema.

    convert, push e RAG

    Dato che un modello è trattato come un’immagine, puoi impacchettarlo in un artefatto OCI vero e proprio e distribuirlo con la stessa infrastruttura che usi già per i container. Il comando convert prende un modello da Hugging Face, lo trasforma con la quantizzazione che indichi e lo salva come immagine locale.

    ramalama convert --gguf Q4_K_M hf://ibm-granite/granite-3.2-2b-instruct \
      oci://quay.io/tuonome/granite-3.2-q4-k-m:latest
    

    Da quel momento il modello è un’immagine a tutti gli effetti, che puoi eseguire come tale.

    ramalama run oci://quay.io/tuonome/granite-3.2-q4-k-m:latest
    

    E, soprattutto, puoi caricarla su qualunque registry compatibile, da Quay a Docker Hub fino a un Artifactory aziendale, con ramalama push. Il vantaggio pratico è notevole: in un’azienda o in un homelab puoi pubblicare una versione esatta e versionata di un modello, e tutti gli altri la scaricano con un comando, certi di eseguire i medesimi pesi e la medesima quantizzazione.

    Sulla stessa logica si appoggia anche il RAG (Retrieval Augmented Generation), cioè la tecnica con cui un modello risponde basandosi su documenti che gli fornisci tu. Il comando rag prende i tuoi file, in formato PDF, DOCX, PPTX, Markdown e altri, li elabora con la libreria Docling dentro un container dedicato e ne ricava un database vettoriale, impacchettandolo a sua volta come immagine OCI.

    ramalama rag ./documenti oci://quay.io/tuonome/mia-knowledge-base
    ramalama run --rag oci://quay.io/tuonome/mia-knowledge-base hf://unsloth/Qwen3.6-27B-GGUF
    

    Il risultato è un assistente che ragiona sui tuoi documenti, costruito senza inviare nulla a servizi esterni. L’intera knowledge base diventa un’immagine che puoi archiviare, versionare e condividere come faresti con qualsiasi altro container.

    Finalmente in un container

    RamaLama non cerca di vincere sul terreno della semplicità assoluta, e fa bene a non provarci, perché su quel fronte strumenti più snelli come Ollama restano imbattibili per chi vuole solo una chat in due minuti. La sua scommessa è un’altra, ovvero portare nel mondo dell’AI locale le buone pratiche che il mondo dei container ha già consolidato in anni di uso in produzione.

    Isolamento, riproducibilità, distribuzione tramite registry e gestione tramite systemd o Kubernetes sono il cuore stesso del progetto, e la sua coerenza con l’ecosistema Podman non è un caso, vista la provenienza di chi lo sviluppa.

    Se sei uno sviluppatore, un sysadmin o un appassionato che ha già Podman o Docker installati e che considera normale ragionare per immagini e container, RamaLama si incastra nel tuo flusso di lavoro quasi senza attrito, e ti restituisce un controllo sui modelli che gli strumenti più “consumer” non offrono.

    Se invece ti interessa soltanto provare l’ultimo modello uscito senza pensare all’infrastruttura sotto, la curva di ingresso rischia di sembrare un passaggio in più rispetto al beneficio percepito. Installalo, lancia un ramalama run con Gemma 4 o Qwen3.6 e apri podman ps in un altro terminale. Se vedere il tuo modello comparire come un container ti fa pensare “ecco, finalmente”, hai trovato lo strumento giusto per te.

    AI Linux LLM mac opensource ramalama windows
    Previous ArticleLa vita in scena, cosa resta del cinema di Vittorio De Sica
    Avatar photo
    Graziano
    • Website

    Ho visto l'informatica nascere con il C64 e oggi seguo con lo stesso entusiasmo l'evoluzione verso mini PC e desktop SFF. Fuori dal lavoro, le mie passioni sono i film, il trekking, la bici e la corsa. Ma non disdegno una sessione di gaming o programmazione!

    Articoli collegati

    Dawarich
    Software

    Dawarich, come sostituire Google Timeline

    15/06/202615 Views
    Sniffet
    Software

    Sniffnet, il monitor di rete open source per scoprire quale app consuma banda

    12/06/2026
    Syncthing
    Software

    Impostare Syncthing come backbone di sincronizzazione

    11/06/2026
    Add A Comment
    Leave A Reply Cancel Reply

    Ultimi articoli
    la vita in scena

    La vita in scena, cosa resta del cinema di Vittorio De Sica

    16/06/2026
    Dawarich

    Dawarich, come sostituire Google Timeline

    15/06/202615 Views
    Turtle Beach Stealth Pro II

    Turtle Beach Stealth Pro II, cuffia da gaming per ogni piattaforma

    15/06/2026
    Soundcore Motion 300

    Soundcore Motion 300: speaker Bluetooth con app e LDAC a meno di 100 euro

    13/06/202645 Views
    Sniffet

    Sniffnet, il monitor di rete open source per scoprire quale app consuma banda

    12/06/2026

    Xiaomi Redmi Watch 6, a meno di 100 euro fa cose che non ti aspetti

    12/06/202615 Views
    Gomoot : tecnologia e lifestyle
    X (Twitter) Bluesky WhatsApp Threads Mastodon
    • Home
    • Tech
    • Mobiles
    • Contatti
    • Privacy
    • ABOUT
    © 2026 GOMOOT.COM

    Type above and press Enter to search. Press Esc to cancel.