tecnologia

Local Model, l’AI Generativa che non ha bisogno del cloud

Dal cloud ai local model: perché le PMI stanno ripensando l’AI generativa. Tra costi a consumo, privacy e latenza, emergono Small Language Model eseguibili on-premise. LM Studio, Jan e AnythingLLM rendono accessibile l’AI locale, offrendo alternative efficienti per prototipazione, compliance e business intelligence conversazionale, con focus su sovranità del dato e sostenibilità economica nel periodo

Pubblicato il 16 dic 2025

Gioele Fierro

CEO e Founder Promezio Engineering

Il modello di business a consumo, tipico dei Large Language Model più avanzati, è stato per lungo tempo l’unico punto di accesso all’AI generativa per le PMI. Questo approccio risulta efficace in molti scenari operativi, ma in altri fa emergere interrogativi complessi non solo in tema di privacy e residenza del dato, ma anche riguardo la sostenibilità dei costi nel lungo periodo, legati al modello di pricing per token.

Recentemente, gli sforzi di sviluppo dei grandi modelli di linguaggio si sono concentrati anche sull’ottimizzazione delle risorse. Da questo movimento è nata una serie di Small Language Model, come ad esempio Phi, Gemma o Qwen, abbastanza compatti ed efficienti da poter girare su un buon laptop o su un server aziendale anche modesto. Il risultato di queste ottimizzazioni sono i Local Model: modelli linguistici anche molto efficaci su task specifici, che vengono eseguiti interamente su un’infrastruttura controllata dall’azienda, spesso offline.

Approfondiamo tre strumenti che semplificano la gestione dei Local Model, con interfacce grafiche semplici da utilizzare e API preconfezionate compatibili con lo standard OpenAI. Si tratta di LM Studio, Jan e AnythingLLM, tool con filosofie diverse che però perseguono lo stesso obiettivo: rendere accessibili a un pubblico ampio le AI locali.

Indice degli argomenti:

Perché local invece di cloud?

Uno dei motivi principali per cui un modello locale, in alcuni scenari, è l’unica soluzione percorribile riguarda la gestione della privacy e della sovranità del dato. Il GDPR rappresenta una barriera architettonica contro l’uso sconsiderato delle API pubbliche quando si manipolano dati che potrebbero essere sensibili. Se un dipendente incolla un report finanziario confidenziale su ChatGPT per farne un riassunto, quel dato lascia il perimetro aziendale. Anche con le rassicurazioni Enterprise offerte da alcuni vendor, il dato viaggia, viene processato e talvolta trattenuto per periodi di retention non sempre trasparenti. L’inferenza locale elimina questo problema: il processamento è effimero, il dato entra nella RAM della macchina che esegue il modello, viene elaborato e svanisce non appena la sessione viene chiusa.

C’è poi anche una questione puramente economica che affligge il modello SaaS (Software as a Service). Il modello di business delle API è basato sul consumo: quando si integra l’AI in un processo core e quel processo scala, la bolletta mensile di OpenAI crescerà linearmente. L’approccio locale trasforma questa spesa operativa (OPEX), variabile e potenzialmente infinita, in una spesa in conto capitale (CAPEX), fissa e ammortizzabile. Acquistare una workstation adeguata è un costo una tantum e l’elettricità diventa l’unico costo variabile. Per la fase di inferenza, ossia per la generazione vera e propria dei contenuti, tale costo può anche essere trascurabile.

Infine, c’è la questione della velocità. Un’infrastruttura critica non può dipendere dalla latenza di una connessione internet o dallo stato dei server di un fornitore terzo. Ci sono scenari in cui un sistema AI-Powered deve funzionare offline, sempre, istantaneamente. I Local LLM possono garantire questa continuità operativa; di seguito tre proposte.

LM Studio

Provare a far girare un modello di linguaggio open source qualche tempo fa poteva essere un incubo fatto di dipendenze Python rotte, driver CUDA incompatibili e repository GitHub di complessa interpretazione. LM Studio elimina del tutto questa complessità con un colpo di spugna, diventando probabilmente la porta d’ingresso più elegante per l’AI on-premise oggi disponibile.

La filosofia di LM Studio è rendere l’inferenza accessibile a chiunque abbia competenze informatiche di base. Non serve saper programmare. L’interfaccia è pulita, moderna, con una barra laterale che funge da browser integrato per Hugging Face, il contenitore universale dei modelli AI. L’utente cerca per nome il modello che vuole eseguire e LM Studio mostra le opzioni di download già filtrate per compatibilità.

Oltre all’interfaccia grafica semplificata, LM Studio ha anche un altro punto di forza: la gestione della quantizzazione.

Per capirne il valore bisogna comprendere un limite fisico fondamentale nell’esecuzione di un modello di linguaggio: la memoria. Un modello AI puro pesa centinaia di gigabyte, troppi per una workstation accessibile. La quantizzazione è una tecnica che permette di ridurre la precisione dei pesi del modello (da 16 bit a 4 o 5 bit), perdendo una quantità poco rilevante di “intelligenza”, ma riducendo drasticamente le esigenze in fatto di risorse. LM Studio gestisce nativamente il formato GGUF, lo standard de facto per questa compressione. Permette, ad esempio, di scaricare un modello Llama 3 da 8 miliardi di parametri quantizzato a 4 bit e di farlo girare su un laptop con una certa fluidità.

LM Studio permette anche di distribuire il carico di lavoro tra la CPU (il processore) e la GPU (la scheda video). Su macchine dotate di chip Apple Silicon (M1, M2, M3), sfrutta la memoria unificata per caricare modelli enormi che normalmente richiederebbero server da decine di migliaia di euro. Per un team di sviluppo che deve prototipare un’applicazione AI, l’utilizzo di LM Studio permette di ridurre considerevolmente il tempo necessario.

Jan: l’alternativa trasparente

Jan è la risposta open source a LM Studio. Questo progetto si posiziona con un obiettivo ambizioso e quasi sfrontato: essere un’alternativa drop-in a ChatGPT, ma che vive interamente in locale e garantisce la massima trasparenza dello stack tecnologico.

Jan è costruito su Cortex, un motore di inferenza open source ad alte prestazioni scritto in C++. Può agire anche come server API perfettamente compatibile con lo standard OpenAPI, risultando così immediatamente intercambiabile con le API di ChatGPT.

Questo software è adatto anche in contesti di sicurezza air-gapped: è infatti progettato per funzionare in ambienti dove la connessione internet è fisicamente assente. Questo lo rende una buona scelta in settori ad alta sicurezza come il finance, il legal o la Difesa. La gestione dei dati è completamente trasparente: le conversazioni vengono salvate in semplici file JSON sul file system locale, facilmente sottoponibili a backup o eliminabili secondo le policy di data retention aziendali.

AnythingLLM: dalla chat alla business intelligence

AnythingLLM è uno strumento che sposta il focus dall’inferenza pura alla RAG (Retrieval-Augmented Generation). Il problema dei modelli di linguaggio a-contestuali è che possono soffrire di allucinazioni o possono generare contenuti che non sono coerenti con le policy e gli standard aziendali. AnythingLLM permette di superare questi problemi democratizzando la creazione di knowledge base vettoriali.

Tecnicamente, AnythingLLM è una suite all-in-one. Al suo interno integra non solo il runner per i modelli (può usare il proprio o collegarsi a LM Studio/Ollama), ma soprattutto un database vettoriale e un sistema di embedding. Quando si caricano un PDF, un file Word o una pagina della intranet su AnythingLLM, il software li converte in vettori numerici (lunghe stringhe di numeri che rappresentano il significato semantico) e li archivia localmente.

Quando un utente fa una domanda, AnythingLLM prima cerca nel database vettoriale i frammenti di documenti più pertinenti alla domanda e poi li associa al prompt, indicando al modello quali informazioni usare per dare una risposta ancorata a dati reali, con citazioni precise delle fonti specifiche.

Questo software permette inoltre di gestire workspace aziendali separati. Questa segregazione dei dati è critica per evitare accessi non autorizzati a informazioni riservate.

Il sistema è multi-modale e multi-utente: può essere installato su un server aziendale e servire un’intera divisione tramite interfaccia web, con gestione dei permessi. È, a tutti gli effetti, una piattaforma di business intelligence conversazionale pronta all’uso, capace di trasformare terabyte di dati dimenticati nei server in una base di conoscenza attiva, interrogabile in linguaggio naturale, senza che un solo byte lasci la rete locale.

Come scegliere lo strumento giusto

Scegliere quale tool utilizzare per iniziare ad automatizzare un processo o a semplificare una pipeline aziendale dipende dal problema specifico che si sta cercando di risolvere.

Se l’obiettivo è la performance pura e la prototipazione tecnica, la scelta ricade su LM Studio. È lo strumento per i power user e per i team di R&D che devono spremere al massimo l’hardware disponibile. La sua capacità di gestire la quantizzazione GGUF e l’offloading granulare lo rende uno strumento perfetto per chi lavora a basso livello con i modelli di linguaggio.

Se la priorità è la compliance, l’open source e l’Integrazione API, allora Jan è la soluzione ideale. È adatto alle aziende con policy di sicurezza complesse o a chi deve integrare l’AI in flussi di lavoro esistenti senza rischiare il vendor lock-in. La sua natura trasparente rassicura gli auditor, mentre la sua compatibilità con le specifiche OpenAI permette di lavorare con standard industriali senza pagarli a consumo.

Per la gestione della conoscenza e la ricerca documentale, AnythingLLM risulta la scelta migliore. Non ha molto senso usarlo come un semplice chatbot: va usato per costruire un’intelligenza aziendale. La gestione integrata del database vettoriale permette di velocizzare tutti quei processi che richiedono di consultare procedure, manuali e altra documentazione lunga e complessa.

La soluzione ibrida

Esiste anche uno scenario ibrido, più complesso da implementare, ma ancora più efficace per quelle aziende che hanno necessità articolate. È possibile, infatti, usare LM Studio o Jan come motore di backend che espone l’API locale e collegare AnythingLLM come frontend per la gestione documentale.

Questa architettura modulare offre il meglio dei due mondi: la potenza di inferenza ottimizzata e la gestione intelligente della conoscenza.

La sovranità dei local model

I modelli di frontiera continuano a necessitare di enormi data center e di potenze di calcolo fuori dalla portata della maggior parte delle aziende. Li usiamo per i compiti più complessi, creativi e generalisti, dove il costo elevato e il rischio privacy sono giustificati da una capacità di ragionamento superiore.

Tuttavia, la maggior parte dei task aziendali quotidiani non richiede tale potenza di calcolo. Richiede invece un modello efficiente, veloce, privato e residente in un’infrastruttura locale. L’adozione di strumenti come LM Studio, Jan o AnythingLLM permette alle PMI di dotarsi di una capacità di calcolo AI indipendente e completamente personalizzata.

@RIPRODUZIONE RISERVATA