AI-on-device per eseguire modelli senza costose GPU
L’AI sta uscendo dal cloud. Nuove tecniche permettono di eseguire modelli da decine di miliardi di parametri su Raspberry Pi e CPU comuni, con conseguente riduzione dei costi e della dipendenza dalle costose GPU.
Negli ultimi anni, i modelli di Intelligenza Artificiale hanno raggiunto dimensioni senza precedenti. I moderni Large Language Model (LLM) contano decine o centinaia di miliardi di parametri, capaci di cogliere complesse sfumature linguistiche e relazioni intricate tra concetti. Tradizionalmente, l’utilizzo di questi modelli è stato riservato ad infrastrutture con GPU di fascia alta o potenti cluster cloud, a causa della vastità dei calcoli richiesti e della memoria necessaria. Tuttavia, una tendenza emergente che sta mettendo in discussione questa concezione, mostra come l’AI possa funzionare in tempo reale anche su hardware modesto, ad esempio CPU consumer o single-board computer come Raspberry Pi.
L’interesse verso l’esecuzione locale dei modelli non è puramente di carattere economico. Elaborare i dati direttamente sul dispositivo elimina la necessità di inviare informazioni sensibili a server remoti, rafforzando la privacy e la sovranità digitale. Parallelamente, la sfida tecnica stimola lo sviluppo di algoritmi più efficienti in grado di ottimizzare la memoria e il calcolo senza sacrificare la qualità delle risposte generate. A differenza delle GPU, che eccellono nelle moltiplicazioni matriciali massicce grazie al parallelismo estremo, le CPU offrono un set di istruzioni più versatile ma con capacità parallela limitata, richiedendo strategie di ottimizzazione completamente differenti.
ByteShape ha recentemente dimostrato la fattibilità di questa strada con il modello Qwen3-30B-A3B-Instruct-2507. Su una Raspberry Pi 5 dotata di 16 GB di RAM, il modello è stato in grado di generare otto token al secondo mantenendo oltre il 94% della qualità percepita, sfruttando un approccio denominato ShapeLearn, una metodologia che si concentra sulla selezione dei tipi di dati per ciascun tensore, bilanciando velocità e precisione. L’esperienza insegna che ridurre il numero di bit per parametro non porta automaticamente a prestazioni più rapide: in alcune GPU, la quantizzazione estrema può addirittura introdurre overhead che rallentano il processo di inferenza.
I vincoli hardware svolgono un ruolo fondamentale nella scelta delle strategie di ottimizzazione. Su CPU, la memoria RAM è il principale fattore limitante, mentre su GPU viene evidenziato il cosiddetto fenomeno “sweet spot” nella quantizzazione, dove la riduzione dei bit migliora la velocità senza compromettere l’accuratezza. Esperimenti condotti su schede come NVIDIA RTX 5090 o RTX 4080 mostrano come il compromesso ottimale tra velocità e qualità dipenda dalla configurazione del kernel e dall’architettura della memoria, rendendo necessaria una progettazione consapevole e adattativa.
Al contempo, la ricerca su sistemi distribuiti locali ha portato alla nascita di soluzioni come Anyway Systems, sviluppata dall’EPFL. Il software consente di eseguire LLM su cluster domestici o aziendali, coordinando le risorse hardware con tecniche di self-stabilization e garantendo scalabilità e tolleranza ai guasti. Modelli di grandi dimensioni, come GPT-oss-120B, diventano così accessibili senza ricorrere a data center costosi.
L’elaborazione locale riduce sensibilmente il consumo energetico e supporta la sostenibilità, affrontando l’inefficienza degli attuali flussi di inferenza centralizzati.
Mentre framework open source come llama.cpp permettono già inferenza su hardware consumer, Anyway Systems semplifica la gestione del carico, offrendo un’esperienza plug-and-play per organizzazioni e sviluppatori non esperti. L’integrazione tra ottimizzazione dei modelli per dispositivi locali e distribuzione intelligente su cluster potrebbe ridefinire l’ecosistema dell’AI, spostando il controllo dai data center centralizzati agli utenti stessi. La gestione dei dati sensibili, la personalizzazione dei modelli e l’efficienza energetica sono pronti ad aprire nuove prospettive per la democratizzazione dell’Intelligenza Artificiale.





