Politica

Rischi, energia, etica e noia. L’esperto su DeepSeek: “Il vero progresso è la capacità di ragionare in fase di training”

Ha rivoluzionato l’intelligence artificiale ma potrebbe aver rubato proprietà intellettuale. Scalzerà le big tech americane dal mercato, anzi ne favorirà il business. Da quando il 20 gennaio ha lanciato il suo modello open source, diventando l’app gratuita più scaricata sull’Apple store Usa, di DeepSeek si è detto tutto e il contrario di tutto. La provenienza cinese della startup sembra motivare parte delle preoccupazioni: in Occidente non fa stare tranquilli, vedere le tecnologie del futuro prendere forma in un paese considerato non democratico, spesso accusato dai partner commerciali di concorrenza sleale. Altri sono timori più generalizzati, associabili all’IA e alle sfide che comporta in termini ambientali ed etici.

Per provare a fare chiarezza il Fattoquotidiano.it lo ha intervistato Emanuele Rodolà, professore ordinario di Informatica alla Sapienza Università di Roma, dove dirige il gruppo GLADIA di Intelligenza Artificiale. La sua ricerca, finanziata da grant europei e nazionali, si concentra su modelli neurali, representation learning, ML per audio e apprendimento multimodale, con oltre 170 pubblicazioni e numerosi riconoscimenti. Ha svolto attività di ricerca presso USI Lugano, TU Munich, Università di Tokyo e ha trascorso periodi di visiting research presso istituzioni come Tel Aviv University, Technion, École Polytechnique e Stanford. Fellow di ELLIS e unico italiano nella Young Academy of Europe per l’AI, è attivo nei principali comitati scientifici del settore. Sfidiamo anche il lettore: questa intervista contiene una domanda e risposta generate dall’IA. Sai identificarla? (*risposta in calce)

L’ascesa di DeepSeek sta suscitando ammirazione e preoccupazione allo stesso tempo, soprattutto dopo le accuse pubbliche di OpenAI: secondo l’azienda americana, la startup cinese sarebbe ricorsa alla distillazione per addestrare l’IA a basso costo. Questo in che modo implica un risparmio sulle risorse di calcolo? Quanto hanno copiato i cinesi e quanto hanno invece ottimizzato?
La presunta distillazione da parte di DeepSeek per addestrare a basso costo è una questione complessa e ancora poco chiara. OpenAI ha mosso accuse (ma senza prove pubbliche) rendendo il dibattito ipotetico. Facciamo un passo indietro. In generale, la distillazione è una tecnica ampiamente utilizzata per trasferire conoscenza da un modello avanzato a uno più leggero, riducendo costi e tempi di training. Se DeepSeek ha usato ChatGPT per generare esempi di ragionamento invece di impiegare istruttori umani, hanno risparmiato sia in manodopera che in risorse computazionali. Dal punto di vista scientifico rientra nel cosiddetto transfer learning, una pratica virtuosa per riutilizzare modelli esistenti. Tuttavia, se i dati di fine-tuning provengono da un modello proprietario, possono emergere problemi di proprietà intellettuale. La questione non è tanto se DeepSeek abbia copiato, ma se abbia violato termini d’uso. Ma al di là della distillazione, la vera innovazione di DeepSeek è quella di far emergere capacità di ragionamento avanzate già in fase di training, senza forzarle artificialmente come accade in altri modelli. Questo rappresenta un progresso scientifico rilevante, indipendentemente dall’eventuale uso della distillazione.

Secondo il Ceo di Nvidia Jen-Hsun Huang, DeepSeek potrebbe rappresentare non solo un competitor per le aziende occidentali, ma anche un potenziale incentivo all’acquisto dei loro prodotti. È d’accordo con questa affermazione?
Sì. All’inizio, il modello di DeepSeek ha messo un po’ in allarme aziende come Nvidia, perché si temeva potesse portare a una domanda ridotta di chip per l’addestramento delle reti neurali. In realtà, nonostante DeepSeek necessiti di hardware meno potente per la fase di training, il ragionamento a tempo di inferenza e la produzione di IA ad alte prestazioni continua a richiedere infrastrutture avanzate. Più avanzano i modelli di IA, più cresce il bisogno di potenza di calcolo. Quindi, paradossalmente, questo nuovo salto tecnologico che sposta il focus da addestramento ad inferenza potrebbe ironicamente fungere da incentivo all’acquisto di chip prodotti in occidente.

Entro il 2030 l’8% dell’energia elettrica degli USA e il 5% dell’Europa sarà destinato all’IA. Come pensa possa essere gestita la questione energetica?
Trovo interessante che le previsioni che citi si scontrano direttamente con gli obiettivi dello European Green Deal, che punta a migliorare drasticamente l’efficienza energetica con l’ambizioso traguardo di rendere l’Unione Europea il primo continente climate neutral proprio entro il 2030. Quello che più preoccupa è che il consumo energetico dell’IA sia destinato a crescere, perché il paradigma dominante oggi è lo scale up: più dati, più parametri, più potenza computazionale. Questa visione è rafforzata dalla famosa “lezione amara” dell’IA, secondo cui molti problemi diventano più facili semplicemente aumentando le risorse. È una strategia a basso rischio per le aziende, ma insostenibile a lungo termine. Ma sappiamo che alternative più efficienti stanno emergendo. DeepSeek o anche ChatGPT o1, ad esempio, adattano dinamicamente le risorse durante l’inferenza, usando più calcolo solo per task complessi. Questo approccio potrebbe ridurre significativamente i consumi energetici. Un’altra direzione promettente è il riuso di modelli pre-addestrati, un trend in forte crescita e di cui mi occupo in prima persona con il mio team alla Sapienza. Ci sono enormi database pubblici e open-source di reti neurali, pronti al download e alla sperimentazione, democratizzando l’accesso all’IA. Non so come e quando arriveremo a un buon compromesso, ma so che il futuro dell’IA dovrà bilanciare progresso e sostenibilità.

Parliamo di trasformatori. Hanno consentito in pochi anni di passare all’IA generativa, che produce contenuti e dialoga in linguaggio naturale. Ci può spiegare meglio come funzionano?
I transformers hanno cambiato le regole del gioco. Grazie al meccanismo di self-attention, colgono meglio il contesto e generano testi più naturali. Ad esempio, se diciamo “il cane ha abbaiato all’orso perché aveva paura”, il modello capisce che era il cane ad avere paura, mentre un modello tradizionale “pre-transformers” si sarebbe fatto facilmente ingannare. È così che siamo passati da risposte rigide a modelli come ChatGPT, capaci di scrivere, tradurre e persino creare immagini. Addestrati su enormi quantità di dati, hanno trasformato in pochi anni il nostro modo di interagire con la tecnologia.

Esiste un criterio per distinguere un’intervista reale da una generata?
È ancora un problema aperto. Esistono strumenti per calcolare la probabilità che un dato testo sia stato generato da un dato modello, ma basta una virgola o un sinonimo per ingannarli, rendendoli poco affidabili. Curiosamente, gli esseri umani spesso se ne accorgono. I testi generati tendono a essere troppo fluidi, strutturati in modo innaturalmente perfetto e senza quelle imperfezioni che rendono autentico il linguaggio umano. A volte usano parole insolitamente forbite o costruzioni che suonano artificiali. Nel mio campo, ad esempio, i testi tecnici generati dall’IA risultano leggibilissimi ma spesso privi di significato, mentre quelli umani hanno più variazioni nel ritmo e vanno dritti al punto. È proprio questo tocco spontaneo che resta difficile da imitare.

Qual è il suo parere sugli aspetti etici nell’IA?
L’etica nell’IA è un tema complesso, perché non esiste un’unica definizione di ciò che è etico: i principi etici variano da cultura a cultura e cambiano nel tempo. Ciò che oggi viene considerato accettabile potrebbe non esserlo in futuro, e viceversa. Quello che posso dire con certezza è che la comunità scientifica è sempre più attenta a questi aspetti. Oggi, nelle principali conferenze di settore è obbligatorio includere una sezione sugli aspetti etici di ogni ricerca pubblicata. I finanziamenti impongono valutazioni sull’impatto etico dei progetti. Esiste anche un’intera area di studio, il cosiddetto alignment, che si occupa tra le altre cose di allineare l’IA a principi condivisi. Ricorda però che spesso l’IA stessa è una vittima, per così dire. Un modello può essere censurato per ambiguità terminologiche (ad esempio, la “decomposizione atomica” o la “norma nucleare”, che sono concetti puramente matematici e non hanno nulla a che vedere con l’energia nucleare), compromettendo la loro capacità di ragionamento. È come strappare pagine da un libro, rendendone incomprensibile il contenuto. La vera sfida è sviluppare un’IA “allineata”, ma senza soffocare l’innovazione.

È fondato il timore che l’IA possa un giorno prendere il sopravvento sull’uomo?
Le macchine non hanno volontà, né intenzioni. Sono strumenti. Il vero rischio non è una ribellione fantascientifica, ma un utilizzo senza controllo e senza considerare le
implicazioni sociali o etiche. E questo vale per qualsiasi tecnologia. La buona notizia è che oggi c’è molta più consapevolezza rispetto al passato. La regolamentazione è particolarmente vivace, la ricerca sull’alignment [il processo che mira a declinare i valori e gli obiettivi tipici dell’uomo in modelli linguistici di grandi dimensioni (LLM), in modo da renderli il più possibile utili, sicuri e affidabili per gli esseri umani, ndr] è in crescita e il dibattito è acceso. Le sfide non mancano, ma l’IA non sta crescendo in un vuoto etico. Più che temere un futuro distopico, dovremmo concentrarci su come usarla per migliorare la nostra vita, in quanto può essere una delle innovazioni più trasformative e benefiche della storia.

L’IA sta avanzando a una velocità impressionante. C’è un aspetto poco discusso, ma fondamentale, che secondo lei non stiamo considerando abbastanza?
Assolutamente sì, e riguarda qualcosa di controintuitivo: la noia dell’IA. Siamo abituati a pensare ai modelli generativi come entità che rispondono sempre con entusiasmo e creatività, ma un problema emergente è che, se addestrati male, finiscono per diventare… annoiati. In gergo tecnico, si chiama mode collapse: invece di generare
risposte diverse e sfumate, iniziano a ripetere le stesse frasi, a usare schemi prevedibili e a perdere varietà nei ragionamenti. Questo accade perché, nell’ottimizzare troppo la coerenza e l’efficienza, si rischia di eliminare l’imprevedibilità che rende un’IA interessante e utile. La sfida ora è progettare IA che non solo siano accurate, ma che mantengano un certo grado di “divergenza creativa”, senza scadere in risposte troppo stereotipate. È un tema di cui si parla poco, ma chi lavora nel settore lo vede già come una delle prossime grandi frontiere. Se non affrontato bene, potremmo ritrovarci con IA che sembrano brillanti all’inizio, ma che col tempo diventano sempre più prevedibili e piatte.

* ˙ɐᴉou ɐllns ɐpuɐɯop ɐl :ɐʇsodsᴉɹ


Source link

articoli Correlati

Back to top button
Translate »