Scienza e tecnologia

Claude Fable 5: Anthropic si scusa per i guardrail invisibili




Segui Smartworld su Google

Anthropic ha fatto una cosa che le aziende tech raramente fanno: ha ammesso di aver sbagliato e si è scusata pubblicamente. Il caso riguarda Claude Fable 5, il suo modello di punta più recente, e soprattutto il suo meccanismo di protezione che veniva applicato in silenzio, senza che gli utenti lo sapessero. Se avete già letto il nostro approfondimento su Claude Fable 5 e le sue capacità, questo aggiornamento è il diretto completamento.

Vuoi ascoltare il riassunto dell’articolo?

La questione ruota attorno alla distillazione del modello, una tecnica che permette di addestrare modelli AI più piccoli usando le risposte di modelli più grandi. Anthropic aveva deciso di contrastare questo uso modificando e degradando le risposte a chi sembrava stesse tentando di distillare Fable, senza avvisare nessuno. Un approccio che, come vedremo, ha creato più problemi di quanti ne risolvesse.

Fable appartiene alla classe Mythos di Anthropic, quella che la stessa azienda aveva definito troppo potente per il rilascio pubblico senza precauzioni.

Per gestire le query considerate ad alto rischio, Anthropic aveva già predisposto un sistema di sicurezza: le domande su biologia, chimica e cybersicurezza vengono dirottate verso Claude Opus 4.8, il modello precedente, oppure bloccate del tutto.

Il problema è che per la distillazione aveva scelto un approccio diverso: invece di rifiutare o reindirizzare, alterava le risposte di nascosto. Nessuna notifica, nessun avviso, solo risposte non conformi alle richieste degli utenti.

Questo ha scatenato critiche durissime dalla comunità di ricerca, che ha fatto notare come il sistema potesse colpire anche chi stava semplicemente valutando il modello per scopi legittimi, non solo chi cercava di clonarlo. Anthropic, nel suo system card, aveva giustificato la scelta notando che usare Claude per sviluppare modelli concorrenti viola i termini di servizio, e che concorrenti cinesi come DeepSeek avrebbero distillato i suoi modelli su scala industriale.

Ora però cambia tutto: le query sospette di distillazione verranno trattate come quelle delle altre aree sensibili, cioè dirottate su Opus 4.8 con un avviso esplicito all’utente.

Lo vedrete ogni volta che succede“, ha scritto Anthropic nel post su X che trovate a seguire.

La spiegazione che l’azienda ha dato a The Verge è onesta quanto scomoda: “I guardrail visibili possono essere sondati, quindi devono essere robusti, il che richiede tempo per essere messi a punto. I guardrail invisibili possono essere calibrati in modo più mirato, permettendoci di rilasciare velocemente con pochissimi falsi positivi. Abbiamo scelto i guardrail invisibili per questo motivo, e quello era il compromesso sbagliato. Dovreste avere visibilità sui guardrail che abbiamo in atto, e sul perché. Ci scusiamo per non aver trovato il giusto equilibrio.

Vale la pena notare un dettaglio importante. Alcune protezioni di Fable, in particolare quelle sulla biologia, sono state calibrate in modo così ampio da rendere il modello praticamente inutilizzabile anche per domande basilari, cosa che Anthropic ha riconosciuto. La trasparenza è un passo avanti, ma la strada per trovare il giusto equilibrio tra sicurezza e usabilità su modelli di questa potenza è ancora tutta da percorrere.


Source link

articoli Correlati

Back to top button
Translate »