Scienza e tecnologia

Claude Sonnet 4.6 rivoluziona il piano gratis: ora usa il PC come noi

Nel panorama dei modelli IA generativi, Anthropic introduce Claude Sonnet 4.6, una nuova versione che punta a rendere più accessibili funzioni finora riservate alle soluzioni di fascia più alta. L’aggiornamento riguarda sia la qualità delle risposte, sia il modo in cui il modello gestisce codice, documenti complessi e uso del computer.

Sonnet 4.6 diventa il modello predefinito su claude.ai e su Claude Cowork per i piani Free e Pro, mantenendo gli stessi prezzi di Sonnet 4.5. In parallelo arriva anche una finestra di contesto da 1 milione di token in beta, pensata per lavorare con insiemi di dati molto estesi.

Vuoi ascoltare il riassunto dell’articolo?

Ascolta su Spreaker.

Cosa cambia con Claude Sonnet 4.6

Secondo Anthropic, Claude Sonnet 4.6 rappresenta un aggiornamento completo delle capacità del modello rispetto a Sonnet 4.5. Le principali aree interessate sono scrittura di codice, uso del computer, ragionamento su lunghi contesti, pianificazione di agenti, attività d’ufficio e design. L’obiettivo dichiarato è avvicinarsi alle prestazioni dei modelli di fascia Opus, ma con un rapporto costo/prestazioni più favorevole.

Gli utenti con accesso anticipato hanno segnalato un miglioramento nella coerenza delle risposte, nel rispetto delle istruzioni e nella gestione di task multi-step. In diversi casi hanno preferito Sonnet 4.6 non solo al precedente Sonnet 4.5, ma persino a Claude Opus 4.5, soprattutto per una minore tendenza a sovra-progettare le soluzioni e per un comportamento percepito come meno “pigro” nelle attività lunghe.

Sul fronte sicurezza, Anthropic riporta di aver condotto valutazioni estese, con un risultato complessivo in linea o migliore rispetto agli altri modelli recenti della stessa famiglia. I ricercatori descrivono Sonnet 4.6 come dotato di un carattere caldo, onesto, prosociale e talvolta ironico, con comportamenti di sicurezza robusti e senza segnali di criticità gravi nelle situazioni ad alto rischio.

Uso del computer e resistenza agli attacchi

Uno dei punti più concreti riguarda l’uso del computer. Anthropic ricorda di aver introdotto, nell’ottobre 2024, un modello in grado di usare un PC in modo generale, interagendo con applicazioni reali come Chrome, LibreOffice o Visual Studio Code tramite mouse virtuale e tastiera virtuale, senza API dedicate.

All’epoca l’esperienza risultava ancora macchinosa e soggetta a errori, ma i test attuali mostrano progressi sensibili.

Il riferimento principale è OSWorld, un benchmark che raccoglie centinaia di task su software reale in un ambiente simulato. Nel corso di sedici mesi, i modelli Sonnet hanno registrato miglioramenti costanti su questo test, e con Sonnet 4.6 i primi utilizzatori segnalano capacità vicine a un livello umano in attività come la gestione di fogli di calcolo complessi o la compilazione di moduli web multi-step, coordinando anche più schede del browser.

Anthropic sottolinea comunque che il modello resta indietro rispetto agli utenti più esperti, e che i benchmark come OSWorld forniscono solo una misura parziale rispetto al caos del mondo reale. Allo stesso tempo, l’azienda evidenzia un netto passo avanti nella resistenza ai prompt injection, ossia agli attacchi che nascondono istruzioni malevole in pagine web o interfacce. Le valutazioni interne mostrano Sonnet 4.6 come un forte miglioramento rispetto a Sonnet 4.5 e allineato a Opus 4.6 su questo fronte.

Coding, contesto da 1 milione di token e benchmark

Nel campo del coding, i test su Claude Code indicano che gli utenti hanno preferito Sonnet 4.6 a Sonnet 4.5 in circa il 70% dei casi. Il nuovo modello sembra leggere meglio il contesto prima di modificare il codice, e tende a consolidare la logica condivisa invece di duplicarla, riducendo la frustrazione nelle sessioni lunghe. Nelle preferenze dichiarate, Sonnet 4.6 supera anche Opus 4.5 nel 59% dei confronti, grazie a meno allucinazioni, meno falsi positivi sul successo dei task e una migliore aderenza alle istruzioni.

La novità più visibile è la finestra di contesto da 1 milione di token (in beta). Anthropic specifica che non si tratta solo di caricare più dati, ma di far sì che il modello ragioni efficacemente su tutto quel contesto. L’azienda cita il benchmark Vending-Bench Arena, che simula la gestione di un’attività commerciale nel tempo, con modelli IA in competizione tra loro per massimizzare i profitti. In questo scenario, Sonnet 4.6 ha adottato una strategia di forti investimenti iniziali nella capacità, per poi spostarsi sulla redditività nella fase finale, chiudendo la simulazione nettamente in vantaggio.

Nei compiti di analisi documentale, Sonnet 4.6 raggiunge prestazioni paragonabili a Opus 4.6 su OfficeQA, un benchmark che misura la capacità di leggere documenti aziendali, grafici, PDF e tabelle, estrarre i dati rilevanti e ragionarci sopra. Su un benchmark assicurativo interno, il modello tocca il 94% di accuratezza nell’uso del computer, un dato che Anthropic considera cruciale per flussi come la gestione delle pratiche o la segnalazione dei sinistri.

Feedback dei clienti e casi d’uso aziendali

Anthropic raccoglie diversi feedback da clienti che hanno provato Sonnet 4.6 in anticipo. Nelle attività di sviluppo frontend e analisi finanziaria, molti riportano un miglioramento percepibile. Le uscite visive risultano più rifinite, con layout, animazioni e scelte di design considerate migliori rispetto alle versioni precedenti, e con un numero inferiore di iterazioni necessarie per arrivare a un risultato pronto per la produzione.

Sul fronte debug e correzione del codice, Sonnet 4.6 sembra aver ridotto il divario con i modelli Opus nella rilevazione di bug, permettendo di eseguire più revisioni in parallelo, individuare una gamma più ampia di errori e contenere i costi.

Per i team che gestiscono coding agentico su larga scala, Anthropic parla di tassi di risoluzione elevati e di una coerenza ritenuta adeguata alle esigenze degli sviluppatori.

In ambito documentale, la società Box ha valutato Sonnet 4.6 su compiti di ragionamento profondo e task agentici complessi applicati a documenti aziendali reali, rilevando un miglioramento di 15 punti percentuali rispetto a Sonnet 4.5 nelle domande e risposte che richiedono ragionamenti pesanti. Anthropic cita anche un balzo significativo nel tasso di corrispondenza delle risposte nel proprio Financial Services Benchmark, grazie a un recupero più accurato delle informazioni critiche per i workflow dei clienti.

Altri casi d’uso riportati includono la generazione di codice iOS, dove un partner come Rakuten AI ha giudicato il codice prodotto da Sonnet 4.6 come il migliore finora testato, con maggiore aderenza alle specifiche, architettura più pulita e l’uso di strumenti moderni non esplicitamente richiesti. In generale, diversi clienti descrivono il modello come particolarmente solido nei task ramificati e multi-step, come instradamento di contratti, scelta di template condizionali e coordinamento CRM, cioè proprio dove servono affidabilità e buon senso operativo.

Novità di piattaforma e integrazioni

Sul Claude Developer Platform, Sonnet 4.6 supporta sia il pensiero adattivo sia il pensiero esteso, oltre alla compattazione del contesto (in beta), che riassume in modo automatico le parti più vecchie di una conversazione quando si avvicinano i limiti, aumentando così la lunghezza effettiva del contesto gestibile. Questo aiuta a mantenere coerenza nei dialoghi lunghi senza perdere del tutto le informazioni precedenti.

Attraverso l’API, gli strumenti di ricerca web e fetch di Claude ora possono scrivere ed eseguire codice per filtrare e processare i risultati di ricerca, mantenendo nel contesto solo i contenuti rilevanti. L’azienda segnala la disponibilità generale di esecuzione di codice, memoria, chiamata programmatica di strumenti, ricerca di strumenti e esempi di integrazione, funzioni che puntano a rendere più gestibili i flussi di lavoro agentici complessi.

Per chi utilizza Claude in Excel, l’add-in ora supporta i connettori MCP, che permettono a Claude di lavorare con strumenti usati nel quotidiano in ambito finanziario, come S&P Global, LSEG, Daloopa, PitchBook, Moody’s e FactSet.

In questo modo è possibile far richiamare contesto esterno direttamente all’interno del foglio di calcolo, senza cambiare finestra. Questa funzione è disponibile sui piani Pro, Max, Team ed Enterprise, e sfrutta automaticamente i connettori MCP già configurati su Claude.ai.

Anthropic suggerisce, per chi migra da Sonnet 4.5, di sperimentare diversi livelli di sforzo di pensiero per trovare il giusto equilibrio tra velocità e affidabilità in base all’applicazione. L’azienda continua a indicare Opus 4.6 come opzione preferibile per i compiti che richiedono il ragionamento più profondo possibile, come la rifattorizzazione di grandi codebase, il coordinamento di più agenti e i problemi in cui è essenziale non sbagliare.

Disponibilità

Claude Sonnet 4.6 è già disponibile su tutti i piani Claude, su Claude Cowork, su Claude Code, tramite API e sui principali cloud provider. La novità rilevante per il pubblico più ampio è l’aggiornamento del piano gratuito, che ora utilizza Sonnet 4.6 come default e include anche funzioni come creazione di file, connettori, skills e compattazione del contesto.

Per chi sviluppa applicazioni, l’accesso passa dal modello “claude-sonnet-4-6” via API, con la possibilità di combinare web search, fetch, tool programmabili e compattazione del contesto per gestire flussi di lavoro più articolati. Anthropic, dal canto suo, continua a ribadire che nessun benchmark fotografa del tutto la complessità del mondo reale, soprattutto quando entrano in gioco uso del computer e documenti aziendali critici.

In definitiva, Sonnet 4.6 spinge ancora un po’ più in là l’asticella di ciò che un modello “intermedio” può fare, mentre Anthropic insiste su sicurezza e valutazioni strutturate.


Source link

articoli Correlati

Back to top button
Translate »