Gemini 2.5 Pro mette tutti “in riga”: ecco le novità della nuova generazione di modelli di Google
L’evoluzione dei modelli di intelligenza artificiale prosegue senza sosta, e a pochi mesi dal lancio di Gemini 2.0 Google ha annunciato il suo “modello più intelligente di sempre”, Gemini 2.5, progettato per affrontare problemi sempre più complessi.
Come le precedenti generazioni di Gemini, Gemini 2.5 è in realtà una famiglia di modelli, tutti in grado di “ragionare” come Gemini 2.0 Flash Thinking, ovvero in grado di analizzare le informazioni, trarre conclusioni logiche, incorporare contesto e sfumature e prendere decisioni informate. Con questa generazione, la GrandeG abbandona l’etichetta “Thinking”, ma gli utenti possono sempre vedere il ragionamento cliccando sul pulsante “Mostra il processo elaborativo“.
Il primo esponente lanciato da Google è Gemini 2.5 Pro Experimental (nome in codice nebula), che, ovviamente, è già in cima alla classifica di Chatbot Arena. Il modello, pensato per compiti complessi, mostra forti capacità di ragionamento e programmazione, superando le soluzioni di OpenAI, Claude e xAI nei benchmark di matematica (AIME 2025) e scientifici (GPQA diamond).
Il modello presenta una finestra di contesto di 1 milione di token (Google ha già promesso un aggiornamento per portarla a 2 milioni), e può comprendere vasti set di dati e gestire problemi complessi da diverse fonti di informazione, tra cui testo, audio, immagini, video e persino interi archivi di codice.
Come si può vedere dai test condivisi da Google, Gemini 2.5 Pro è dietro agli avversari solo in un paio di test e dopo ripetuti tentativi. Inoltre, pur ottenendo ottimi risultati, è leggermente indietro a Claude 3.7 Sonnet nel benchmark SWE-bench verified (un test per verificare la capacità di programmazione tramite agenti) e a GPT-4.5 nel baenchmark SimpleQA (un test per la verifica dei fatti).
Gemini 2.5 Pro Exp ottiene anche 18,8% nel test Humanity’s Last Exam, un set di dati progettato da centinaia di esperti in materia per mettere alla prova i modelli su conoscenza e ragionamento.
Ovviamente uno dei maggiori obiettivi di Google (come degli avversari) è sviluppare modelli in grado di aiutare sempre meglio gli sviluppatori nel loro lavoro.
Secondo Google, Gemini 2.5 Pro presenta un grande miglioramento rispetto a 2.0, in particolare nella creazione di app web visivamente avvincenti e applicazioni di codice agentico, insieme alla trasformazione e alla modifica del codice.
Come abbiamo visto in precedenza, Gemini 2.5 Pro ottiene un ottimo 63,8% in SWE-Bench Verified con “una configurazione agente personalizzata”, e la GrandeG promette “più miglioramenti” in futuro. Qui sotto potete vedere un esempio delle sue capacità di programmazione, in cui si vede il modello creare il gioco Dinosaur running da un semplice prompt (una pratica sempre più diffusa e che sta portando a diversi problemi).
Gemini 2.5 Pro Experimental è già disponibile sull’app Gemini (dove sostituisce Gemini 2.0 Pro Experimental, lanciato appena il mese scorso) per gli abbonati a Gemini Advanced e su Google AI Studio, e a breve arriverà su Vertex AI.
Source link