Scienza e tecnologia

Xiaomi OmniVoice: sintesi vocale AI open source su 102 lingue

Xiaomi continua a spingere sull’intelligenza artificiale open source e questa volta lo fa con un modello dedicato alla sintesi vocale: si chiama OmniVoice, è sviluppato dall’AI Lab interno dell’azienda e punta a fare cose che i sistemi commerciali attuali faticano ancora a fare bene. Tra queste c’è la clonazione vocale realistica e il supporto a lingue che normalmente non trovano spazio nei grandi modelli proprietari.

Il punto più interessante, almeno sulla carta, è la capacità di funzionare anche con dati scarsissimi: meno di 10 ore di audio bastano per produrre una sintesi di qualità accettabile. Per le lingue minoritarie, regionali e i dialetti che i colossi dell’AI ignorano sistematicamente, questa è una differenza non di poco conto.

Nei benchmark interni, Xiaomi afferma che OmniVoice ha eguagliato o superato i principali modelli commerciali su 24 lingue, incluse inglese e cinese, usando esclusivamente dataset open source per l’addestramento. Su 102 lingue testate, il livello di comprensione del parlato sintetizzato sarebbe risultato vicino, e in alcuni casi superiore, a quello della voce umana reale.

Numeri che, come sempre con i benchmark interni, vanno presi con le pinze finché non arrivano verifiche indipendenti.

L’architettura scelta è volutamente più semplice rispetto ai sistemi tradizionali: invece di concatenare più moduli separati, OmniVoice usa un’unica rete bidirezionale Transformer che converte direttamente il testo in voce. Il risultato dichiarato è una riduzione netta di complessità e tempi di elaborazione, con la capacità di generare audio fino a 40 volte più velocemente del tempo reale e di completare l’addestramento su 100.000 ore di dati in un solo giorno.

Sul fronte della personalizzazione, il modello permette di creare voci sintetiche descrivendo caratteristiche come età, accento, tono e stile di parlato, senza necessariamente fornire campioni audio. Supporta anche effetti espressivi come sussurri, risate e sospiri e può rimuovere i rumori di fondo dai campioni usati per la clonazione, migliorando la qualità anche partendo da registrazioni non perfette.

OmniVoice si inserisce in una strategia più ampia di sviluppo AI open source da parte di Xiaomi, che punta a costruire un ecosistema di modelli sviluppati internamente.

La domanda che resta aperta è quanto di tutto questo si tradurrà in applicazioni concrete per gli utenti finali, e in che tempi: per ora OmniVoice è un annuncio tecnico, non un prodotto nelle nostre mani, ma è interessante notare come il colosso cinese non voglia rimanere indietro nella corsa all’IA e se c’è una cosa che abbiamo imparato è che quando Xiaomi si mette in testa una cosa, anche se non è esattamente nel suo DNA (vedi tutto il progetto SU7 e famiglia), riesce comunque a stupire.


Source link

articoli Correlati

Back to top button
Translate »