Soluzioni per il riconoscimento vocale

Voice4id

Voice4id è il prodotto di Voisis per le applicazioni professionali di riconoscimento del parlatore (Speaker Recognition).

Voice4id può essere usato sia per la verifica del parlatore (Speaker Verification) che per l’identificazione del parlatore (Speaker Identification).
Nella speaker verification, il parlatore “si presenta” tramite un identificativo di qualche tipo (nome, PIN, identificativo del dispositivo, ecc.) e l’applicazione verifica se la voce di chi sta parlando corrisponde a quella della sua impronta vocale memorizzata nel sistema. Se la voce di chi parla e l’impronta sono molto simili, cioè se il valore di somiglianza supera una certa soglia, la verifica ha successo ossia l’identità della persona è verificata.
In una applicazione di speaker identification, invece, la persona che parla “non si presenta” e si deve misurare il grado di somiglianza della sua voce rispetto ad un insieme di impronte vocali disponibili. Se tutti i possibili utenti del sistema sono già stati catalogati (“closed-set”), si assume che la voce della persona debba comunque corrispondere ad una di quelle disponibili. Diversamente, se esiste la possibilità che un utente non sia stato catalogato in precedenza (“open-set”), il risultato della verifica può essere che la voce non corrisponde a nessuna di quelle note.

Il sistema, prevede due fasi di funzionamento:

  • nella fase di addestramento il sistema viene preparato per estrarre le “impronte” di tutte le voci note. La durata dell’audio richiesto per addestramento dipende dall’accuratezza che si vuole ottenere dal sistema. Pochi minuti per ogni persona sono sufficienti per un elevato livello di accuratezza. Questa fase può essere ripetuta man mano che nuove voci si aggiungono o vengono eliminate.
  • durante la fase di riconoscimento, il segnale audio, sotto forma di file o di streaming, viene inviato al sistema e la voce viene comparata con l’insieme delle voci “note”. Raccolto un numero sufficiente di informazioni, il sistema risponde indicando qual è il parlatore identificato (o i parlatori ad esso più simili) con eventuali punteggi di verosimiglianza. Normalmente pochi secondi sono sufficienti per un alto livello di accuratezza.

L’accuratezza del riconoscimento, ossia la percentuale di errore nel riconoscimento del parlatore dipendono sia dalla durata dell’addestramento che da quella di acquisizione. Anche il tipo di riconoscimento che si vuole ottenere dal sistema incide su questi tempi. A parità di accuratezza, la speaker identification richiede tempi di addestramento e acquisizione un po’ più lunghi rispetto alla speaker verification.

I sistemi di riconoscimento del parlatore sono indipendente dalla lingua o accento.

Esempi di applicazioni delle soluzioni di biometria vocale o riconoscimento del parlatore sono riportati nella sezione “Applicazioni -> Riconoscimento del parlatore“.

PRINCIPALI CARATTERISTICHE DI Voice4id:

Architettura e interfacciamento del sistema
Il sistema viene fornito come dispositivo stand alone o server virtuale, e può essere inserito in una rete aziendale o Cloud.
Il sistema è facilmente integrabile in qualunque applicazione attraverso “Web Services” (REST e SOAP) che lo rendono utilizzabile anche con Mobile App o dispositivi embedded.

Training delle voci note pianificabile
L’inserimento delle nuove impronte vocali può essere fatto al termine della registrazione di un nuovo utente o “in blocco” alla fine della giornata o in orari di basso carico. In questo modo è possibile evitare di sovradimensionare il sistema per gestire la normale operatività insieme all’elaborazione delle nuove impronte vocali.

Analisi di file o streaming audio
Voice4id può elaborare streaming audio oppure file multimediali registrati. Questa seconda opzione è rivolta soprattutto alla ricerca di parlatori noti all’interno di registrazioni audio/video (sono supportati i formati multimediali più comuni).

Text independent, dependent o prompted
A seconda del livello di semplicità d’uso o di sicurezza richiesto, Voice4id può essere usato senza che l’utente pronunci parole d’ordine o frasi specifiche oppure, viceversa, richiedendo specifiche frasi di riconoscimento in modalità text dependent o text prompted per aumentare il livello di sicurezza.
Nel caso di “text dependent” viene chiesta una parola chiave personale, mentre in modalità “text prompted” viene chiesto all’utente di ripetere una frase generata casualmente dal sistema al fine di verificare che l’audio ricevuto non sia una registrazione.

Scalabilità del sistema secondo numero di utenti
A seconda del numero di utenti da riconoscere e del numero di richieste da elaborare contemporaneamente, il sistema richiede risorse di calcolo differenti. La soluzione Voice4id è completamente scalabile, e le risorse richieste possono essere aggiunte man mano che le necessità dell‘applicazione aumentano. Anche per questo motivo, Voisis4id si presta particolarmente all’inserimento in sistemi Cloud.

Possibilità di utilizzare diverse procedure di autenticazione
Il sistema supporta diversi meccanismi di autenticazione HTTP, sia a livello di trasporto (esempio SSL) che a livello di protocollo (esempio: Digest authentication).

Amministrazione e monitoraggio del sistema tramite browser
E’ possibile configurare e monitorare il sistema tramite un qualunque browser. Sono disponibili funzionalità di
•    Aggiunta/cancellazione/modifica degli speakers (eventualmente in gruppi separati)
•    Configurazione dei clients (dispositivi) abilitati all’utilizzo e meccanismi di accesso/autenticazione
•    Gestione dei parametri delle procedure di addestramento (audio, algoritmo e soglie richieste) e loro schedulazione
•    Gestione dei parametri di identificazione/verifica dello speaker (text dependent – independent – prompted, livello di sicurezza del riconoscimento)

Definizione del livello di accuratezza
In fase di training delle impronte vocali il sistema consente di valutare l’andamento della precisione attesa tramite un curva di Detection Error Trade-Off (DET), che può essere utilizzata per determinare il livello di sicurezza desiderato.
Sicurezza dei dati salvati e trasferiti
Gli speaker sono identificati in via assolutamente anonima (senza dati sensibili), lasciando all’applicazione che integra Voisis4Id l’eventuale gestione dell’anagrafica.
I file utilizzati per l’addestramento delle impronte vocali non sono scaricabili, e l’audio utilizzato per il riconoscimento (streaming o file) non viene conservato. In questo modo Voisis4Id non mantiene nessuna traccia di dati sensibili.

Voice4id è utilizzabile anche in combinazione con altri prodotti Voisis:

  • VoisisControl: il riconoscimento di comandi vocali e gestures viene accoppiato con il riconoscimento della voce dell’utente
  • VAMP: all’interno di un archivio multimediale (audio-video) possono essere ricercate le voci note.