Soluzioni per il riconoscimento vocale

vamp La grande quantità di dati resa oggi disponibile dai media rende difficile la selezione e l’analisi degli aspetti rilevanti. I dati ‘grezzi’ devono essere organizzati in strutture che aiutino a estrarre efficacemente le informazioni di interesse, a metterle in relazione, e a trarre le conclusioni opportune. Questa gestione risulta ancora più difficile quando si devono esaminare file multimediali (audio-video) per analizzare le ‘parole’ in essi contenute in relazione al loro ‘contesto’. VAMP è un sistema pensato per organizzare,analizzare e rappresentare , nelle forme più convenienti, archivi di file multimediali, e facilitare lo scopo principale degli analisti: passare dalle parole (dai dati) alle informazioni.
Con VAMP è possibile: audio data mining

  • trovare le esatte citazioni e commenti in archivi multimediali, effettuando ricerche fonetiche con un determinato grado di accuratezza;
  • eseguire ricerche sulle trascrizioni automatiche di file audio/video, specificando non solo le ‘parole chiave’, ma anche parametri semantici come argomenti e “sentiment” (“polarità” positiva/negativa/neutra) dei testi o delle loro sezioni;
  • costruire automaticamente gli “indici” degli argomenti di trasmissioni educative o di informazione
  • monitorare, a richiesta o periodicamente, la presenza di “parole chiave” in programmi televisivi e radiofonici;
  • visualizzare l’alternanza di speaker e contenuti non vocali (musica, pubblicità);
  • analizzare le relazioni tra le ricerche dell’utente, i documenti, gli speaker e gli argomenti attraverso una serie di “mappe” costruite automaticamente;
  • visualizzare le trascrizioni automatiche di ogni documento, con il testo sincrono all’audio, le ‘entità’ rilevate (nomi, luoghi, organizzazioni) e la ‘polarità’ di ogni sezione del documento.

Mappa concettuale LE TECNOLOGIE

  • Speaker Diarization: segmentazione corrispondente agli interventi dei diversi speaker o a cambi di contesto.
  • Scene Change Detection: rilevazione del cambio di inquadratura video.
  • Riconoscimento Vocale: trascrizione automatica del testo con vocabolari specializzati.
  • Sentiment Analysis: analisi della polarità positiva/negativa/neutra dei testi o delle loro sezioni.
  • Topics Identification: rilevazione automatica degli argomenti e loro indicizzazione (‘sommario’).