Speech to text, ecco la nuova frontiera Volocom per il monitoraggio di radio e tv

Esplora:

volocom

18 giugno 2020

Il futuro di molti lavori guarda sempre più alla digitalizzazione, alla dematerializzazione del lavoro manuale da delegare alle tecnologie e alle macchine. Per questo molte aziende stanno concentrando i loro investimenti sul Machine Learning e sul Deep Learning, per far sì che l’eterna lotta tra uomo e macchina si trasformi in un’alleanza dove la macchina è il braccio e l’uomo la mente. Questo è ciò che caratterizza il continuo sviluppo innovativo di Volocom, azienda che opera nel mercato della Media Intelligence che la pone tra i leader del mercato del monitoraggio dei media e delle soluzioni per la rassegna stampa multimediale. Gli ultimi servizi nati e messi a disposizione dei propri clienti, VoloSpeech e la Suite VoloVideo, si proiettano in questa direzione per facilitare il monitoraggio dei contenuti multimediali, così da offrire una ricerca sempre più ampia e specifica. A parlare di questi due nuovi servizi è Matteo Diarena, Direttore Innovazione di Volocom, che da 11 anni si occupa di sviluppare nuovi progetti innovativi: “Abbiamo iniziato a lavorare su progetti di Machine Learning prima e Deep Learning poi qualche anno fa. Principalmente ci siamo mossi su due direttrici: da un lato l’analisi del testo e delle notizie, il Natural Language Processing, ossia analizzare il testo e estrarre informazioni; altro filone, in cui utilizziamo la tecnologia di Deep Learning, è quello della tecnologia di trascrizione automatica del parlato, quindi i nostri servizi VoloSpeech e VoloVideo”.

In cosa consiste VoloSpeech?
“Per quanto riguarda VoloSpeech abbiamo iniziato a sviluppare questa tecnologia quattro anni fa. Si tratta della trascrizione automatica del parlato, sia per l’italiano che per l’inglese, in sviluppo anche per altre lingue, con la finalità principale del monitoraggio dei contenuti multimediali, radio e televisioni. Abbiamo sviluppato, in collaborazione con l’Università di Trento, un progetto di ricerca e sviluppo per valutarne la fattibilità tecnica, che poi abbiamo portato in casa per ampliarla, svilupparla e renderla operativa per il nostro sistema. Questo ha consentito a Volocom di adottare questa tecnologia per andare a sviluppare progetti di speech-to-text per conto di altre aziende, ad esempio, andando a sottotitolare in maniera automatica dei video formativi realizzati con un enorme efficientamento del lavoro. In questi giorni abbiamo chiuso un contratto con una azienda che si occupa di traduzioni, che utilizzerà la nostra tecnologia per consentire ai propri clienti di inserire, all’interno di un portale che stiamo sviluppando, i propri video, la nostra tecnologia li trascriverà e tradurrà in maniera automatica e l’azienda si dovrà solo occupare di correggere e revisionare il materiale per poi ricaricarlo”.

Questo per quel che riguarda la trascrizione e automatica dei testi. La Suite VoloVideo quali vantaggi porta?

”È un servizio di monitoraggio delle emittenti televisive, italiane ed estere, che al momento conta un palinsesto di 135, tra radio e tv, tutte le televisioni nazionali, molte tv locali, almeno un paio per regione, con alcune regioni in cui abbiamo una copertura maggiore come in Lombardia, Trentino ed Emilia Romagna. Sull’estero monitoriamo canali in lingua inglese come BBC, Al Jazeera, Russia Today, in tutto sette televisioni. Questo ci permette di creare tutta una serie di servizi a valore aggiunto. Monitoriamo costantemente questi canali radiotelevisivi, li trascriviamo e dal momento in cui abbiamo il testo, andiamo ad applicare tutte le tecnologie che abbiamo per la gestione dei dati documentali. Questo ci consente di creare tutti quei servizi di ricerca, rassegna stampa ed alert automatico”.

Qual è il vantaggio nell’utilizzo di tecnologie di Deep Learning?

“Il mercato delle tecnologie per la trascrizione automatica del parlato è stato rivoluzionato negli ultimi 5 anni, cosa che ha consentito di abbattere il tasso di errore nella trascrizione. Su un video di buona qualità noi abbiamo livelli di precisione superiore al 97%, quindi un tasso di errore molto basso. In più, sempre grazie al continuo sviluppo di queste tecnologie abbiamo reso più efficiente il processo di trascrizione e grazie allo sviluppo interno siamo arrivati a trascrivere mezz’ora di trasmissione in 6/7 minuti, questo si traduce in una maggiore velocità e tempismo nella trascrizione dei dati e nella necessità molto più bassa di risorse”.

Una volta acquisito il video come avviene la ricerca?

“Quello che acquisiamo viene indicizzato all’interno della banca dati VoloPress, che consente le ricerche in modalità full text, quindi posso andare a selezionare anche solo le parti di interesse. Se voglio posso andare a selezionare, ad esempio, tutte le notizie in cui è citato un determinato personaggio accostato a un argomento. Possiamo farlo noi con la clip o possiamo fornire un alert che scatta a determinate parole chiave, per far sì che le persone dell’ufficio stampa possano andare a vedere in quale contesto si parla. Si tratta di un'alleanza tra uomo e macchina. Il lavoro della macchina è propedeutico al lavoro dell’uomo, facilita ed espande le potenzialità di ricerca. Per monitorare manualmente 130 canali si dovrebbe avere un esercito di persone che lavora 24 ore su 24.

Visti i risultati ottenuti con questi due servizi quali sono i campi di sviluppo di cui state lavorando per il futuro?

“Sicuramente l’evoluzione in Volocom è sempre guidata dai clienti e siamo sempre attenti alle loro richieste. Le analizziamo e ne facciamo tesoro per utilizzarle e farne servizi innovativi. In cantiere, soprattutto come ricerca e sviluppo, c’è quello di aumentare l’uso delle tecnologie di Deep Learning ed ampliare ulteriormente la possibilità di monitoraggi. Stiamo lavorando sul riconoscimento dei loghi o delle immagini all’interno dei servizi televisivi o delle pubblicità, così da erogare servizi nuovi. Abbiamo ulteriori richieste, come quella di andare a ricercare, all’interno del servizio VoloPress, le clip in base al riconoscimento vocale del personaggio a cui si è interessati, quindi non le citazioni delle sue frasi ma quando sono state realmente dette dal personaggio. Poi lavoriamo costantemente a modelli di classificazione automatica delle notizie sempre più raffinati, che consentano una categorizzazione sempre più precisa”.