blank
it:lang="it-IT"
1
https://www.panoramaaudiovisual.com/it/2022/10/25/subtitulado-automatico-bilingue-la-idea-es-sencilla-la-solucion-no-tanto/

Sottotitolaggio automatico bilingue RTVE

blank

Offrire sottotitoli automatici dal vivo allo spettatore non è una novità, ma le tecnologie AI possono essere abbastanza affidabili per sottotitolare i programmi in due lingue? Carmen Pérez Cernuda, vicedirettore dell'area innovazione e strategia tecnologica presso RTVE, fa luce su questo argomento.

Grazie a l'ampia struttura territoriale di RTVE, che ha un centro in ciascuna delle comunità autonome, è possibile avvicinare al cittadino le notizie che si verificano nel loro ambiente immediato. Per questo, oltre ai programmi radiofonici, TVE produce due notizie quotidiane in ciascuna delle sue sedi territoriali, che vengono trasmesse in contemporanea via digitale terrestre attraverso disconnessioni territoriali, una durante la mattinata e una nel primo pomeriggio.

Ed è esattamente questo simultaneità che complica la sottotitolazione di questi notiziari da parte del metodi tradizionali con un budget ragionevole. Per questo motivo, storicamente lo erano sottotitolando solo le notizie territoriali delle Isole Canarie, della Catalogna e di Madrid in quanto, trattandosi di Centri di Produzione, esiste a sistema di sottotitolazione manuale o semiautomatico utilizzato per il resto dei programmi.

Primi passi nell'automazione

L'idea di automatizzare i sottotitoli è nata presto, ma la sfida non è stata banale poiché, e come piccola parentesi per chi ha meno dimestichezza con il tema del sottotitolaggio, tra i quali confesso che fino a poco tempo fa lo ero anche io, dirò che c'è un regolamenti severi (UNE 153010/2012, nonché il codice di buone pratiche del Centro spagnolo per la sottotitolazione e l'audiodescrizione, CESyA) che definisce in modo ampio e molto specifico una moltitudine di parametri come: densità dei sottotitoli (in percentuale rispetto a tutto quanto parlato nel programma), massimo ritardo tra discorso e testo, numero massimo di lettere per riga e Linee, tempo minimo e massimo di permanenza testo sullo schermo, posizione della didascalia sullo schermo, eccetera. che devono essere soddisfatte garantire la comprensione e il follow-up di ciò che è stato detto

Dopo alcuni concept test e periodi di adattamento, a servizio di sottotitoli automatici (…) . Oggi, questo è un servizio consolidato con livelli di qualità per anche più alto del previsto.

Quindi, non è stato fino al 2018, quando lo stato dell'arte delle tecnologie vocali e dell'intelligenza artificiale applicata all'elaborazione del linguaggio naturale ha raggiunto un livello di maturità per incoraggiarci ad avventurarci nel sottotitolazione automatica dei notiziari vivere con qualche garanzia di successo. Queste caratteristiche dei programmi aggiungono alcune difficoltà all'automazione; essere informativo implica che ci siano momenti in cui il i relatori non sono professionisti e l'aspirazione sonora Non viene effettuato nelle migliori condizioni ambientali, posizione del microfono, ecc. Inoltre, dal momento che è vivo, implica che ci sia un file breve lasso di tempo, solo pochi secondi, per il ottenere e visualizzare i sottotitoli sullo schermo.

Dopo alcuni concept test e periodi di adattamento, a servizio di sottotitoli automatici i cui livelli di qualità erano almeno uguale al resto dei sistemi di sottotitolazione utilizzati fino a quel momento. Oggi, questo è un servizio consolidato con livelli di qualità per anche più alto del previsto.

Flusso di lavoro bilingue automatico sottotitolato - RTVE

E perché non nei centri bilingue?

Tuttavia, in quel momento la mancanza di modelli linguistici in altre lingue parlate in Spagna e l'ulteriore difficoltà dei cambi di lingua ha fatto sì che non fosse possibile estendere il servizio alle notizie bilingue.

Dopo alcuni tentativi falliti, finalmente, nel 2020 abbiamo raggiunto, attraverso una gara pubblica, un'azienda in grado di generare un servizio come quello che chiedevamo in spagnolo e nelle lingue parlate in Navarra, P. Vasco, Isole Baleari, C. Valenciana e Galizia, in modo che il sottotitolo generato sia scritto nella stessa lingua in cui si parla.

Come nel caso delle notizie in spagnolo, fin dall'inizio è stato proposto che il servizio fosse attivo nube, in modo che RTVE fornisca il segnale audio del Notiziario Territoriale, in banda base attraverso il Interfaccia audio digitale AES3, proprio nel Centro dove viene prodotto. La società incaricata del servizio esegue le necessarie elaborazioni per la generazione di sottotitoli in automatico, in tempo reale e con riconoscimento della lingua parlata, basandosi esclusivamente sul suono dal vivo del programma, poiché non ha l'aiuto di sistemi informativi precedenti, come script di notizie, carrellata, ecc.

I sottotitoli generati per tutti i Centri vengono consegnati nel file CPP di Torrespaña (Madrid), in formato DVB su IP, per la sua incorporazione nel quadro DTT.

I Centri Territoriali che utilizzano questo nuovo sistema sono quelli della Comunità Valenciana, delle Isole Baleari, della Galizia, dei Paesi Baschi e della Navarra, che sono stati incorporati gradualmente, al ritmo di uno al mese, a partire febbraio 2021, una volta che i risultati sono stati convalidati in ogni caso attraverso il corrispondente controllo di qualità.

Un sistema di allarme automatizzato permette di avere conoscenza di eventuali errori lungo tutta la catena del servizio, che disconnette anche gli apparati di sottotitolazione in caso di malfunzionamento. Il servizio è fornito Aicox come società di integrazione che applica la tecnologia di Etiqmedia per l'elaborazione e la generazione dei sottotitoli.

Sottotitolaggio automatico bilingue - Processo di generazione RTVE

Come viene generata la sottotitolazione bilingue?

Per ogni Centro, la soluzione ha due sistemi di elaborazione in esecuzione in parallelo, uno per ognuna delle due lingue parlate in ogni telegiornale. In questo processo, viene trascritto voce al testo, si passa attraverso il dizionario, il modulo di maiuscole e punteggiatura, il modulo di presentazione dei numeri e altri che applicano regole per correggere alcuni errori, tenendo sempre presente che in tutte queste fasi bisogna essere molto attento ai ritardi che introducono quando si tratta di sottotitolazione dal vivo. Aspirare a una qualità molto buona in ognuno di essi significa aggiungere secondi che penalizzano notevolmente l'esperienza dell'utente può violare il regolamento.

Inoltre, e come parte fondamentale del sistema, è presente il modulo per il rilevamento della lingua parlata, che, tenendo conto delle caratteristiche acustiche e applicando tecnologie basate su reti neurali, in cinque secondi devi decidere se la lingua parlata è A o B, selezionando così in quale lingua vengono presentati i sottotitoli in ogni momento. Allo stesso modo, il fatto di essere “live” condiziona i parametri che possono esserlo regolare sul rilevatore per migliorarne le prestazioni.

Non tutte le notizie bilingue sono uguali...

Sebbene la struttura delle notizie territoriali, in termini di il contenuto è lo stesso in tutti i centri (titoli, pezzi editi, alcune dirette, tempo di cultura e sport), per quanto riguarda la lingua non seguire alcun modello comune, che rende incoerenti i risultati della sottotitolazione automatica.

Così, in alcuni centri, come ad esempio Navarra e Paesi Baschi, tutte le notizie sono in spagnolo tranne un riassunto delle notizie alla fine che viene dato in basco; per di più, nel caso di Navarra, si fa solo nel telegiornale della sera.

Una delle nostre preoccupazioni è essere in grado distinguere gli errori attribuibili al rilevatore di linguaggio e quelli che lo sono modello linguistico

In altri, praticamente tutte le notizie si parlano sul linguaggio comunitario e va allo spagnolo solo quando ce n'è intervento di personaggi pubblici, encuestas en la calle, etc. En el término medio estarían los informativos que, si bien el hilo conductor está en un solo lingua, ogni brano o affermazione può essere nell'uno o nell'altro a seconda dell'autore dello stesso.

Accade spesso anche che, mentre si parla in una lingua, alcune parole sono dette nell'altra lingua. Ciò avviene, ma non solo, con nomi di entità (organizzazioni, località...), situazione che naturalmente aggiunge un certo grado di difficoltà per il riconoscimento linguistico.

In caso di Galizia, dove la Castigliano con un forte accento galiziano, il rilevatore di lingua, che funziona con i fonemi, ha molte difficoltà a distinguere quando si verifica un cambio di lingua, soprattutto nel passaggio dal galiziano allo spagnolo. Tuttavia, dentro Navarra, dov'è il Il basco è quello parlato con un marcato accento castigliano, il sistema non è stato in grado di riconoscere il cambio di lingua. Per alleviare la situazione in questo specifico Centro, data la sua casistica, stiamo lavorando affinché il la modifica della lingua viene effettuata utilizzando un modulo di rilevamento burst.

SottotitoliMonitoraggio e parametri di qualità

Un altro tassello fondamentale del progetto è il controllo di qualità esaustivo che viene svolto e i cui risultati servono non solo a conoscere la qualità della soluzione ma anche, rilevandone i punti deboli, contribuire al miglioramento del funzionamento dello strumento e quindi dei livelli qualitativi ottenuti.

Per questo, una società specializzata, Si adattano, che ha esperti in tutte le lingue coperte, settimanale analizza due segmenti di cinque minuti delle notizie di ogni Centro Territoriale in cui sono variati sia il giorno della settimana che l'ora della notizia: all'inizio, a metà o alla fine, effettuando per ogni frammento un insieme di misurazioni oggettive, raccolte in un report settimanale che include anche , gli errori più rilevanti che sono stati rilevati.

Una delle nostre preoccupazioni è essere in grado distinguere gli errori attribuibili al rilevatore di linguaggio e quelli che lo sono modello linguistico. Per conoscere con esattezza la qualità del modello linguistico sono state poste alcune premesse, come ad esempio non tener conto del primi cinque secondi ogni volta che c'è un cambio di lingua (ricordiamo che questa è la finestra che è stata stabilita affinché il rilevatore decida quale lingua viene parlata e quindi contiene errori). D'altra parte, nessuno dei due è incluso nel calcolo quelli parole influenzate quando c'è un cambio di lingua non rilevato o aggiunto dal sistema.

Per conoscere la qualità della trascrizione si usa, differenziando per ciascuna delle lingue, il tasso di errore per parola (WER) che tiene conto delle parole aggiunte, cancellate o tradotte male rispetto al numero totale di parole effettive. fa anche a calcolo di precisione, che oltre agli errori precedenti, tiene conto di quelli di punteggiatura e maiuscole.

Per quanto riguarda il funzionamento del rilevatore di lingua, vengono presi in considerazione i cambiamenti non rilevati e quelli che il sistema ha considerato un cambio di lingua senza effettivamente esistere rispetto ai cambiamenti reali, analizzando separatamente gli errori nel cambio dallo spagnolo all'altra lingua e viceversa .

Inoltre, sugli stessi campioni, a tenere traccia del tempo necessario affinché i sottotitoli appaiano sullo schermo da quando l'audio è stato ascoltato.

Sottotitolialcuni risultati

In generale, abbiamo riscontrato che i migliori risultati si ottengono quando Analizza l'inizio della notizia, il peggiore corrisponde al frammenti della sua fine, mentre quando si analizza la parte centrale, i risultati variano molto a seconda del contenuto di questi frammenti. Questo è un comportamento previsto, poiché l'inizio dell'informativa corrisponde al lettura da parte di un professionista di un testo precedentemente scritto, quindi, linguaggio strutturato e su un set, cioè con una buona cattura audio, mentre i frammenti nella parte centrale sono solitamente interventi con linguaggio naturale, a volte dalla strada, di speaker non professionisti e dove le condizioni acustiche sono peggiori . La parte finale delle notizie corrisponde normalmente al tempo, allo sport e alla cultura dove compaiono molto frequentemente nomi propri locali, con aspetto poco frequente, in cui questi sistemi sono meno efficaci. Potrebbe esserci una differenza di Da 2 a 5 punti nel tasso di errore del WER tra l'inizio e la fine dei telegiornali.

Per lo spagnolo, usa il stesso modello linguistico, addestrato con migliaia di ore, per tutte le comunità senza che i risultati siano omogenei. I migliori risultati si ottengono in Navarra e P. Basco, dove in oltre il 90% delle misurazioni effettuate si ottiene un WER inferiore all'8%, anche nelle parti più complesse della notizia. La Comunità Valenciana ottiene un WER inferiore al 10%, mentre la Galizia e le Isole Baleari hanno un comportamento molto irregolare e talvolta, sempre parlando dei frammenti analizzati, ci sono così poche parole in spagnolo che non è possibile effettuare un calcolo affidabile del WER in questa lingua.

En cuanto al resto de idiomas, se obtienen estos resultados: euskera, el WER se mantiene por debajo del 15% en el 90% de las muestras. Comunidad Valenciana, WER menor que el 25% si es la parte final y el 15% si es en el inicio; Galicia, WER menor que el 20% en la parte final y el 15% en el resto; y Baleares, menor que el 20% en la parte final e inicial y muy irregular en el medio del informativo.

Per quanto riguarda la precisione, il maggior numero di errori è nel file maiuscole e punteggiatura, oscillante tra il 40 e il 50% così come nelle parole trascritte in modo errato, tra il 25 e il 35%. Le parole perse sono molto indietro, circa il 10%, con le parole aggiunte praticamente insignificanti.

Il rilevatore di lingua ha un comportamento irregolare nelle diverse lingue con esiti diversi se il passaggio è dallo spagnolo alla lingua locale, che se è in senso inverso, pregiudicandone il funzionamento anche quando, in un cambio di lingua, il frammento che viene parlato nella lingua a cui è cambiato in pochi secondi.

Per quanto riguarda il tempo di visualizzazione sullo schermo, il cui massimo è fissato a 8 secondi e, sebbene all'inizio del progetto fosse abbastanza vicino a questa cifra, è migliorata e attualmente siamo tra i 5 e 6 secondi in media.

cosa possiamo aspettarci

Los sistemi di reti neurali applicati a questo tipo di casi d'uso hanno portato a a miglioramento spettacolare nei risultati ottenuti rispetto ad altre tecnologie precedenti, però, hanno la controparte di cui hanno bisogno grandi quantità di dati per il tuo allenamento. Uno dei problemi più importanti nelle lingue trattate, ad eccezione dello spagnolo, è che ci sono troppo pochi dati per potersi allenare. Pertanto, erano già attesi risultati disuguali, a seconda della lingua, poiché alcuni modelli linguistici potevano essere più o meno formati di altri, a seconda di lavori o commissioni precedentemente forniti in tali lingue, pubblicazioni a corpus aperto, ecc.

D'altra parte, e quando si tratta di programmi in diretta, alcune formule di miglioramento come introduzione di regole post-trascrizione Possono essere applicati solo quando sono molto semplici perché, in caso contrario, penalizzano i tempi di consegna dei sottotitoli.

Confidiamo che il capacità computazionali continuerà ad aumentare, consentendo l'introduzione di formule più complesse per il miglioramento di precisione e il tempo di presentazione sullo schermo.

A parte l'avanzamento dei modelli linguistici nelle diverse lingue, che avverrà senza dubbio con l'aumento dell'utilizzo di sistemi di questo tipo per varie applicazioni che porteranno ad avere sempre più ore disponibili per la formazione, ci auguriamo che sia in capitalizzazione che in punteggio con le nuove tecnologie basate su Trasformatori, come altri applicati al rilevamento della lingua, ottengono un aumento apprezzabile del qualità dei sottotitoli ottenuti.

D'altra parte, confidiamo che il capacità computazionali continuerà ad aumentare, consentendo l'introduzione di formule più complesse per il miglioramento di precisione e il tempo di presentazione sullo schermo.

Tutti i motivi addotti ma, soprattutto, il riavvicinamento di alcune associazioni di sordi per congratularsi con noi perché per la prima volta possono seguire un telegiornale nella loro lingua madre, fanno tutti lo sforzo investito in questo progetto ne è valsa la pena e ci dà tutto motivazione necessaria per continuare a scommetterci.

Carmen Perez Cernuda

Carmen Perez Cernuda

Vicedirettore dell'area dell'innovazione e della strategia tecnologica in RTVE

Ti è piaciuto questo articolo?

iscriviti al nostro RSS Feed e non ti perderai nulla.

Altri articoli su , , ,
Per • 25 Oct, 2022
• Sezione: Automazione, tv, tribune