2020, un año de Inteligencia Artificial en la Innovación de RTVE

La Inteligencia Artificial ha sido una de las tecnologías protagonistas de 2020, junto a la nube o el 5G, y promete seguir siéndolo en los años que tenemos por delante. Así parecen indicarlo las políticas, estrategias e inversiones internacionales, europeas y nacionales. La llegada de la pandemia y sus posteriores repercusiones han demostrado la utilidad de la IA en la investigación del virus y en la búsqueda de una vacuna, en la gestión de grandes bases y conjuntos de todo tipo de datos o en la notificación de alertas. Pese a las dificultades económicas, los grandes movimientos en las bolsas mundiales han disparado a las empresas dedicadas a ella. Su utilización en medios de comunicación, como en tantos otros ámbitos, es cada día más habitual y sus aplicaciones más específicas. Para RTVE es una de las prioridades de trabajo de Innovación, para entender sus posibilidades, para descubrir nuevos usos y para estar preparados tecnológicamente para seguir cumpliendo en el futuro con nuestra vocación y mandato de servicio público.

El uso de algoritmos en los medios de comunicación no es tan reciente como pueda parecer. Las primeras experiencias tienen ya más de 10 años y fueron obra de estadounidenses, como la herramienta “Automated Insights” concebida en 2013 por la agencia de noticias Associated Press para crear historias a partir de datos estructurados como los económicos, bursátiles, meteorológicos o deportivos. Tras él llegaron nombres como “Bertie” de Forbes, “Editor” del New York Times, “Cyborg” de Bloomberg o “Heliograf” del Washington Post, ganador de un premio por “su excelencia en el uso de bots”, por citar algunos. También encontramos cada vez más departamentos específicos que van desde los grandes medios a los que han nacido y crecido gracias a estas tecnologías. En Europa son destacables las actividades de la británica BBC, la finlandesa YLE o la belga VRT, todas ellas públicas y socias de la EBU, como RTVE.

Las pruebas, los casos y las aplicaciones han sufrido en estos años un crecimiento y expansión exponencial que tiene como máximo referente tecnológico, por su impacto tan llamativo, a los presentadores virtuales de televisión. Pueden ser “clones” de personas reales o personajes creados desde cero.

Hoy la Inteligencia Artificial (IA), los algoritmos, el aprendizaje profundo… son habituales en la gestión y síntesis de grandes bases de datos; en la generación de textos y gráficos; en herramientas de Personalisierung oder recomendación de contenidos y estudio de las audiencias; en la revisión y recomendación de textos; en lanzar alertas; en las traducciones, transcripciones y rotulaciones automáticas; trabajando con asistentes de voz o weareables; favoreciendo la Zugänglichkeit con funciones como la lectura automática de noticias con voces “sintéticas”; el segmentando de contenidos de televisión y radio para su posterior re-emisión, su difusión digital o archivo; en una tarea tan fundamental para nosotros como es la lucha contra la desinformación; mejorando el uso y acceso a los archivos o liberándonos de tareas rutinarias que den más tiempo y recursos a la creación de contenidos propios y de mayor calidad, por citar algunas posibilidades de un catálogo en constante crecimiento.

Retos también muchos y en aumento, no solo los puramente tecnológicos. Tendremos que dar respuesta a su uso ético y deontológico. Al mejor uso posible del español. A su mejor aplicación como herramientas que complementen y no que destruyan o reduzcan la calidad de los contenidos. Por decidir quién será responsable de sus acciones y decisiones. Por definir al propietario de los posibles derechos de autor que genere su actividad. Por su impacto social positivo y no generando o aumentando brechas como las tecnológicas o las del acceso al conocimiento. Por hacer de esta tecnología, como de cualquier otra, una palanca o motor de innovación, emprendimiento y transformación empresarial. Por el uso de los datos de los usuarios de manera responsable en entornos “seguros y fiables” que garanticen los derechos fundamentales individuales y la “soberanía digital”. Para definir su transparencia. Para garantizar su robustez frente a ciberataques. Para garantizar la ausencia de sesgos. Por ser coherentes con su impacto medioambiental (que lo tiene, y notable)…

Inteligencia Artificial en RTVE

Como sucede con otros medios de su tamaño, historia y carácter público, RTVE ha decidido desde hace años que la Inteligencia Artificial sea una de sus principales materias de trabajo en cuestiones de Innovación. Aunque hay herramientas actualmente presentes en las actividades habituales de distintas áreas de la Corporación, como Informativos o Digital con las alertas o las dedicadas a las audiencias y usuarios, entre otras, también nos la encontramos directamente en la mayoría de los teléfonos móviles que utilizamos, en nuestros vehículos, asistentes domésticos, relojes inteligentes, etcétera, sin que seamos muy conscientes de cuánto y cómo está presente en nuestra vida y actividades cotidianas.

El objetivo planteado, como referente de öffentliche Dienstleistung y de innovación, es investigar y profundizar en las distintas posibilidades que nos pueda dar el uso de las tecnologías basadas o relacionadas con la IA.

En el ámbito periodístico, la IA permite cubrir aquello a lo que no llegamos por su tamaño (ligas deportivas menores) o complejidad geográfica (dar más noticias -y más- locales), temas que cuentan con el mismo derecho a ser cubiertos e informar sobre ellos como se hace con otras cuestiones.

El pasado 2020, para explorar este campo, se firmó un proyecto piloto de pruebas con EFE und Narrativa para la redacción automática de textos basado en fuentes de datos estructurados, como las actas deportivas. La experiencia se está realizando con contenidos que actualmente no son tratados por nuestros redactores, en este caso la 2ªB de la Liga de fútbol y las categorías femeninas. Se ha previsto, como flujo de trabajo, que el contenido generado (adaptado a nuestro libro de estilo), pase por la supervisión de un periodista antes de su difusión, aunque, una vez entrenado, el algoritmo puede publicarlo directamente poco después de que finalicen los encuentros incluyendo texto e infografías.

En 2020, un año complicado por la alteración causada por la pandemia en prácticamente todas las competiciones deportivas, Narrativa ha generado automáticamente casi 80.000 noticias de fútbol, incluyendo una previa de cada partido y un resumen con lo más destacable de cada encuentro.

Acabando el año se publicó un nuevo expediente de redacción automática de textos, en este caso para la información de resultados de futuras elecciones en poblaciones inferiores a los pocos miles de habitantes. Medios como BBC, YLE oder France TV cuentan ya con experiencia real en este tipo de cobertura electoral, al igual que el periódico francés Le Monde, que produjo decenas de miles de artículos en pocas horas utilizando la IA de “Syllabs” durante las últimas elecciones legislativas francesas.

Otro expediente importante y reseñable por su trascendencia es el lanzado con nuestro Fondo Documental fürs metadatado automático de 11.000 horas de video de Informativos y Programas del Archivo de RTVE. Se trabajará sobre material ya digitalizado pero del que se tiene poca información, bien por su procedencia o su antigüedad. Se utilizarán tecnologías del Habla (transcripción, identificación de hablantes o segmentación de hablantes), Procesamiento del Lenguaje Natural (PLN. Identificar entidades) y la visión artificial. Esta última será solo sobre un número limitado de horas por ser una tecnología menos madura pero que sí permite familiarizarnos con su uso, evaluar su rendimiento o encontrar posibles aplicaciones por su gran potencial.

Tenemos muchos rodajes interesantes grabados sin audio y archivados con datos limitados que, a partir de esta experiencia, podrían contar con más uso al tener más facilidad de recuperación y reutilización a través de un metadatado más completo y preciso logrado en mucho menos tiempo y con menos recursos. Una de las propiedades del proyecto es su atractivo desde el punto de vista tecnológico. Se trabajará con terceros, con IA, en cloud,… con la idea de no tener vinculación ni dependencia tecnológica con las grandes plataformas que prestan los servicios y buscando siempre al mejor proveedor para cada necesidad.

Algunos de los principales desafíos de este proyecto son cómo integrar esos datos en nuestro modelo actual de archivo, cómo indexar un enorme volumen de metadatos para que sea posible buscarlos y visualizarlos o el control de calidad de los datos, un campo en el que se ha logrado una experiencia muy positiva a través de los distintos RTVE IberSpeech Challenge.

La IA como vínculo

Un ámbito en el que hay una actividad intensa es en establecer, mantener y fomentar las relaciones con empresas tecnológicas, emprendedores, instituciones o universidades, con las que, por ejemplo, existen herramientas de trabajo conjunto como las distintas cátedras establecidas con algunas de las principales de nuestro país.

Con la Universidad Carlos III de Madrid, con la que ya se trabaja habitualmente junto a otras empresas especializadas en el subtitulado automático de los informativos de nuestros centros territoriales, tanto en español como en los demás idiomas oficiales del estado, se está investigando en el Analyse de redes sociales y su aplicación para enriquecer, anpassen oder personalizar textos o noticias.

El caso de estudio se aplica a las noticias de deportes generadas por IA, a las que se quiere dar más contenido añadiendo aquella información que sea relevante y que pueda ser obtenida de fuentes conocidas, como cuentas de clubs de fútbol, de jugadores o de los presidentes de los distintos equipos. Dar pasos como este nos puede permitir que, sobre una noticia base -como un teletipo-, ofrezcamos más contenidos, más específicos, llegar a más público en más lugares y dispositivos, ganar personalización, un mejor posicionamiento SEO o, incluso, que se haga en distintas lenguas.

Das automatización de parte del trabajo de documentación de contenidos audiovisuales y sonoros de RTVE, tanto en la fase de producción como en el archivo definitivo en los fondos documentales, es el principal fin de la cátedra con la Universidad de Zaragoza. En este análisis de los contenidos audiovisuales, o en cómo se puede aplicar a ellos el Big Data, se investiga la transcripción a texto de las grabaciones; el reconocimiento de hablantes, caras, edificios emblemáticos y logotipos y su ubicación en un código de tiempo de la media; la descripción automática de imágenes, planos y secuencias o la creación de resúmenes de forma automática, tanto para radio como para televisión, entre otras actividades.

Para impulsar la investigación en estas áreas la Cátedra ha organizado, por segunda vez desde su creación en 2017, un reto para la comunidad científica, empresas y universidades implicadas en el sector, el Albayzín-RTVE, que en este 2021 se celebrará del 24 al 26 de marzo coincidiendo con el IberSpeech 2020. En este congreso internacional se presentarán los resultados del reto, pero ya se puede adelantar que han superado la expectativas y resultados de las ediciones anteriores, con tasas de acierto de hasta cuatro puntos más altas en los programas que presentaban mayores dificultades.

Das Observatorio para la Innovación de los Informativos en la Sociedad Digital (OI2), una iniciativa dedicada a la investigación en el que junto a RTVE participa la Universidad Autónoma de Barcelona, también dentro de una cátedra, ha dedicado gran parte de sus esfuerzos al estudio y difusión, en distintos formatos de conferencias o publicaciones y trabajos de investigación, del impacto de la IA en los medios de comunicación. Los temas tratados en estos últimos meses han sido los sistemas de prealertavon redacción automática de textos, la Personalisierung de contenidos, la lucha contra la desinformación y las fake news oder die presentadores virtuales, en la que está prevista una posible prueba con Alexa.

Colaboraciones internacionales

A los habituales contactos con empresas tecnológicas o la actividad regular en este campo que se mantiene con EBU, la principal alianza mundial de medios de comunicación de servicio público, en este 2020 hemos participado por primera vez en el JournalismAI Collab organizado por Polis, el think-tank de periodismo de la London School of Economics and Political Science. En esta iniciativa mundial, en la que se han dado cita decenas de medios de distintos países, tamaños o canales de emisión, se ha trabajado durante los seis últimos meses del año en equipos multidisciplinares de periodistas, ingenieros o técnicos, explorando soluciones basadas en IA que nos ayuden en nuestra actividad. El trabajo, los resultados y las lecciones aprendidas por los equipos en este experimento de colaboración con la IA se presentaron en diciembre en el JournalismAI Festival.

RTVE ha participado en el grupo de “evergreen content“, en el que el reto era cómo sacar más partido al material de archivo para actualizar o generar nuevos contenidos de temas que, no siendo de actualidad, tengan mucha demanda.

El resultado de nuestro trabajo fue un catálogo de soluciones para los medios de comunicación que quieren aprovechar el contenido de sus archivos y una herramienta “imaginaria”: “ArcAI”. Es un robot inteligente que revisa los archivos para recomendar las mejores coincidencias cada vez que un periodista empieza a trabajar sobre un nuevo artículo o tema. El motor de sugerencias de “ArcAI” tiene tres objetivos: reutilizar, inspirar y vincular. Basado en Procesamiento del Lenguaje Natural (NLP) y otras tecnologías relacionadas, “ArcAI” asigna una puntuación a cada contenido del archivo para encontrar posibles coincidencias.

También se realizó un llamamiento a las empresas tecnológicas para que trabajen conjuntamente con las redacciones desarrollando las herramientas que más se necesitan y que, realmente, podrían mejorar las capacidades de los periodistas. Una experiencia similar es la presentada por el BBC News Labs, que ha desarrollado varias herramientas que utilizan los artículos de texto existentes como base para la creación de nuevos formatos para la narración digital de noticias.

El trabajo de otros grupos, centrado en explorar cómo la IA podría ayudar a dar soluciones a los retos que seleccionaron, se dedicó a pensar en herramientas capaces de resumir grandes conjuntos de datos o documentos y cómo hacer que estos resultados puedan mejorar el tráfico, la personalización o el acceso a nuestros contenidos; cómo se podría aprovechar la IA para entender, identificar y mitigar los sesgos o para mejorar la diversidad y la inclusión utilizando los algoritmos como una fuerza “positiva“; cómo entender y mejorar la retención de usuarios usando la IA y el ML y que contó con el ejemplo del South China Morning Post, que emplea el aprendizaje automático a través de una plataforma de datos de clientes, encuestas, concursos y sondeos; o para qué y por qué usar la IA y la automatización en el periodismo.

Tampoco faltó el debate y el encuentro con especialistas para tratar cuestiones como cuál será la relación o qué supondrá la IA en el futuro del periodismo, las principales tendencias para los próximos años, cómo se están adaptando los medios o cómo evolucionará la interacción entre los periodistas y los algoritmos, la formación, las estrategias, las oportunidades o la responsabilidad que supone el uso de la IA, entre otras. En 2021 esperamos seguir avanzado y colaborando en una nueva edición del Collab.

Otra iniciativa europea que cuenta con IA y nuestra contribución es Europeana Subtitled, un proyecto en el que participa el Fondo Documental junto a otras instituciones de referencia del sector, y que supone la publicación en Europeana (la biblioteca digital europea), de contenidos audiovisuales a través del EUscreen. Este proyecto supondrá la publicación de material del archivo de RTVE de manera enriquecida con subtitulado en distintos idiomas. El objetivo del proyecto es la generación y traducción automática de estos subtítulos a las distintas lenguas oficiales europeas. De esta manera se dará mayor visibilidad internacional a una selección de contenidos del archivo de RTVE sobre España y Europa.

IA durante la pandemia

La IA ha sido y es una herramienta clave en la lucha contra el coronavirus. Desde su detección y posterior alarma lanzada por la empresa canadiense BlueDot, que descubrió al virus como una “neumonía desconocida” gracias a su algoritmo, son múltiples los ejemplos y el empleo que ha tenido en todo el mundo en la búsqueda de vacunas y tratamientos, en la detección de síntomas o posibles casos positivos, en predicciones de expansión y propagación o comportamiento en lugares cerrados, en alertas, diagnósticos, en las apps desarrolladas por gobiernos, instituciones o empresas privadas, en la gestión de recursos o de enormes bases de datos, entre otros. RTVE, junto a EFE y Narrativa, ha participado en dos proyectos sin ánimo de lucro que han utilizado los datos y las cualidades de los algoritmos en la lucha contra el coronavirus:

Covid-19 Tracking Project está poniendo en abierto, desde el comienzo de la pandemia y sus devastadores efectos, la mayor base de narrativas automáticas generadas con IA, datos, informes, gráficas e imágenes de la Evolution y el estado de la COVID-19 en España y en el mundo.

Utilizando datos actualizados facilitados por RTVE y los de múltiples fuentes oficiales (para minimizar la posibilidad de error), como el Ministerio de Sanidad, el Dipartimento della Protezione Civile de Italia, el Robert Koch Institute de Alemania o la estadounidense Johns Hopkins University, entre otros, Narrativa genera varios informes diarios del impacto del coronavirus en español, inglés und italiano que se actualizan cada 15 minutos en el caso de España y una hora para el resto del mundo.

El proyecto continúa vigente y se han generado cerca de 1.500.00 noticias en estos meses. La herramienta permite consultar las cifras de la COVID-19 en cualquier país del mundo e incluso recoge las estadísticas de diferentes regiones, estados o, en el caso de España, comunidades autónomas y provincias.

Además del acceso por web hay disponible una API que proporciona datos agregados. La agencia de noticias italiana ANSA utiliza la inteligencia artificial de Narrativa para sus noticias sobre la COVID-19, así como Infobae oder Boston Globe und STAT News (a través de Applied XL) ya que todo puede ser usado, descargado o compartido libremente por medios, instituciones, ONGs o cualquier persona. Diariamente acceden desde países del todo el mundo decenas de miles de usuarios para consultar la situación. Este proyecto de Narrativa, en el que RTVE es colaborador, fue premiado doblemente en Estados Unidos: Fast Company lo reconoció en la edición 2020 de los premios Innovation by Design y fue reconocido por Editor and Publisher en los premios EPPY, que valoraron el buen uso de los datos y la infografía en la página.

Data For Hope, un evento virtual y un desafío celebrado del 15 al 17 de abril con el apoyo de la Secretaría de Estado de Digitalización e Inteligencia Artificial. La iniciativa surgió de EFE, RTVE, la empresa Narrativa y la consultora Cloud District, encargada de organizar este hackathon que reunió a más de 120 profesionales de ámbitos como la medicina, la tecnología, el periodismo, la administración pública, universidades o emprendedores. Del trabajo de estos tres días surgieron propuestas que intentan dar respuesta a distintos retos, todas ellas basadas en el uso lícito y ético de datos fiables y en la tecnología disponible. Las sesiones se centraron en:

– Modelos de predicción y evolución de la pandemia: Correlación entre estos datos y datos públicos (impacto de medidas, sistema sanitario, etc.). Para dar respuesta a preguntas como cuándo se colapsará este en una región determinada se ha optado por un modelo de datos unificado para el reporte desde hospitales, registros civiles y otras organizaciones al Gobierno.

– Modelos para prevención en África y Latinoamérica: Modelado de la pandemia para adelantar el impacto en el hemisferio sur, donde la calidad de los datos no permite hacerse una idea clara de la situación. La recomendación ha sido desarrollar una plataforma de recopilación de datos que permita entender el impacto de la Covid-19 en esos lugares y un portal en el que gobiernos, autoridades y líderes comunitarios puedan consultar una guía de actuación y recomendaciones adaptada a cada zona y nivel de alfabetización.

– Modelos basados en datos de Movilidad: Definición de políticas de movilidad. Modelos para levantamiento progresivo de limitaciones. El resultado ha sido un modelo dinámico y plataforma cartográfica activa basados en la evolución epidemiológica, el territorio y la movilidad de la población en tiempo real que sirvan de herramienta para la planificación estratégica y la toma de decisiones informadas durante la desescalada de medidas y orientada al control de la gestión de la epidemia y la propagación del virus. Para evaluar el riesgo de cada individuo y el impacto de su comportamiento en otros, se ha propuesto crear una red de datos donados por los usuarios, que garantice su privacidad y permita a las administraciones ofrecer herramientas para guiar sus decisiones.

Los resultados de estos trabajos sirvieron para desarrollar dos productos digitales, Futcov, una herramienta de autodiagnóstico realizada en colaboración con la RFEF y Mount Sinaí Hospital, y DataForYouEins aplicación para dar contexto a los trayectos durante las fases de desescalada del coronavirus.

Como hemos visto, y siendo conscientes de todas sus posibilidades y de todas sus limitaciones, la Inteligencia Artificial y las tecnologías relacionadas no son en sí mismas ni buenas ni malas, es en el uso que se haga de ellas el que determinará su carácter y consecuencias.

Si pierde su neutralidad para ser negativa debemos tener la experiencia previa que nos permita conocer sus causas y efectos para, en lo posible, solucionarlos, prevenirlos o evitarlos. En su aplicación positiva son casi inimaginables las tareas en las que puede ser una ayuda y un ahorro. Desde la gestión energética reduciendo consumos y necesidades de mantenimiento; el análisis y gestión de grandes cantidades de documentos; hasta las propias de un medio de comunicación, como personalizar, descubrir o, en el caso de los redactores, liberarles de las tareas repetitivas para que puedan dedicarse a dar más profundidad, investigación o relevancia a informaciones más personales, con el objetivo de ganar así originalidad, mayor calidad y la diferencia respecto a otras ofertas, algo que, de momento, sigue teniendo una firma muy humana.

David Corral

Innovación RTVE

Artículo originalmente publicado en el Observatorio para la innovación de los Informativos en la Sociedad Digital (OI2)