"Evergreen content" = (Archivo + IA) x SEO. Un algoritmo sencillo pero eficaz

La Inteligencia Artificial abre una oportunidad de colaboración entre las compañías tecnológicas y de media para dar vida a sus contenidos.

Si hay una cuestión que defina y dé valor a un medio son sus contenidos. Es la oferta, la cantidad y calidad de la información oder entretenimiento ofrecido lo que marca la diferencia, positiva o negativa, frente a otras alternativas. Todos estos contenidos son un patrimonio muy valioso que queda guardado en los archivos, unos departamentos que, aunque discretos en comparación con otros en el mundo de los medios de comunicación, son la memoria que nos permite saber quiénes somos, de dónde venimos o el origen de muchas historias que hoy son actualidad.

En ellos encontramos historias de “archivo” que enriquecen y complementan noticias o entretenimiento. Pero son muchas las oportunidades que pueden ofrecer más allá de ser un material de uso regular como apoyo a contenidos actuales. Desde hace tiempo se utilizan habitualmente herramientas de Künstliche Intelligenz (IA) en los fondos documentales, bien para metadatado automático, para búsquedas o para gestión de grandes cantidades de datos, entre otros.

Contenidos evergreen

Durante la pandemia causada por el coronavirus han cobrado gran importancia los contenidos denominados “evergreen“, que en español podrían ser traducidos como contenidos “perennes" oder "atemporales“. Su nombre proviene de la planta de hoja perenne, que conserva sus hojas verdes durante todo el año, y son aquellos que, no siendo ni actualidad ni archivo, nunca están desactualizados y tratan sobre cuestiones que son relevantes para las audiencias.

Son informaciones que han tenido mucha demanda desde el inicio de la pandemia de COVID-19, como, por ejemplo, estar en mejor condición física, cómo teletrabajar, cómo crear espacios más adecuados en nuestras viviendas, cómo cocinar más sano, etc. Hay dos cuestiones en ellos muy relevantes: el contenido, que sea relevante aunque pasen los años, y los temas, aquellos que siempre tienen interés y un volumen de búsqueda importante independientemente del momento en el que nos encontremos.

Hay muchas herramientas de Künstliche Intelligenz en el mercado, mucha demanda de contenidos y muchos de estos contenidos están en nuestros archivos pero no se cuenta con ninguna solución específica para facilitar este trabajo, o generar recomendaciones o contenidos específicos para públicos determinados.

Para ello podrían usarse herramientas que analizasen el SEO de nuestro contenido y el tráfico de nuestros medios para ver lo que le interesa al público, sistemas que analizasen lo que la gente busca en la web, leyendo, escuchando y/o viendo (temas/materias) al igual que en las Soziale Medien. Entonces, ¿no tendríamos una herramienta muy potente si la IA las mezclara para recomendar, recuperar o generar contenido específico, nuevo y adaptado a la demanda?

El reto

Dar respuesta a cuestiones como esta ha sido el objetivo del equipo internacional de profesionales de los medios de comunicación en el que ha participado RTVE dentro del JournalismAI Collab, un proyecto del Centro de Estudios Polis de la London School of Echonomics que cuenta con el apoyo del Google News Initiative. Collab es un experimento de colaboración en el que distintas organizaciones de noticias de todo el mundo, por tipo de medio, tamaño, público, etc. se han unido para explorar soluciones innovadoras que permitan mejorar la actividad periodística utilizando la IA.

El objetivo sobre el que hemos trabajado ha sido el posible uso de IA para generar este tipo de contenidos aprovechando los archivos existentes y conocer si existían o no herramientas en el mercado que dieran respuesta creando un contenido útil, bien posicionado, con impacto y que respondiera a la demanda -elevada, como hemos visto- que exista entre la audiencia.

En el informe final se sugiere que las organizaciones de noticias deben trabajar con las empresas de tecnología para examinar estas necesidades y que puedan ayudar a desarrollar nuevas posibilidades und herramientas. Hemos hablado con algunas de las principales empresas del sector y aquí están algunas de sus ideas.

La opinión de los especialistas

Für Richard Benjamins, Chief AI & Data Strategist In Telefon, empresa multinacional española situada entre las principales de telecomunicaciones del mundo, se podría encontrar una solución siguiendo dos caminos.

El primero sería definir qué es un contenido “evergreen” (en términos de palabras, imágenes, video o sonido) y, automáticamente, con aprendizaje automático, categorizar como tal los que así se consideren y, el segundo, entrenar un algoritmo Con Deep Learning sobre una base de documentos que sirva como referencia y después pasar el repositorio completo.

Ambos pueden ser posibles. La pregunta sería cómo de bueno es, y si esto es suficiente para que aporte valor de manera sistemática. Al final hablamos de la gestión del conocimiento de una empresa, un campo en el que los éxitos son contados, aunque técnicamente lograrlo es posible.

Telefónica, que se dedica a la prestación de servicios, tiene una unidad dedicada al Big Data y a la IA. Actualmente no trabajan con proyectos vinculados a “evergreen data”, pero en un futuro podrían estar interesados viendo que es un campo atractivo, que podría tener acogida y futuro en el mercado.

Benjamins considera importante, para definir un producto válido, que se completen test con usuarios y definir su explicabilidad, el cómo sería el uso en el día a día. “La tecnología está, no sería complicado de hacer”, asegura.

Narrativa, empresa de IA especializada en la generación automática de contenidos, considera que este tipo de contenidos no sólo son útiles, sino que son el futuro, tanto para las empresas como para los medios.

“La transformación digital que se ha vivido en los últimos años y que se ha acelerado con la pandemia confirman el absoluto protagonismo de los medios digitales, por lo que la mera presencia online ya no es suficiente: es necesario ser relevante”, asegura David Llorente, CEO y fundador de Narrativa.

Sin embargo, a la hora de generar este tipo de contenido encuentran dos dificultades principales. La primera es que muchas compañías invierten actualmente una gran cantidad de tiempo, dinero y recursos en la generación de contenido manual. Esto supone desarrollar los textos manualmente e implica una menor agilidad en el proceso. En segundo lugar, generar contenido no es suficiente, necesita cumplir una serie de requisitos según las necesidades del medio/empresa para poder aparecer en los motores de búsqueda.

En Narrativa están desarrollando ya este tipo de tecnología, combinar palabras clave específicas destinadas a un mejor posicionamiento SEO. Las etiquetas que emplean van dirigidas a búsquedas muy concretas por parte de los usuarios en los motores de búsqueda.

De esta manera, los resultados son mucho más ajustados a lo que los posibles clientes quieren encontrar. Recientemente, han generado descripciones de automóviles para un cliente que han logrado situarse directamente dentro de los 10 primeros resultados que arroja Google.

Por lo tanto no sólo sería factible, sino que además sería rentable para las empresas, que ahorrarían tiempo y costes. Las herramientas que otorga la inteligencia artificial, afirman, permitirían contar con un contenido “evergreen” de mayor variedad y permitiría a los periodistas centrarse en tareas de un mayor valor añadido.

La aplicación de técnicas de inteligencia artificial ofrece ventajas indudables en muchas áreas, como el procesamiento de lenguaje natural, pero el problema de identificar contenido evergreen es potencialmente complejo y difícil de formular, considera José Manuel Gómez-Pérez, Director Language Technology Research von Expert.AI.

A priori, podemos pensar que se puede resolver entrenando desde cero un modelo que, dado un documento, lo clasifique como evergreen o no. Si asumimos que el contenido en sí es suficiente para resolver el problema y que no sería necesario por ejemplo datos sobre el impacto generado por ese contenido a lo largo de una franja de tiempo significativa, un enfoque como este parece viable.

Sin embargo, se enfrenta a una variedad de retos, como por ejemplo la generación de un corpus de documentos lo suficientemente grande y su correspondiente etiquetado para entrenar el modelo. Es técnicamente factible, cree, pero necesita recursos para generar ese conjunto de datos y etiquetarlo, tarea que puede suponer una inversión significativa dependiendo del volumen que sea necesario extraer y anotar.

Parece mucho más interesante, afirma, aplicar técnicas basadas en modelos pre-entrenados que sólo necesiten ajustarse para esta tarea concreta o aplicar enfoques basados en reglas formuladas por un ingeniero de conocimiento que reflejen su comprensión de lo que puede ser un contenido evergreen.

En Expert.AI se han enfrentado a problemas similares en ámbitos como el análisis de narrativas yihadistas o la detección y análisis de desinformación en medios online. A su manera, tanto las narrativas como los temas básicos en los que se centra la desinformación, son contenido evergreen destinado a captar la atención de su público objetivo de manera atemporal. La solución óptima pasa por establecer una alianza entre la inteligencia artificial y los usuarios a los que asiste, un partnership que revierta en sistemas de IA que se alimenten del Feedback de los usuarios, ofreciendo cada vez mejores predicciones.

La empresa de tecnología danesa Spor.ai aconseja devolver la capacidad de decisión al periodista y, después, de dejar que la IA genere una lista de sugerencias basadas en una o varias combinaciones a las que se podría afinar introduciendo un conjunto de filtros.

Una posibilidad podría ser mostrar los desplegables regulares, aunque Spor.ai cree más conveniente mostrar el cálculo como un gráfico de conocimiento. Se podría entonces editar y filtrar las relaciones entre las entidades que definen el resultado en la pantalla del gráfico. Esto mantendría la visión general de las relaciones elegidas que son más difíciles de ver con los filtros regulares.

Conclusiones del grupo

Aunque no terminamos de desarrollar una herramienta universal imaginaria, a la que llamamos “ArcAI”, sí que logramos reunir muchas experiencias und conocimientos valiosos que demuestran que es posible construir soluciones para aprovechar los archivos empleando herramientas o soluciones basadas en IA y, que, aunque sea en parte, algunas que ya existen podrían ser útiles. También descubrimos una serie de retos, limitaciones y algunas preguntas básicas para responder al qué se quiere lograr.

Hay un gran potencial en el archivo, pero ¿cuáles son las necesidades específicas de cada redacción? No hay razón para desarrollar una herramienta de investigación avanzada si lo que se necesita es introducir una etiqueta de metadatado para un tipo específico de contenido o definir simples notificaciones cíclicas. Diferentes redacciones tienen diferentes necesidades, así como diferentes definiciones y objetivos de lo que este tipo de contenidos evergreen significan realmente para cada una de ellas.

Dado que hay muy pocas herramientas disponibles se debería decidir qué solución se necesita. Cuanto más avanzados sean los métodos técnicos, más trabajo de desarrollo requerirá.

Usando el Procesamiento de Lenguaje Natural (PNL), el Reconocimiento de Entidades Nombradas (NER) y el Aprendizaje Automático/ Machine Learning (ML) en combinación con el etiquetado manual y/o los filtros de gráficos de conocimiento, se puede obtener resultados bastante precisos en los archivos. Pero, ¿sería suficiente con poner un campo de búsqueda en el sistema de gestión de contenidos, el CMS? ¿Cuáles son los criterios que deberían calificar a una buena coincidencia? ¿Cuánto trabajo de filtrado pondrá en manos del periodista?

Cuando se trabaja con el archivo es fundamental tener una buena coherencia und estructura en la base de datos y los metadatos. Cuanto mejor sea la estructura, más fácil será aprovechar la base de datos con el uso de herramientas de Inteligencia Artificial.

Para implementar una herramienta como esta, ya sea basada en sistemas de etiquetado manual, métodos de exploración o cualquier otra tecnología, se necesita también contar con el apoyo de la organización y sus profesionales. Desarrollar estas herramientas para que finalmente sean un despilfarro de tiempo, recursos y dinero no tiene sentido si chocan y son anuladas por determinadas “culturas” empresariales o por la nula la motivación e implicación de sus teóricos usuarios.

En el caso de medios no angloparlantes es determinante tener en cuenta el idioma si se decide utilizar algunas de las tecnologías del mercado, como Parse.ly oder Chartbeat, ya que sus algoritmos, en la mayoría de los casos, han sido entrenados en inglés o en chino y son considerablemente mejores que en otros idiomas. Sea una tecnología propia o ajena, lo más recomendable es entrenar la herramienta con el contenidos de los archivos propios para obtener el resultado más acorde a las necesidades.

Entre las oportunidades está la posibilidad de notificar a los periodistas cuándo el contenido anterior está reapareciendo en los motores de búsqueda; obtener mejor posicionamiento SEO, sugerir historias relacionadas y relevantes o reutilizar elementos de contenidos anteriores para crear líneas de tiempo u otros formatos, entre otras muchas.

Quizá el principal resultado del trabajo de nuestro equipo sea el solicitar a las compañías tecnológicas que se involucren y unan fuerzas con los medios de comunicación para desarrollar herramientas accesibles que den vida a los contenidos ya publicados y ayuden a poner el enorme potencial de los archivos en los contenidos periodísticos.

David Corral

Innovación RTVE

Artículo originalmente publicado en el Observatorio para la innovación de los Informativos en la Sociedad Digital (OI2)