fr:lang="fr-FR"
1
1
https://www.panoramaaudiovisual.com/en/2026/03/12/procesamiento-multimodal-verdadero-potencial-ia-transformar-broadcast/

IA - Traitement multimodal - Intelligence artificielle - IA

José Carlos González, directeur d'AI et Julio Albertos, scientifique des données, tous deux faisant partie du cabinet de conseil spécialisé en intelligence artificielle Plonger, expliquez comment le traitement multimodal repense les processus et ouvre la porte à d'importantes possibilités créatives et opérationnelles.

L’IA a fait son chemin dans les processus des radiodiffuseurs espagnols. À la prudence d'il y a quelques années seulement, où les responsables techniques se cachaient derrière la responsabilité collective et soulignaient leur engagement envers le travailleur humain, a été remplacée par une euphorie collectif après les résultats notables de certains outils.

Par rapport à d’autres secteurs qui mettent en œuvre cette série de technologies avec une prudence inhérente au lancement vers l’inconnu, l’IA en radiodiffusion reste encore une évolution d’un concept largement répandu dans les écosystèmes audiovisuels : automation. Une automatisation plus intelligente et presque prédictive, oui, et accompagnée d'un génération automatique basé sur d'énormes volumes de données dont l'origine et la légitimité d'utilisation ils sont toujours interrogés. Mais, en fin de compte, un automatisation des processus et des tâches cela se produisait déjà depuis longtemps grâce aux capacités des données et apprentissage automatique.

Plongée - José Carlos González - Julio Albertos -

José Carlos González et Julio Albertos

A titre d'exemple, les processus de métadonnées, dans lequel des moteurs tiers étaient alimentés par l'intelligence des entreprises elles-mêmes pour procéder au catalogage rationalisé des personnages, des situations, des lieux et même des émotions. Désormais, ces outils accélèrent leur mise en œuvre avec une « connaissance » globale du monde.

Le consultant Plonger Il travaille depuis des années avec des entreprises comme RTVE, RTL ou STC TV d'aborder l'IA sous un prisme particulier : il étudie non seulement les modèles et systèmes intelligents pour résoudre les défis du marché, mais répond également aux besoins de chaque client et identifie comment l'IA peut ouvrir la porte à de nouvelles possibilités. Après avoir suivi de près l'évolution de ces outils, José Carlos González et Julio Albertos Ils abordent en détail quelques concepts qui peuvent être plus ou moins proches des professionnels de la télévision et de la production, mais qui, en collaboration avec l'IA, influencent déjà le quotidien de l'industrie : traitement multimodal, modélisation 3D ou indexation.

Plongée - IA - Traitement multimodal

De nouvelles possibilités jusqu’ici impensables

L’évolution de l’IA a été un chemin lent, qui a alimenté les équipes de recherche et l’imagerie populaire pendant des décennies. L'irruption du modèles génératifs, accompagné d'une industrie disposée à ouvrir ses développements logiciels à ces applications, ouvre la porte à des capacités jusqu'alors impensables : « Management, back-office… Les processus qui nécessitaient auparavant une personne dédiée à 100 % peuvent être pris en charge par les nouveaux modèles, qui disposent de suffisamment de connaissances pour commencer à résoudre les problèmes de l’environnement numérique.

"Les modèles ne cessent d'être générés. Le développement technologique prend une vitesse incroyable et ses possibilités s'élargissent", déclare Albertos, qui tourne son regard vers des domaines tels que scénographie et création: "Actuellement, on peut reconstruire un décor en 3D et dans quelques années, quand la technologie deviendra moins chère, le spectateur pourra choisir son point de vue. Ce sont des concepts impensables il y a quelques années et qui émergent incroyablement."

Julio Albertos : « Actuellement, un décor peut être reconstruit en 3D et dans quelques années, lorsque la technologie deviendra moins chère, le spectateur pourra choisir son point de vue. »

Avec les annonces de foires comme IBC et NAB largement dédiées à faire comprendre à leurs clients les bénéfices de l'arrivée de l'IA dans leurs écosystèmes, ce n'est qu'une question de temps avant que les radios et télévisions commencent à profiter d'un potentiel reste à exploiter. En ce sens, González considère que l’industrie connaît un «accélération» dont la voie a été ouverte par des systèmes de transcription, correction audio, sous-titrage ou traduction.

Désormais, ces capacités de génération de contenu s'étendent aux domaines de traitement et organisation de l'information. Tout cela grâce à un concept qui sera répété dans la conversation : le traitement multimodal, grâce auquel les opérateurs peuvent avoir accès à la connaissance, au traitement et à la génération de contenus transversaux dans les opérations de diffusion.

IA - Traitement multimodal - Intelligence artificielle - IA

Nouveaux outils ou nouvelles versions d’existants ?

Pour s'adapter aux particularités de la diffusion, le chemin des fournisseurs et des constructeurs est passé par amélioration des capacités de produits existants. Un plugin MAM qui interconnecte un moteur interne avec des capacités externes, ou l'ajout d'améliorations créatives aux fonctions déjà existantes d'un logiciel de post-production, guident les premiers pas d'une industrie qui n'a pas encore franchi le pas de construire des outils à partir de zéro autour de modèles génératifs.

José Carlos González : « Le marché regorge de solutions d'IA qui ne sont pas prises en charge par les grands modèles. À mon avis, l'industrie va commencer à s'unifier.

Maintenant, vont-ils arriver ? L’industrie de la radiodiffusion s’ouvrira-t-elle à un gestionnaire de contenu construit à 100 % sur l’IA générative, qu’elle soit alimentée localement ou en externe ? « C’est la question que se pose toute l’industrie. ChatGPT, Gémeaux ou Claude "Ils travaillent déjà à enrichir leurs fonctionnalités", explique González, qui désigne une toute nouvelle génération de startups qui commencent à appliquer les principales Modèles d'IA dans des développements spécifiques: "Le marché regorge de solutions d'IA qui ne sont pas supportées par les grands modèles. À mon avis, l'industrie va commencer à s'unifier. De nombreuses applications spécifiques continueront à émerger pour des cas d'usage spécifiques, mais ce sont les grandes entreprises technologiques, celles-là mêmes qui contrôlent les grands modèles, qui finiront par prendre la parole."

IA - Traitement multimodal - Intelligence artificielle - IA

Sécurité : un acte de foi

La volonté de gérer en interne les connaissances de l’intelligence artificielle des diffuseurs, avec des serveurs et des traitements internes, pourrait poser un défi aux industriels qui peuvent opter pour l’intégration des principaux modèles d’IA. Parmi les arguments avancés par les chaînes de télévision figurent à la fois le maintien de la contrôle de votre propre contenu comment se conformer aux différents réglementation sur la protection des données.

González : « Les grandes entreprises sont plus à même de respecter la protection des données, mais il est vrai que parfois, en utilisant ces technologies, il faut faire un acte de foi. »

"L'utilisateur envoie et reçoit des informations. En principe, vous ne voyez pas où va cette question ou cette information confidentielle. (...) Le modèle a accès à ce que vous transmettez et rien ne vous assure que cette information ne peut pas s'infiltrer vers l'extérieur d'une manière ou d'une autre", explique González, ajoutant que certaines entreprises proposent déjà plans ou services pour certifier la protection des données concret : « Les grandes entreprises gèrent mieux cette conformité, mais il est vrai que parfois, avec l’utilisation de ces technologies, il faut faire un acte de foi. »

Il existe cependant des alternatives locales. De Dive, ils travaillent avec les modèles Source ouverte publié par Méta qui permettent de construire des solutions spécifiques fonctionnant sur l'infrastructure du client. Il est cependant nécessaire d’évaluer des questions telles que le coût de l’informatique, le prix croissant des GPU ou le coût des services cloud. Par conséquent, le Des alternatives « plus sûres » sont parfois écartées pour des raisons de rentabilité.: "Il est bien moins cher de faire appel à des prestataires externes via les services qu'ils proposent avec API que d'avoir des modèles spécifiques qui nécessitent formation, déploiement, industrialisation et contrôle."

Plongée - IA - Traitement multimodal

Comment l'IA modifie les métadonnées

L’IA a commencé à s’imposer dans la radiodiffusion via ses sous-sols. González remonte à 2015 l'arrivée des premiers processus de métadonnées avec des fonctions de intelligence artificielle dans l'industrie espagnole, avec des moteurs basés sur apprentissage profond et toujours supervisé par un opérateur. C'est ainsi que la séparation des scènes, l'identification des contenus ou l'enrichissement des informations ont commencé à faire leur chemin.

González : « Nous sommes passés de modèles complexes pour des fonctions spécifiques à un modèle unique capable d'extraire toutes les informations de manière structurée. »

Ces moteurs nécessitaient « beaucoup de formation » pour fonctionner avec une « qualité acceptable ». Aujourd’hui, la consolidation des derniers modèles d’IA fait tomber les limites du possible dans les services de documentation : « Nous sommes passés de modèles complexes pour des fonctions spécifiques à un modèle unique capable d'extraire toutes les informations de manière structurée. »

De cette façon, un modèle peut extraire minutes de contenu, sujets abordés, personnes ayant participé ou blocs publicitaires. De plus, ce processus peut être effectué dans temps réel en fonction de la quantité de contenu à structurer.

Panasonic - Kairos - Parfum IOWN 4K modèle 3D

Modélisation 3D : les possibilités des jumeaux numériques

Un autre domaine d'application des technologies d'IA générative dans les environnements de diffusion est la création de jumeaux numériques appliqué aussi bien aux scénarios de séries qu’aux plateaux de télévision. Auparavant, il fallait des dizaines d’images pour cartographier l’espace, avec des ajustements importants en termes de précision. Désormais, le processus a été rationalisé.

"De moins en moins d'images sont nécessaires pour générer un espace et pouvoir utiliser ce contenu en trois dimensions, soit à des fins analytiques, soit pour obtenir de nouveaux points de vue. (...) En même temps, vous pouvez segmenter ces espaces pour différencier la chaise et son volume de la personne, afin de pouvoir suivre plus facilement les sujets dans les modèles de traitement vidéo. Il n'y a aucune limite dans cet aspect", explique Albertos.

Ces développements s'appuient sur des modèles tels que NeRF (Champs de rayonnement neuronal) o Éclaboussures gaussiennes, qui « dépassent de loin » les techniques traditionnelles de photogrammétrie. À leur tour, les espaces peuvent être liés au Modèles du monde, qui connaissent le fonctionnement « du monde, de la physique et de tout environnement » : « Vous pouvez demander au modèle de recréer une scène difficile à trouver dans la réalité », explique Gónzalez à propos d'un système qui pourrait même être appliqué pour générer des plans de rouleau B.

Plongée - IA - Traitement multimodal

Traitement multimodal : le concept qui transforme l'IA en diffusion

De nombreux processus décrits par González et Albertos ont un point commun : la capacité de combiner différents processus oui enrichissez vos possibilités être capable d'effectuer des dizaines de tâches en parallèle avec données interdépendantes qu'est-ce que ils répondent. Bref, des concepts comme traitement du langage naturel, vision par ordinateur ou robotique convergent vers les nouvelles technologies d’intelligence artificielle : « Tout comme une personne qui dès sa naissance apprend à travers tous ses sens, comme l’ouïe, la vue ou le toucher, l’IA s’enrichit également de cette multidimensionnalité et de différentes sources de données. »

González : « Un modèle peut être intelligent en connaissant tout le texte sur Internet, mais imaginez si vous encodez également toutes les informations et capacités des vidéos YouTube, des réseaux sociaux ou des images. Fondamentalement, il apprend comment les êtres humains travaillent et quelles informations nous générons.

Sans multimodalité, ou traitement multimodal, les nouveaux systèmes avancés de métadonnées et d'indexation ne serait pas techniquement réalisable: "En ajoutant ces capacités, la capacité cognitive des modèles a énormément augmenté. Un modèle peut être intelligent en connaissant tout le texte sur Internet, mais imaginez si vous encodez également toutes les informations et capacités des vidéos YouTube, des réseaux sociaux ou des images. Fondamentalement, il apprend comment les êtres humains travaillent et quelles informations nous générons", explique González.

Alberto prend comme exemple pour expliquer le potentiel de ces modèles, comme le nouveau Marengo 3, et silence gênant: "Vous pouvez lui demander de le rechercher dans une émission spécifique. Il était auparavant impossible de le rechercher séparément par image ou par son. Le contexte des deux parties est ce qui aboutit à ce silence."

La prochaine étape du multimodalitéGonzález prévient, ce sera le interaction avec le monde, avec des processus appliqués aux environnements robotiques qui auront non seulement la capacité de percevoir et de traiter les informations, mais également d'agir avec elles.

IA - Traitement multimodal - Intelligence artificielle - IA

De l'efficacité à la créativité

Même avec toutes les possibilités que le traitement multimodal et l'IA peuvent apporter, González et Albertos considèrent que la première étape que les diffuseurs doivent franchir devrait être d'améliorer le efficacité de vos processus. Après, maintenant le temps de la créativité viendra.

«Je me concentrerais sur l'identification du temps de travail des personnes qui composent les entreprises et sur la manière dont ces problèmes peuvent être résolus grâce aux technologies», déclare González, convaincu que c'est dans ce domaine que l'IA peut démontrer le plus efficacement son potentiel. Il sera alors temps de changer les règles du jeu.

Quand ce moment viendra, Qui sait les possibilités qu’auront acquises les outils d’IA ?: "Si ces agents et ces systèmes d'intelligence artificielle nous permettent de nous responsabiliser lorsqu'il s'agit d'allouer plus de temps à ces processus créatifs, ce que génèrent les entreprises, les créateurs de contenu ou les médias aura beaucoup plus de richesse."

Un article de Sergio Julián Gómez

D'autres articles sur , , ,

Avez-vous aimé cet article ?

Abonnez-vous à notre BULLETIN et vous ne manquerez de rien.