ja:lang="ja"
1
1
https://www.panoramaaudiovisual.com/en/2026/03/12/procesamiento-multimodal-verdadero-potencial-ia-transformar-broadcast/

AI - マルチモーダル処理 - 人工知能 - AI

AI ディレクターのホセ・カルロス・ゴンサレス氏とフリオ・アルベルトス氏は、 データサイエンティスト、どちらも人工知能に特化したコンサルティング会社の一部です ダイビング、マルチモーダル処理がどのようにプロセスを再考し、重要な創造的および運用上の可能性への扉を開くかを説明します。

AI はスペインの放送局のプロセスに進出しつつあります。技術管理者が連帯責任の背後に隠れ、人間の労働者への取り組みを強調するほんの数年前の警戒心は、現在では、 多幸感 特定のツールの顕著な結果の後の集合体。

未知の世界への立ち上げに特有の注意を払いながらこの一連のテクノロジーを導入している他の分野と比較すると、放送における AI は依然として、オーディオビジュアル エコシステムで広く普及している概念の進化にすぎません。 オートメーション。はい、よりインテリジェントでほぼ予測的な自動化が可能です。 自動生成 に基づく 膨大な量のデータの出所と使用の正当性 彼らは今も疑問を持たれている。しかし、結局のところ、 プロセスとタスクの自動化 それはデータと 機械学習。

ダイブ - ホセ・カルロス・ゴンサレス - フリオ・アルベルトス -

ホセ・カルロス・ゴンサレスとフリオ・アルベルトス

例として、次のプロセスがあります。 メタデータでは、サードパーティのエンジンに企業自体のインテリジェンスが供給され、登場人物、状況、場所、さらには感情の合理的なカタログ化が進められました。現在、これらのツールは世界のグローバルな「知識」を活用して実装を加速しています。

コンサルタント ダイビング 彼は次のような企業で長年働いてきました。 RTVE、RTL、または STC テレビ 特定のプリズムから AI にアプローチすること。市場の課題を解決するためのインテリジェントなモデルとシステムを研究するだけでなく、各クライアントのニーズに対応し、AI がどのように新たな可能性への扉を開くことができるかを特定します。これらのツールの進化を注意深く監視した後、 ホセ・カルロス・ゴンサレスとフリオ・アルベルトス 彼らは、テレビや制作の専門家に多かれ少なかれ近いかもしれないが、AI と連携してすでに業界の日常生活に影響を与えているいくつかの概念を詳細に取り上げています。 マルチモーダル処理、3D モデリングまたはインデックス作成

ダイブ - AI - マルチモーダル処理

これまで考えられなかった新たな可能性

AI の進化はゆっくりとした歩みであり、何十年にもわたって研究チームや人気の画像を刺激してきました。の勃発 生成モデルは、ソフトウェア開発をこれらのアプリケーションにオープンにしたいと考えている業界を伴って、これまで考えられなかった機能への扉を開きます。 バックオフィス... 以前は 100% 専任の人員が必要だったプロセスが、デジタル環境で問題を解決し始めるのに十分な認識力を備えた新しいモデルによってサポートされます。」

「モデルの生成が止まることはありません。技術開発は信じられないほどのスピードで進んでおり、その可能性は拡大しています」とアルバートス氏は言い、次のような分野に視線を向けています。 セットのデザインと作成: 「現在、セットを 3D で再構築できますが、数年後にはその技術が安価になり、視聴者が視点を選択できるようになるでしょう。これらは数年前には考えられなかった概念であり、信じられないほど出現しつつある概念です。」

フリオ・アルベルトス: 「現在、セットは 3D で再構築できますが、数年後にはその技術が安価になり、視聴者は視点を選択できるようになるでしょう。」

などのフェアのお知らせとともに、 IBCとNAB AI がエコシステムに導入されるメリットをクライアントに伝えることに広く専念しているため、ラジオ局やテレビ局が AI を活用し始めるのは時間の問題です。 潜在的 まだ悪用されていません。この意味で、ゴンザレス氏は業界が「加速度」のシステムによってその道が開かれました。 文字起こし、音声修正、字幕または翻訳

現在、これらのコンテンツ生成機能は次の分野に拡張されています。 情報処理と組織化。すべては会話の中で繰り返されるコンセプトのおかげです。 マルチモーダル処理これにより、オペレーターは放送業務における横断的なコンテンツの知識、処理、生成にアクセスできるようになります。

AI - マルチモーダル処理 - 人工知能 - AI

新しいツールですか、それとも既存のツールの新しいバージョンですか?

放送の特殊性に適応するために、サプライヤーとメーカーがたどってきた道 能力の向上 既存の製品の。内部エンジンと外部機能を相互接続する MAM プラグイン、またはポストプロダクション ソフトウェアの既存の機能に創造的な改善を追加することで、まだ一歩を踏み出していない業界の最初の一歩を導きます。 ビルドツール 生成モデルをゼロから構築します。

ホセ・カルロス・ゴンサレス: 「市場には、大規模なモデルでサポートされていない AI ソリューションが溢れています。私の意見では、業界は統合され始めると思います。」

さて、彼らは到着するでしょうか?放送業界は、ローカルまたは外部で駆動されるかどうかに関係なく、生成 AI に 100% 基づいて構築されたコンテンツ マネージャーを受け入れますか? 「これは業界全体が尋ねている質問です。 ChatGPT、ジェミニまたはクロード 「彼らはすでに機能を充実させることに取り組んでいます」とゴンザレス氏は説明し、まったく新しい世代の スタートアップ メインを適用し始めている 特定の開発における AI モデル: “El mercado está abarrotado de soluciones de IA que no están sustentadas por los grandes modelos. En mi opinión, la industria se va a empezar a unificar. Seguirán surgiendo muchos aplicativos específicos para casos de uso concretos, pero las grandes empresas tecnológicas, las mismas que controlan los grandes modelos, serán quienes acabarán tomando la palabra”.

AI - マルチモーダル処理 - 人工知能 - AI

La seguridad: un salto de fe

La voluntad de gestionar internamente el conocimiento de una inteligencia artificial por parte de los broadcasters, con servidores y procesamiento interno, podría suponer un desafío entre los fabricantes que puedan apostar por la integración de los principales modelos de IA. Entre los argumentos esgrimidos por las televisiones figura tanto mantener el control de su propio contenido como cumplir con las distintas normativas de protección de datos

González: “Las grandes empresas llevan mejor el cumplimiento de protección de datos, pero es cierto que a veces, con el uso de estas tecnologías tienes que dar un salto de fe”.

“El usuario envía y recibe información. En principio, no ves dónde está yendo esa pregunta o esa información confidencial. (…) El modelo tiene acceso a lo que transmites y nada te asegura que esa información no pueda permear al exterior de alguna manera”, comenta González, añadiendo que algunas empresas ya están ofreciendo planes o servicios para certificar la protección de datos concretos: “Las grandes empresas llevan mejor este cumplimiento, pero es cierto que a veces, con el uso de estas tecnologías tienes que dar un salto de fe”.

Existen alternativas locales, no obstante. Desde Dive, trabajan con los modelos Open Source publicados por Meta que permiten construir soluciones especificas corriendo en la infraestructura del cliente. No obstante, es necesario valorar cuestiones como el coste de la computación, el creciente precio de las GPU o el coste de los servicios cloud. Por ello, las alternativas más “seguras” en ocasiones se descartan por la propia rentabilidad: “Es mucho más económico utilizar proveedores externos a través de los servicios que ofrecen con API que tener modelos específicos que requieren entrenamiento, despliegue, industrialización y control”.

ダイブ - AI - マルチモーダル処理

Cómo está cambiando la IA el metadatado

La IA comenzó a abrirse paso en el broadcast a través de sus sótanos. González data en 2015 la llegada de los primeros procesos de メタデータ con funciones de 人工知能 en la industria española, con unos motores basados en aprendizaje profundo y siempre supervisados por un operador. De esta forma, la separación de escenas, la identificación de contenido o el enriquecimiento de la información comenzaron a abrirse paso.

González: “Hemos pasado de tener modelos complejos para funciones concretas, a tener un único modelo que puede extraer de forma estructurada toda la información”.

Estos motores requerían de “mucho entrenamiento” para que funcionaran con una “calidad aceptable”. Ahora, la consolidación de los últimos modelos de IA está derribando los límites de lo posible en los departamentos de documentación: “Hemos pasado de tener modelos complejos para funciones concretas, a tener un único modelo que puede extraer de forma estructurada toda la información”.

De esta forma, un modelo puede extraer minutado del contenido, temas hablados, personas que han intervenido o bloques publicitarios. Además, este proceso puede realizarse en tiempo real dependiendo de la cantidad de contenido a estructurar.

パナソニック - カイロス - IOWN Perfume 4K 3D

Modelado 3D: las posibilidades de los gemelos digitales

Otro ámbito de aplicación de las tecnologías de IA generativas en los entornos broadcast es la creación de gemelos digitales aplicados tanto a escenarios de series como a platós televisivos. Antes se precisaba de decenas de imágenes para hacer un mapeado del espacio, con importantes ajustes en términos de precisión. Ahora, el proceso se ha agilizado.

“Cada vez se necesitan menos imágenes para generar un espacio y poder usar ese contenido en tres dimensiones, ya sea para cuestiones de analítica o para obtener nuevos puntos de vista. (…) A su vez, puedes segmentar esos espacios para diferenciar la silla y su volumen de la persona, de modo que puedes traquear a los sujetos más fácilmente en modelos de procesado de vídeo. El cielo es el límite en este aspecto”, explica Albertos.

Estos desarrollos se basan en modelos como NeRF (Neural Radiance Fields ああ ガウス スプラッティング, los cuales “superan con creces” las técnicas tradicionales de fotogrametría. A su vez, los espacios se pueden relacionar con los World Modelslos cuales tienen conocimiento de cómo funciona “el mundo, las físicas y cualquier entorno”: “Tú le puedes pedir al modelo que recree una escena que en la realidad sea difícil de encontrar”, comenta Gónzalez sobre un sistema que podría aplicarse incluso para generar planos de b-roll.

ダイブ - AI - マルチモーダル処理

Procesamiento multimodal: el concepto que transforma la IA en el broadcast

Muchos de los procesos descritos por González y Albertos tienen un punto en común: la capacidad de combinar diferentes procesos y enriquecer sus posibilidades para poder realizar decenas de tareas en paralelo con datos interrelacionados que se retroalimentan. En definitiva, conceptos como procesamiento de lenguaje natural, visión por computador o robótica convergen en las nuevas tecnologías de inteligencia artificial: “Al igual que una persona que desde que nace está aprendiendo a través de todos sus sentidos, como el sonido, la vista o el tacto, la IA también se está viendo enriquecida por esta multidimensionalidad y distintas fuentes de datos”.

González: “Un modelo puede ser inteligente sabiéndose todo el texto que hay en Internet, pero imagínate si también codificas toda la información y capacidades de los vídeos de YouTube, redes sociales o imágenes. Fundamentalmente aprende cómo funciona el ser humano y cuál es la información que estamos generando”.

Sin la multimodalidad, o マルチモーダル処理, los nuevos sistemas de metadatado e indexado avanzado no serían viables técnicamente: “Al añadir estas capacidades, la capacidad cognitiva de los modelos ha aumentado enormemente. Un modelo puede ser inteligente sabiéndose todo el texto que hay en Internet, pero imagínate si también codificas toda la información y capacidades de los vídeos de YouTube, redes sociales o imágenes. Fundamentalmente, aprende cómo funciona el ser humano y cuál es la información que estamos generando”, explica González.

Albertos toma como ejemplo para explicar el potencial de estos modelos, como el nuevo Marengo 3、 そして silencio incómodo: “Puedes preguntarle que lo busque en una retransmisión concreta. Eso antes sería imposible de buscar por imagen o por sonido por separado. El contexto de ambas partes es lo que te da como resultado ese silencio”.

El siguiente paso de la multimodalidad, advierte González, será la interacción con el mundo, con procesos aplicados a entornos de robótica que no solo tendrán la capacidad de percibir y procesar la información, sino de actuar con ella.

AI - マルチモーダル処理 - 人工知能 - AI

De la eficiencia a la creatividad

Aún con todas las posibilidades que pueda arrojar el procesamiento multimodal y la IA, González y Albertos consideran que el primer paso que deben dar los broadcasters debe ser mejorar la eficiencia de sus procesos. Después, ya llegará el momento de la creatividad

“Pondría el foco en identificar cuáles son los consumidores de tiempo en las jornadas laborales de la gente que conforma las empresas y ver cómo se pueden solucionar esos problemas con las tecnologías”, apunta González, convencido de que esta área es en la que la IA puede demostrar con mayor solvencia su potencial. Después, llegará el momento de cambiar las reglas del juego.

Cuando llegue ese momento, quién sabe las posibilidades que habrán adquirido las herramientas de IA: “Si estos agentes y estos sistemas de inteligencia artificial nos permiten potenciarnos a la hora de destinar más tiempo a esos procesos creativos, lo que generen empresas, creadores de contenido o medios de comunicación tendrá mucha más riqueza”.

セルヒオ・フリアン・ゴメスによる記事

による、2026 年 3 月 12 日、セクション:オートメーション勉強メディア管理レポートテレビ

に関するその他の記事

この記事は気に入りましたか?

購読してください ニュースレター 何も見逃すことはありません。