RTVE議長とサラゴサ大学がアルバイシン・チャレンジの結果を発表
議長によって開始された 2 番目の課題は、オーディオビジュアル分野、より具体的にはラジオとテレビのアーカイブに適用される人工知能の研究と開発の促進に焦点を当てています。
の活動の一環として、 RTVEチェア と サラゴサ大学の結果 アルバイシン RTVE チャレンジ 2020 テクノロジーの分野で 人工知能をオーディオビジュアル分野に応用。この日、各部門の受賞者が発表され、研究とビジネスのコラボレーションの価値が、視聴覚メディアのニーズに適した技術的ソリューションを実現するための必須原則として強調されました。この取り組みにより、RTVE は、科学コミュニティがデータにアクセスできるようにすることで、最先端技術の開発と研究への取り組みを促進することで、公共サービスへの使命を実証します。
ステージ上の挑戦
RTVE研究所で開催されたこのイベントには、RTVEの書記長、 ベロニカ・オーレ、サラゴサ大学学術政策担当副学長、 ホセ・アンヘル・カステヤノスの介入とともに、 ペレ ビラ、RTVE の技術戦略およびデジタル イノベーションのディレクター、および RTVE ドキュメンタリー基金のディレクター、 アルベルト・デ・プラダ。
この日は、以下のような主要な研究グループが出席しました。 ビボラボ (サラゴサ大学)、 大西洋 (ビーゴ大学) ヴィコムテック テクノロジー センター。これらのグループの研究者は、サラゴサ大学RTVE議長のエドゥアルド・リェイダ氏とともに、産業界、科学、企業の間に必要な協力について振り返り、視聴覚分野に適応した有用な技術を開発するためのアルバイシンRTVE 2020のような課題の関連性を強調した。
このイベントは、RTVEのベロニカ・オレ書記長とサラゴサ大学学術政策担当副学長のホセ・アンヘル・カステヤノスによって開会され、RTVEの研究への取り組みと、人工知能を促進するための産学連携の価値を強調した。ホセ・アンヘル・カステヤノス氏は、科学が進歩し続けるためには大量のデータが必要であることを強調し、この意味で、RTVEデータベース2020を通じてこのデータを科学界が利用できるようにするためにRTVEが行った多大な努力に感謝の意を表した。
アントニオ・ミゲル、サラゴサ大学からは、 過去 10 年間の人工知能 あなたのカンファレンスと一緒に 音声、画像、テキストを整理する人工知能...カーテンの後ろには何があるのでしょうか?。同氏はプレゼンテーションの中で、人工知能が仕事のあらゆる分野に強力に浸透しており、専門家の仕事の進め方に影響を与えていると述べた。そのため、それを使用する専門家の間でこのテクノロジーとその可能性に関する知識が深まれば深まるほど、有用で適応されたソリューションを開発する機会が大きくなります。
アントニオ・ミゲルは非常に生々しい方法で次のことを説明しました。 ニューラルネットワークの機能 そして、アルゴリズムを使用することで、学習を通じてプロセスをどのように改善できるかについても説明します。同様に、彼はトレーニング システム用に大量のデータを保有することの重要性を強調し、データがバイアスに寄与する可能性があると指摘しました。このようなバイアスを回避するために、データが適切な割合で表示されていることをどのようにして知ることができるのでしょうか?アントニオ・ミゲル氏は、これが可能になるまでは、技術者とユーザーはテクノロジーの使用には倫理的な影響があることを認識する必要があると考えています。ミゲル教授はまた、画像分類、テキストと画像の予測、またはリアルタイムでの広告の生成と埋め込みなど、メディア分野における AI の最も一般的なアプリケーションと、近年のその進化についても紹介しました。アントニオ・ミゲル氏は、研究、学習、結果の伝達を促進するためのRTVE-アルバイシンとの挑戦の重要性を強調して会議を終えた。
音声認識とマルチモーダル認識
この舞台裏の分析の後、これらのテクノロジーをメディアの舞台に投入する機会がやって来ました。 アルフォンソ・オルテガ サラゴサ大学出身、 ホセ・ルイス・アルバ ビーゴ大学の アイトール・アルバレス Vicomtech からの、オーディオビジュアル分野における人工知能の応用についての考察。アルフォンソ・オルテガは、人の声を検出できる技術に焦点を当て、ラベルを割り当てることで、メディア コンテンツ内の音声に対応するすべての断片を識別して復元できるようになりました。オルテガ教授は、アーカイブ内の音声を検索することは必ずしも子供の遊びではないため、これらのテクノロジーの成果だけでなく限界にも焦点を当てました。それどころか、これは複雑なタスクとなり、音響環境 (音楽、拍手、笑い声)、感情的な声、非常に短い介入、話者間の重複などの変動の結果として、システムが 10% ~ 20% の比較的高いエラー率を生成する原因となる可能性があります。ただし、ニュース番組、整然とした討論、インタビューなど、10% 未満のエラー率を取得できる環境もあります。最後に、Alfonso Ortega 氏は、私たちは堅牢なテクノロジーに直面していますが、パフォーマンスを向上させるには特定の問題に適応する必要があると指摘しました。
アルバ教授は次の点に焦点を当ててプレゼンテーションを行いました。 マルチモーダル認識つまり、音声、顔認識、画面上のテキスト認識、およびシーンが発生するコンテキストの認識と、メディア分野におけるその複数のアプリケーションの同時使用です。講演の中で彼は、前景に表示されない顔、分割画面、屋外シーン(ポーズや表情がスタジオほど一般的ではない)、声が対応しない画面上の顔の存在、または 2 人の人物間の合理的な類似性など、システムが直面するいくつかの困難を指摘しました。
ホセ・ルイス・アルバは、課題を構成するさまざまなプログラムの結果としてのアルバイシン-RTVE 2020の複雑さを強調したが、その一方で、問題がどこに集中しているかを特定するのに役立つと彼は指摘した。この意味で、同氏は、人物を識別する前段階として、オープンな環境での顔認識の難しさを強調したが、身分認識では、年齢に大きなばらつきがない場合には、人間よりも高い成功率が達成できることも強調した。オルテガ教授と同様に、ホセ・ルイス・アルバ氏も、音響効果が良く、カメラの動きが少なく、声の重なりが少ない、セットなどの単純な環境ではテクノロジーがすでに役に立っていることに同意しました。
音声処理
アイトール・アルバレスVicomtech テクノロジー センター出身の彼は、音声処理に専念しました。これらのテクノロジーにより、何が、誰が、いつ、どのように言われたのか (感情認識)、どのような音響環境で、どのような言語で言われたのかを理解することができます。このテクノロジーは、すでに Siri、Alexa、Cortana などのパーソナル アシスタントなどの日常的なアプリケーションに統合されていますが、メディア モニタリング、アクセシビリティを向上させるための字幕の生成、そしてもちろん、オーディオビジュアル コンテンツの復元とその保存のためのメタデータの生成など、オーディオビジュアル分野での特定の用途にも使用されています。アルバレス氏の意見では、これらのシステムが直面する主な問題は、正しく注釈が付けられたデータが利用できるかどうかに大きく関係しています。
認識システムは特定の領域に適応するとより効果的に機能するという事実を見失わずに、自発的な発話、辞書、話すリズム、演技された声、アクセント、方言によってこれらのテクノロジーのパフォーマンスがテストされます。多くのシステムは、特定の状況では人間のパフォーマンスを超える可能性がありますが、メディア分野への応用では、進化と改善が絶えず行われていることを考慮する必要がありますが、Red Bee Media (2018) の評価で得られたデータによれば、最大精度は通常約 90% です。結論として、アイトール・アルバレス氏は、多くのシステムは20%未満のエラー率を達成できるが、これらのシステムの適用は、字幕やアーカイブコンテンツのラベル付けの場合など、さまざまな状況で実行される可能性があるため、メディアがどの環境でより高いエラー率を必要とするかを理解する必要があると指摘しました。
技術者とユーザーのコラボレーション
これらのプレゼンテーションの後、メディアの分野、より具体的にはラジオやテレビのアーカイブの文脈において、最も適切なテクノロジーをどのように選択するかについて疑問が生じました。アルフォンソ・オルテガ氏は、技術者とテクノロジーユーザーの間で緊密な協力関係を確立し、前者がテクノロジー適用の状況とユーザーの真のニーズを理解できるようにする必要性を改めて強調した。重要なのは、作業を改善できるツールを生成することだと彼は述べました。
オセ・ルイス・アルバ氏は、特定の問題を対象としたアルバイシン-RTVE 2020のような課題を創出する必要性を強調したほか、より健全な競争を促進するために十分に宣伝され、国際団体を誘致できる、特定の分野に適した解決策の開発を可能にする優先順位を確立する必要性を強調した。この意味で、アイトール・アルバレス氏は、国内および国際的なハイレベルの研究グループの参加を強調し、この日に提示されたような課題は、これらの技術の実装に有用な指標を提供し、真のニーズが何なのか、技術が実験室から出た後の真の課題がどこにあるのかを研究グループに示すものであると指摘した。彼ら全員が、テクノロジーを早期に導入し、メディア部門自体、特にラジオとテレビのアーカイブがシステムの進化を定義し決定できるようにすることの重要性を指摘することに同意しました。したがって、早期導入は計画的な方法で行われます。これは、優先順位を特定し、結果に応じてタスクの難易度を上げ、それによってシステムのパフォーマンスを向上させることを意味します。この議論は、産業界と研究の連携を深める必要性という明確な結論で終わりました。
勝者
このような意見交換を経て、 カルメン・ペレス・セルヌダ、RTVE イノベーションおよび技術戦略担当副ディレクター、および エドゥアルド・リェイダ、サラゴサ大学の教授でRTVE-UNIZAR議長のディレクターが、アルバイシン-RTVE 2020チャレンジの結果を発表しました。カルメン・ペレス氏は、2017年以来サラゴサ大学のRTVE議長が行ってきた取り組みを強調し、この数年間の集中的な協力の中でRTVEが人工知能に関する重要な知識を獲得し、その進歩は人工知能に基づくソリューション実装のためのさまざまな入札の公開で達成されたことを強調した。
この意味で、カルメン・ペレス氏は、RTVEの技術戦略・デジタルイノベーション総局が、社内のさまざまな分野と協力して、RNEコンテンツのアクセシビリティを向上させるためのニュースの分割など、すでに運用されているサービスを推進していることを強調した。スポーツコンテンツや地域性を盛り込んだニュースの自動生成。領土センターが作成するスペイン語ニュースとバイリンガルニュースの自動字幕は、すでにバレンシアとバレアレス諸島で運用されており、間もなくガリシア語とバスク語でも導入される予定です。人口1,000人未満の町での地方選挙の報道など、今後数カ月以内に実施されるその他のサービス。 RTVE によって生成された情報コンテンツの分析に基づいて、SDG などのトピックに関連する情報を検出できる管理支援システム。または、RTVE アーカイブからの 11,000 時間以上のコンテンツの自動メタデータ。
エドゥアルド・リェイダ、サラゴサ大学RTVE議長ディレクターは、アルバイシン-RTVE 2020チャレンジの結果を発表し、以下を強調した。 11団体が参加、パンデミックによって引き起こされた複雑な状況にもかかわらず、結果の議論はIberspeech 2020会議に独自のスペースがあり、そのWebサイトで参加グループの出版物を参照できると指摘しました。この課題では 3 つのテクノロジーが評価されました。音声からテキストへの会話、日記作成、マルチモーダル日記作成。
2018年版と比較して、エンターテインメント番組の組み込みによりRTVEデータベースのコンテンツ量が増加し、音声へのアイデンティティの割り当てが追加され、挑戦の難易度が増加しました。参加者が使用したビデオとオーディオの形式は、RTVE アラカルトでサポートされている標準形式です。タスクの複雑さを説明するために、エドゥアルド・リェイダ氏は、「ハウ・ウィー・ラフ」、「ロス・デサユノス・デ・ラ・1」、「ヴァヤ・クラック」などの番組のクリップや、番組「インプレシンディブル」のオリジナル撮影の断片を見せた。
サラゴサ大学のRTVE議長がアルバイシンRTVEチャレンジ2020の結果を発表
7 チームが自動音声認識チャレンジに参加し、17 の異なるシステムが評価されました。 1 つを除くすべては、ニューラル ネットワークを使用して音響モデリングと言語モデリングを行うオープン システムである Kaldi に基づいています。このタスクのために、参加グループは 600 ~ 4,000 時間の音響モデルと 100,000 ~ 245,000 単語の言語モデルを使用してシステムをトレーニングしました。これにより、この種のタスクに必要なデータ量がわかります。
プログラムごとの最小ワードエラー率を見ると、次のようなサンプルが表示されます。 朝食 (7.9%)、 中央市場 (12.8%)、 スペイン語版 (13.3%) y ここが土地 (13.9%) は 20% 未満のエラー率を取得しました。 朝食 最低のエラー率を取得します。これは、研究中の有益な切断プログラムと最適な音響条件を使用したシステムの良好なパフォーマンスを示します。より高いエラー率に達するコンテンツのグループにはフィクション B があります。オカノース (33.3%)、 起きろ (31.8%)、 あなただったら (29%) およびアーカイブ プログラム 私たちはどのように笑うのか、ユーモアスケッチで構成されており、エラー率は 43.7% で、最高の結果が得られました。
評価されたシステムのパフォーマンスに焦点を当て、2018 年に得られた結果と比較すると、かなりの改善があったと断言でき、場合によっては、最も優れた機密システムなど、ほぼ 4 パーセント ポイントの改善が見られたと Lleida 氏は指摘しました。グループ バレンシア工科大学のMLLP-VRAIN ストリーミング システムにより平均エラー率 16.0% を達成したため、2018 年版と同様にこのチャレンジでも優勝しました。
話者ダイアライゼーション タスクは、音声を話者に分割し、その後、各話者に基づいてグループ化することを目的としていました。さらに、参加者は各フラグメントに ID を割り当てることもできます。 3 つのチームがこのタスクに参加し、5 つの異なるシステムが評価されました。主な困難は、わずか 20 秒間のリファレンスから 161 の音声を識別することです。このタスクでは、システムはダイアライゼーション エラー (DER) に従って評価されます。このメトリクスは、非常に要約すると、音声の断片を特定の話者に割り当てるときに自動システムが生成する削除、挿入、置換を考慮に入れます。
ダイアライゼーションのエラー率をプログラムごとに分析してみると、やはり難易度によって結果に大きな差があることがわかります。したがって、たとえば、次のような非常に優れたパフォーマンスを備えたプログラムが見つかります。 朝食 DER が 5.2% または ここが地球 14.5%でした。繰り返しになりますが、フィクション番組は DER 率が 61.6% という最悪の結果をもたらしました。 起きろ, 64.7% あなただったら または 64.2% ボカノルテ。 ID 割り当てタスクでは、プログラミング プログラムの方が良好な結果を維持しているにもかかわらず、結果は大幅に悪化しています。 朝食、アイデンティティ割り当てエラーは 35.6% でした。フィクション番組では、この誤差は 90% を超えます。
評価した各システムの平均ダイアライゼーション エラー率を分析すると、最も優れたシステムはサラゴサ大学の VivoLab グループが提示したシステムで、その率は 15.2% でした。一方、ID 割り当てタスクの結果は、Biometric Vox が提示した最良のシステムで 65% に達しましたが、これも提供された参考文献の最小期間の結果です。
マルチモーダルダイアライゼーションタスクの目的は、文字の閉じたセットに従ってメディアコンテンツをセグメント化し、同じ声と顔に対応するセグメントをグループ化することでした。オプションで、グループは、セット、屋外、昼、夜、冬、夏などの単純なシーンを特定して説明することもできます。3 つのグループがこのタスクに参加し、5 つの異なるシステムが評価されました。この場合、結果は他の 2 つのタスクと同様で、有益なプログラムやゆっくりとした討論でシステムのパフォーマンスが向上しており、このチャレンジで 2 回目の優勝者であるビーゴ大学の AtlantTic グループが提示したシステムの良好な機能が強調されており、今回は全プログラム全体で 53.1% の DER を獲得しました。ニュース番組とフィクション番組の間で差異が少なく、登場人物を顔で識別する最良の動作を強調する価値があります。最小の ID 割り当てエラーはプログラムに対するものです ここが地球 25.6% と最大値 現在のコマンド プログラムの世界平均は 44.5% であり、65.1% でした。なお、音声による人物識別では結果が大幅に悪化し、顔情報と音声情報を併用しているにもかかわらず、プログラム全体の平均DERは61.6%となっている。 2018 年版に比べて課題の難易度が上がったにもかかわらず、システムのパフォーマンスに顕著な向上が見られますが、これらの結果は、まだ改善の余地が大きいことを示しています。
エドゥアルド・リェイダ氏は、科学界でこの挑戦が好意的に受け入れられていることと、RTVEサラゴサ大学の議長がスペイン語で技術の促進に取り組んでいることを強調してスピーチを締めくくった。この結果はテクノロジーの最先端を示しており、今後数年間の目標は、他のタスクをサポートするためにデータセットを維持および拡張することです。技術は利用可能だがデータが必要であり、データはRTVE上にある、とリェイダ教授は強調した。
この日はRTVE研究所のYouTubeチャンネルを通じてライブで追跡することができ、RTVE技術戦略およびデジタルイノベーション担当ディレクターのペレ・ビラ氏とRTVEドキュメンタリー基金ディレクターのアルベルト・デ・プラダ氏によって締めくくられた。
ビラ氏は、RTVEサラゴサ大学の議長の尽力に感謝の意を表した。同氏はスピーチの中で、メディアにおける人工知能の活躍の場がますます大きくなっていると指摘し、これはRTVEコーポレーションがすでに利用できるリソースを補完する絶好の機会となることを強調した。
最後に同氏は、RTVEが現在スペインのさまざまな大学と維持している5つの議長を通じて、研究グループとの緊密な連携をどのように活用しているかを強調した。最後に、アルベルト・デ・プラダ氏は、この挑戦はドキュメンタリー基金が議長とともに行っている作業を反映したものであり、その結果、この技術がアーカイブの作業プロセスに組み込まれることになると指摘した。そうして初めて、RTVE アーカイブの保存とアクセスを継続的に進めることが可能になる、と同氏は述べた。
ヴァージニア・バザン・ギル
RTVEドキュメンタリー基金のプロジェクトマネージャー、RTVEサラゴサ大学委員長のメンバー
最初に掲載された記事 デジタル社会におけるニュース革新観測所(OI2)
この記事は気に入りましたか?
購読してください ニュースレター 何も見逃すことはありません。





















