ja:lang="ja"
1
1
https://www.panoramaaudiovisual.com/en/2011/02/28/proyecto-vision-telepresencia-inmersiva-con-comunicaciones-de-video-de-nueva-generacion/

CDTIが管理するスペイン産業・観光・商務省のCENITプロジェクトであるVisionは、4年間の集中的な作業を経て、目覚ましい成功を収めて終了したところである。その目的は、国内環境、中小企業、大企業を問わず、遠く離れた人々が物理的に同じ場所に集まっている感覚を知覚できるように、現実の臨場感を伝達できる新世代の通信システムを開発することであった。

2007 年に、産業観光商務省の CENIT プロジェクトとして VISION が誕生しました。このプロジェクトは、公的および民間の研究開発への投資を増やすため、スペイン政府の Ingenio 2010 プロジェクト内で組み立てられた CDTI によって管理されています。

4年間続いたこのプロジェクトは、国内環境、中小企業、大企業を問わず、遠く離れた人々が物理的に同じ場所に集まっている感覚を知覚できるように、現実の臨場感を伝達できる新世代の通信システムを開発することを目的としている。

臨場感のあるコミュニケーションシステムの開発は、交通機関の利用や実際の移動を削減し、対面での会議と同じ感覚を提供するバーチャルコミュニケーションに置き換えることに間違いなく貢献します。コミュニケーション システムのこれらの新しい機能は、職業上および個人的な関係の両方の新しい形への扉を開きます。遠く離れた人々の間でも対人的な出会いが促進されるため、社会関係や家族関係の改善が可能になります。

このプロジェクトの最も注目すべき側面の 1 つは、ADTEL、AD Telecom、Alcatel-Lucent、Anafocus、Brainstorm、DS2、Eptron、Ericson、PREVI、SAPEC、Solex Visión Artificial、Telnet などの 12 社が参加する Telefónica R&D が主導し、複数の企業、複数の大学、複数のセクターの観点から考案されたことです。大学や技術センターのほんの一部を挙げると、I2CAT 財団、光科学研究所、VivomTech、バリャドリード大学、カンタブリア大学、カルロス 3 世大学、ジャウメ 1 世大学、マドリード自治大学、カタルーニャ工科大学、バレンシア大学、マドリード大学のプロジェクトにおける存在を強調します。

理論的研究の結果を評価するために、このプロジェクトでは、テレフォニカの研究開発施設で、リアリティ キャプチャ、AV 処理、高度な通信、およびリアリティ プレゼンテーション技術などの分野で得られた理論的結果を実際に評価できるデモンストレータ システムを実施しました。

プロジェクト開発

Vision プロジェクトの総予算は 3,300 万ユーロで、49.23% が CDTI によって補助され、開発された 4 年間で年間約 90 名 (および関連大学から提供される人員) が参加しました。

プロジェクトの最初の年は、その立ち上げと要件とインターフェイスの研究に専念しました。 2 年目は研究 (最先端、機能、アルゴリズム、機器など) に焦点を当てました。 1 年後、取り組みは各部分の統合に焦点を当て、アルゴリズムの操作、実装、改善を開始し、理論的なものからリアルタイムで実行できる実用的なものへと移行しました。昨年、すべての進歩を実践するための最終デモンストレーターが打ち上げられました。

プロジェクトの最初の 4 年間が終了すると、CDTI が満足している開発されたすべての作業が継続され、将来に向けた新しい作業と研究の分野が開かれ、このすべての取り組みが商業レベルでの実用的なソリューションに変換されることが期待されます。

このプロジェクトに関わるすべての努力を知るには、195 件のレポート (最初にコミットされた 139 件のうち) が生成され、130 件の実験資産 (81 件がコミット済み)、コンソーシアムの全体会議 21 件、および TID、ALU、Sapec、AD Telecom による 6 件の特許出願が行われたと言う価値があります。

プロジェクトが焦点を当てた 3 つの実証シナリオは、住宅、エンターテイメント、中小企業、大企業です。

住宅環境では、商業的に存在するものとは異なる、最小限のリソースで高品質の 3D ビデオ会議を行うことが目的でした。これを実現するために、2 台のカメラを備えた 3D フロント セットのみが使用され、メガネの有無にかかわらず 3D 表示が可能になります。これらの環境向けに、ジェスチャ インタラクション (ヒューマン マシン インターフェイス)、複雑な 3D サウンド システム (対話者の位置に応じてコヒーレントな空間オーディオを受信するオーディオ合成)、およびアプリケーションの相手側と写真やビデオなどを同時に共有するための実用的なシステムが開発されています。

Vision プロジェクトが取り組んだもう 1 つのシナリオは、エンターテインメントやトレーニングのシナリオでビデオ会議を超えた新たな可能性を提供する中小企業のシナリオです。この場合、高品質の没入型ビデオ会議を行うために、より複雑なキャプチャと通信を伴う複数のカメラと連携します。

2 台のフロント カメラと 18 台の実際のカメラから始まり、何百もの仮想カメラ ポイントが再作成され、没入型 3D マルチポイント会議 (VC 3D および Free View Pint Video テクノロジを使用) といくつかの 3D 仮想シナリオを提供します。グラフィカル インターフェイスを使用すると、GUI、視点、セッション記録などのグラフィカル要素を変更できます。

企業シナリオでは、このプロジェクトは、会議を管理し、3D サウンドと選択可能な仮想シナリオを備えた多地点 3D ビデオ会議を実行できる、ビジネス部門を対象とした高品質の没入型ビデオ会議の提供に焦点を当てています。

共同作業環境 (リアルタイムでの 3D コンテンツの同時編集と視覚化) では、ビデオ会議に参加している人は常にユーザーの相対位置を把握し、対面シーンの分析を行うことで没入感をさらに高めることができます。写真に基づいて 3D アバターを作成することで、関係者の写実的なアバターを再現することもできます。

[youtube]http://www.youtube.com/watch?v=sGWymOgjp9o[/youtube]

現実の捕捉

このプロジェクトの最も興味深い側面の 1 つは、これまでコミュニケーションで考慮されていなかった現実の側面を捉えるために、シナリオ、場所、環境をデジタル的に取得するための方法と技術の開発です。

マルチカメラ アーキテクチャに基づいたこの開発により、現実の 3 次元モデルの取得とデジタル化が可能になります。大量のカメラ (18 台のユニット) により、反射防止カバー、照明システム、金属構造、カメラを保持するための固定システム、必要なカメラとケーブルなどの細部にまで配慮し、デザインとサイズに多大な労力を費やした部屋でシーンを撮影することができます。

このように多数のカメラを使用する場合、すべてのカメラが協調してシーン全体を捉えることを保証する、カメラの撮影を同期するシステムを設計することが不可欠になります。

このプロジェクトでは、カメラのグループごとに異なるトリガー周波数を生成できる分散トリガー システムを指定、設計、構築しました。

カメラの完璧なキャリブレーションを確実にするために、プロジェクトは、カメラの内部パラメータと外部パラメータを可能な限り最も簡単かつ迅速な方法で取得できる手動および自動の両方のシステムを開発しました。このため、高い空間精度 (サブピクセル精度) と時間精度を備えたアルゴリズムが評価されています。

このプロジェクトでは、VISION で指定されているようなリアルタイム サービスにおける計算と遅延の要求を満たすビデオ取得システムを作成するためのテクノロジも調査および設計しました。この活動の成果は、標準の高速インターフェイスを介してコンピューティング プラットフォームに接続され、リアルタイム マルチメディア処理アルゴリズムを備えた実験用キャプチャ システムに統合された、高性能 CMOS センサーを備えたカメラをベースとしたフロントエンドで主に構成される実験用リアルタイム キャプチャ システムです。

[youtube]http://www.youtube.com/watch?v=ae9S_pZBZSY[/youtube]

ビデオの分析と処理

このプロジェクトは、キャプチャされた画像を豊かにし、エンドユーザーによる現実の認識を可能にし、それを合成的に生成された仮想要素と組み合わせることを可能にする高度なビデオ分析および処理テクノロジーの開発にも役立ちました。

マルチカメラキャプチャから視聴覚キャプチャシステムのアルゴリズム基盤を取得すると、リアルタイムで現実の三次元モデルを構築することが可能になり、それを遠隔の対話者に送信して、対話者に物理的な存在感を作り出すことができます。これを行うために、研究者はシーンの背景を特定し、画像から前景を抽出するモデルを開発しました。前景抽出は、その後、シルエットからの形状手法を使用してビジュアルハルを取得するために不可欠なツールです。

各カメラの視点から観察される前景の関心領域 (ROI) のさまざまな抽出方法 (セグメンテーション) が、シーンの背景の統計モデルを使用して実装されています。これらのアルゴリズムは、バイナリ マスク (シルエットとも呼ばれます) と、画像内の各ピクセルが「シルエット/オブジェクト」クラスまたは「シーンの背景」クラスに属する確率を示すマップを提供します。

Por otro lado, el sistema permite la obtención de mapas de profundidad (la inversa de la disparidad) utilizando tanto una captura binocular como multi-cámara. En captura binocular se han prototipado diferentes implementaciones de algoritmos (correlación de fase, “rubber-matching”, “graph cuts”, y otros), y se ha analizado las implicaciones computacionales y arquitecturales de dichas implementaciones en tiempo real.

En captura multi-cámara se ha explorando la generalización de los algoritmos anteriores trabajando sobre tríos de cámaras como primitivas de adquisición. Para el análisis volumétrico se han implementado algoritmos de reconstrucción volumétrica del tipo “Shape from Silhouette” (SfS), que permiten obtener el Visual Hull a partir de la intersección de todos los conos de reproyección originados a partir de de las siluetas de cada cámara.

Visual Hull アルゴリズムから始まり、セマンティック認識とジェスチャ インターフェイスは、再構築のサポート、合成要素の統合、ユーザーとのインタラクション、付加価値サービスの生成など、さまざまなレベルでシステムにインテリジェンスを追加するために実行されてきました。これにより、物体と人の位置特定、認識と追跡、人間の活動の識別 (ジェスチャ インターフェイスに特に注意を払う)、およびドメイン オントロジーに基づく行動とインタラクションの認識が達成されます。

没入型効果を実現するには、オーディオも基本的な役割を果たします。このため、人が別の部屋にいる場合と同じ音響感覚を室内で再現できるサウンドシステムが開発され、映像コンポーネントの処理を補完して臨場感のあるコミュニケーションシステムを実現しています。

コミュニケーション

明らかに、この規模のプロジェクトは、複数のビデオ ストリームの共同管理、高帯域幅、超低遅延、およびユーザー インタラクションの向上に役立つサービスの提供に関する現在の標準とテクノロジーで 2 つのリモート ポイントを接続できるという保証がなければ意味がありません。

Sapec 社のテクノロジーが決定的な役割を果たしているコーディングは、情報伝達の第一歩です。この分野では、新しい多視点ビデオエンコーダや新しい高品質ビデオエンコーダの研究が提案されており、複数のビデオストリームの効率的な符号化システムも提案されています。主な目的の 1 つは、エンドツーエンドの送信への影響を回避するためにコーディング遅延を最小限に抑え、これにより会話型サービスの対話性を向上させることです。 MPEG-2 および H.264 ビデオ コーディングの詳細な研究が行われ、MVC (MultiView Videocoding) 拡張機能を備えた H.264/AVC を使用することが選択されました。

本プロジェクトで開発した通信ネットワークは、要求される厳しいQoS要件を満たす大容量・超低遅延のネットワークです。これを実現するには、アクセス ネットワークだけでなく、配信ネットワークやコア ネットワークにおいても、さまざまなマルチメディア フローに必要な QoS プロファイルを保証する必要がありました。

通信ネットワークのアーキテクチャは、TISPANが提案するNGN(Next Generation Networks)モデルに基づいています。このモデルは、通信ネットワークのアーキテクチャをアクセス レベル、制御レベル、アプリケーション レベルの 3 つのレベルに構造化します。トランスポート層と制御層は高度なスイッチング機能とルーティング機能を提供し、アクセス制御層は特にアクセス制御 (NASS サブシステム) 機能とリソース管理およびサービス品質 (RACS サブシステム) 機能を実装します。

現実のプレゼンテーション

VISION プロジェクトは、新世代のビデオ通信システムによってキャプチャされたシーンの現実的な再構成を可能にする革新的な技術を研究し、また、視聴者からの距離が可変で、あらゆる角度からの 3 次元画像を表示できる 3D ディスプレイの設計と開発を研究してきました。

リアルな再構築技術の分野では、シーンを合成するためのリアルタイム グラフィックスの進歩の追求が進み、さまざまな対話者が共有する仮想要素を含むシナリオを遠隔から再構築するための複合現実技術が研究されています。

3 次元の取得は、エンコードされて送信されると、レンダリング アルゴリズムに供給するデータ ソースを生成します。使用されるキャプチャ技術により、これらのトポロジは常に多角形のジオメトリで構成されるとは限らず、そのため従来の表現アルゴリズムを直接使用することが不可能になります。そのため、この分野では重要な研究系統が確立されています。先験的に、取得された情報には 3 つの異なるトポロジーが予想されるため、各ケースに対応する合成技術が研究されます。ボクセル行列の取得、点群から多角形ジオメトリの取得を可能にするアルゴリズム、そして最終的に追加の 3D 情報 (各ピクセルの特徴点と深度) を含む複数のビデオ ストリームに基づくシーンの表現です。

Una vez realizada la renderización para la representación de los modelos tridimensionales, por ejemplo con el método del “Marching Cubes”, se realiza la proyección de texturas recibidas del sistema de captura. En el proyecto se ha trabajado en diferentes algoritmos para la proyección de textura, habiéndose implementado inicialmente un algoritmo de proyección de textura única sobre el volumen a través de “shaders”.

没入型の現実感を実現するために、現実の要素と仮想の要素が同じシーン内に統合されます。キャプチャ手順のおかげで、グローバル参照系に対するキャプチャされた要素の位置を知ることができます。この事実により、局所的な合成要素を、シーン内で実際の要素と共存するような方法で統合することが可能になります。合成画像と実際の画像をより適切に統合するために、埋め込み、色調整、レンダリングのアルゴリズムが研究され、クロマキーを使用して達成可能な最大限のリアリズムが実現されました。

Además, en este proyecto se han investigando los equipos de visualización encargados de mostrar el resultado gráfico final, lo que puede llevar a métodos especiales de renderización que puedan satisfacer los requerimientos de la imagen a visualizar.

En cuanto de displays, en el proyecto se ha trabajado con monitores convencionales 2D, 3D y 3D autoesteroscópico evitando el uso de gafas.

Sapec, en el proyecto VISION

Sapec, como la primera y única compañía española que ha diseñado sistemas de compresión de vídeo MPEG2 y H.264, ha participado activamente en el desarrollo del proyecto VISION aportando su experiencia y recursos en la investigación de sistemas de compresión.

La fuerte apuesta de Sapec por la I+D, que supera el 20% de su cifra de negocio y el 30% de su plantilla, es una de las señas de identidad de esta empresa que cuenta con una completa gama de soluciones tanto para redes de contribución como distribución de señales.

Sapec ha contado para este proyecto con la colaboración del Grupo de Tratamiento de Imágenes (GTI) de la E.T.S. de Ingenieros de la Politécnica de Madrid. Este grupo cuenta con una gran experiencia en seguimiento y contribución a grupos de estandarización de codificación de vídeo.

提起された課題は、複数のカメラからのビデオ信号を新世代 IP ネットワーク上で転送して、通信の現実感を提供できるようにする新しいビデオ コーディング アルゴリズムを分析および調査することでした。

反対に、これらの信号は、現実の感覚が実際にユーザーに知覚されるような方法でユーザーに提示するために解凍する必要がありました。最後に、HW と SW を通じてデモンストレーターに統合でき、研究結果の評価を実行できる機器を開発する必要があります。

VISION プロジェクトの目的の 1 つは、ビジネス環境だけでなくユーザー間でもテレプレゼンスを実現することであったため、帯域幅をできる限り削減し (ビデオの主観的な品質を維持するために最も適切な圧縮を模索し)、非常に低い遅延 (現実の感覚を維持) で完全な同期と相互運用性を実現するためのソリューション、アルゴリズム、代替案を調査する必要がありました。

プロジェクトの進行中、Sapec は、Free ViewPoint ビデオ (3D モデル + テクスチャ)、立体視 (L+R) および自動立体視 (View+Depth) 視覚化を組み合わせたビデオ エンコード、トランスポート、デコード、および同期のためのソリューションを提案してきました。

おそらく最も注目すべき進歩の 1 つは、H264 MVC (マルチビュー エンコーディング) エンコーディング アルゴリズムの開発です。 Sapec プロジェクトの枠組み内での研究作業の結果、IP ネットワーク上でビデオを転送するために、電気通信ネットワークによって転送されるデータ フローを同期する方法を開発しました (特許申請中)。このテクノロジーは、FastIpSync IP 貢献ソリューションの新しいラインに実装されています。

Vision プロジェクトのワークフロー デモンストレーターである Sapec は、エンコードとデコードのためのハードウェアとソフトウェアのソリューションを統合しており、シーンの 3D モデル (18 のビデオ ビューと 1 つのボクセル モデルで構成される) と、H264 MVC でエンコードされ MPEG-C 標準に従って転送される 2 つの HD 立体ビューとそれらに関連する深度のエンコード、デコード、転送、同期が可能で、すべてリアルタイムで動作します。

デモンストレーターに統合されたこれらのシステムは、18 台のカメラからの信号に基づいて、自由視点ビデオ ディスプレイ (H264 エンコーディングによる 18 個のテクスチャとランレングス エンコーディングによるボクセル) と 3D 正面ディスプレイ (2 ビュー + 深度) の両方でビデオをエンコードおよびデコードし、すべてのビデオ ストリームを同期し、IP プロトコルを介したすべてのビデオ ストリームの送信を可能にします。一方、これらのシステムは、ビデオ テクスチャのレンダリングのためのビューの選択をネゴシエートする役割を果たしてきました。

による、2011 年 2 月 28 日、セクション:サプリメントテレビ企業

この記事は気に入りましたか?

購読してください ニュースレター 何も見逃すことはありません。