fr:lang="fr-FR"
1
1
https://www.panoramaaudiovisual.com/en/2011/02/28/proyecto-vision-telepresencia-inmersiva-con-comunicaciones-de-video-de-nueva-generacion/

Après quatre années de travail intense, Vision, un projet CENIT du Ministère espagnol de l'Industrie, du Tourisme et du Commerce, géré par le CDTI, vient de se conclure avec un succès notable, dont l'objectif a été de développer une nouvelle génération de systèmes de communication qui permettraient de transmettre la sensation de présence réelle, afin que les personnes séparées par de grandes distances perçoivent la sensation d'être physiquement rassemblées au même endroit, que ce soit dans des environnements domestiques, dans des PME ou dans de grandes entreprises.

En 2007 est né VISION, un projet CENIT du Ministère de l'Industrie, du Tourisme et du Commerce, géré par le CDTI et encadré dans le cadre du projet Ingenio 2010 du gouvernement espagnol pour augmenter les investissements en R&D, tant publics que privés.

Le projet, qui a duré 4 ans, visait à développer une nouvelle génération de systèmes de communication qui permettraient de transmettre la sensation de présence réelle, afin que les personnes séparées par de grandes distances perçoivent la sensation d'être physiquement rassemblées au même endroit, que ce soit dans des environnements domestiques, des PME ou des grandes entreprises.

Le développement de systèmes de communication avec sentiment de présence contribuera sans aucun doute à réduire le recours aux transports et aux déplacements réels, en les remplaçant par des communications virtuelles offrant néanmoins les mêmes sensations qu'une rencontre en face à face. Ces nouvelles capacités des systèmes de communication ouvrent les portes à de nouvelles formes de relations professionnelles et personnelles. Elle permettra une amélioration des relations sociales et familiales puisqu’elle favorisera les rencontres interpersonnelles même entre personnes séparées par de grandes distances.

L'un des aspects les plus remarquables du projet est qu'il a été conçu d'un point de vue multi-entreprises, multi-universités et multisectorielle dirigé par Telefónica R&D auquel ont participé une douzaine d'entreprises telles que ADTEL, AD Telecom, Alcatel-Lucent, Anafocus, Brainstorm, DS2, Eptron, Ericson, PREVI, SAPEC, Solex Visión Artificial et Telnet. Pour ne citer que quelques centres universitaires et technologiques, nous soulignerons la présence dans le projet de la Fondation I2CAT, de l'Institut des Sciences Photoniques, VivomTech et des universités de Valladolid, Cantabrie, Carlos III, Jaume I, de l'Université Autonome de Madrid et des Polytechniques de Catalogne, Valence et Madrid.

Afin d'évaluer les résultats des études théoriques, le projet a réalisé un système de démonstration dans les installations de R&D de Telefónica où les résultats théoriques obtenus dans des domaines tels que la capture de la réalité, le traitement AV, les technologies avancées de communication et de présentation de la réalité ont pu être évalués de manière pratique.

Développement de projet

Le budget global du projet Vision a été de 33 millions d'euros, subventionné à 49,23% par le CDTI, avec la participation d'environ 90 personnes par an (plus le personnel fourni par les universités associées) au cours de chacune des quatre années de son développement.

La première année du projet a été consacrée à son lancement et à l'étude des exigences et des interfaces. La deuxième année s'est concentrée sur la recherche (état de l'art, fonctionnalités, algorithmes, équipements...). Un an plus tard, l'effort s'est concentré sur l'intégration de chaque pièce, en commençant à travailler avec les algorithmes, en les implémentant, en les améliorant, passant ainsi de quelque chose de théorique à quelque chose de pratique capable de fonctionner en temps réel. L’année dernière, le démonstrateur final a été lancé pour mettre en pratique toutes les avancées.

Maintenant, une fois terminées les quatre premières années du projet, il est probable que tout le travail développé, dont le CDTI a été agréablement satisfait, se poursuive, ouvrant de nouvelles lignes de travail et de recherche pour l'avenir, traduisant tous ces efforts en solutions pratiques au niveau commercial.

Pour avoir une idée de tout l'effort qu'a impliqué ce projet, il faut dire que 195 rapports ont été générés (sur les 139 initialement engagés), 130 actifs expérimentaux (81 avaient été engagés), 21 réunions plénières du consortium et 6 demandes de brevet par TID, ALU, Sapec et AD Telecom.

Les trois scénarios de démonstration sur lesquels le projet s'est concentré sont : le résidentiel, le divertissement et les PME, et les grandes entreprises.

Dans les environnements résidentiels, l'objectif a été d'avoir une vidéoconférence 3D de haute qualité avec des ressources minimales mais différentes de celles qui existent dans le commerce. Pour ce faire, seule une façade 3D avec deux caméras a été utilisée, offrant une visualisation 3D avec et sans lunettes. Pour ces environnements, une interaction gestuelle (interface homme-machine) a été développée, un système sonore 3D complexe (synthèse audio pour recevoir un son spatial cohérent selon le positionnement de l'interlocuteur) et un système pratique de partage simultané de photos, vidéos... avec l'autre extrémité de l'application.

Un autre scénario sur lequel le projet Vision a travaillé est celui de la PME afin d'offrir de nouvelles possibilités au-delà de la vidéoconférence dans des scénarios de divertissement, de formation... Dans ce cas, il fonctionne avec plusieurs caméras avec une plus grande complexité de capture et de communication afin d'avoir une vidéoconférence immersive de haute qualité.

À partir de deux caméras frontales et de 18 caméras réelles, des centaines de points de caméra virtuels sont recréés qui offrent une conférence multipoint 3D immersive (avec les technologies VC 3D et Free View Pint Video) et avec plusieurs scénarios virtuels 3D. L'interface graphique permet de modifier les éléments graphiques dans l'interface graphique, les points de vue, les enregistrements de sessions...

Dans un scénario d'entreprise, le projet s'est concentré sur l'offre d'une vidéoconférence immersive de haute qualité destinée au secteur des affaires avec la possibilité de gérer des réunions et de réaliser des vidéoconférences 3D multipoints avec son 3D et scénarios virtuels sélectionnables.

Dans un environnement de travail collaboratif (édition et visualisation simultanées de contenus 3D en temps réel), les participants à la vidéoconférence disposent toujours de la position relative des utilisateurs et d'une analyse de scène en face-à-face qui augmente encore la sensation immersive. Vous pouvez même recréer des avatars photoréalistes des personnes impliquées en créant un avatar 3D basé sur des photos.

[youtube]http://www.youtube.com/watch?v=sGWymOgjp9o[/youtube]

Capture de la réalité

L'un des aspects les plus intéressants de ce projet a été le développement de méthodes et de technologies pour l'acquisition numérique de scénarios, de lieux, d'environnements, afin de capturer des aspects de la réalité qui jusqu'à présent n'étaient pas pris en compte dans les communications.

Basé sur une architecture multi-caméras, ce développement permet d'obtenir et de numériser des modèles tridimensionnels de la réalité. Une mer de caméras (avec 18 unités) permet de capturer la scène dans une pièce dans laquelle beaucoup d'efforts ont été investis dans sa conception et son dimensionnement, en prenant soin de tous les détails comme une couverture antireflet, un système d'éclairage, une structure métallique et un système d'ancrage pour maintenir les caméras, ainsi que les caméras et les câbles nécessaires.

L'utilisation d'un si grand nombre de caméras rend indispensable la conception d'un système de synchronisation de prise de vue des caméras qui garantit que toutes capturent l'intégralité de la scène de manière coordonnée.

Le projet a spécifié, conçu et construit un système de déclenchement distribué, capable de générer différentes fréquences de déclenchement pour chaque groupe de caméras.

Pour assurer le parfait calibrage des caméras, le projet a développé des systèmes, manuels et automatiques, qui permettent d'obtenir les paramètres intrinsèques et extrinsèques des caméras de la manière la plus simple et la plus rapide possible. Pour cela, des algorithmes à haute précision spatiale (précision sub-pixel) et temporelle ont été évalués.

Le projet a également étudié et conçu des technologies pour la création de systèmes d'acquisition vidéo permettant de satisfaire les exigences de calcul et de latence des services en temps réel tels que ceux spécifiés dans VISION. Le résultat de cette activité est un système expérimental de capture en temps réel composé principalement d'un frontal basé sur des caméras dotées de capteurs CMOS haute performance connectés via des interfaces standards à haut débit à la plateforme informatique et intégrés dans un système de capture expérimental avec des algorithmes de traitement multimédia en temps réel.

[youtube]http://www.youtube.com/watch?v=ae9S_pZBZSY[/youtube]

Analyse et traitement vidéo

Le projet a également servi à développer des technologies avancées d'analyse et de traitement vidéo qui permettent d'enrichir les images capturées, permettant ainsi la perception de la réalité par l'utilisateur final et en la combinant avec des éléments virtuels générés synthétiquement.

L'obtention des bases algorithmiques du système de capture audiovisuelle à partir de la capture multi-caméras permettra, en temps réel, de construire un modèle tridimensionnel de la réalité pouvant être transmis à un interlocuteur distant pour créer chez ce dernier un sentiment de présence physique. Pour ce faire, les chercheurs ont développé des modèles permettant d’identifier l’arrière-plan de la scène et d’extraire le premier plan des images. L’extraction du premier plan est un outil essentiel pour obtenir ultérieurement la coque visuelle grâce à la technique Shape from Silhouette.

Différentes méthodes d'extraction (segmentation) des régions d'intérêt (ROI) du premier plan observées du point de vue de chaque caméra ont été mises en œuvre à l'aide de modèles statistiques du fond de scène. Ces algorithmes fournissent un masque binaire (appelé aussi silhouette) et une carte indiquant la probabilité que chaque pixel de l'image appartienne à la classe « silhouette/objet » ou à la classe « fond de scène ».

D'autre part, le système permet d'obtenir des cartes de profondeur (l'inverse de la disparité) en utilisant à la fois la capture binoculaire et multi-caméras. En capture binoculaire, différentes implémentations d'algorithmes ont été prototypées (corrélation de phase, correspondance de caoutchouc, coupes graphiques, etc.), et les implications informatiques et architecturales desdites implémentations ont été analysées en temps réel.

En capture multi-caméras, la généralisation des algorithmes précédents a été explorée en travaillant sur des trios de caméras comme primitives d'acquisition. Pour l'analyse volumétrique, des algorithmes de reconstruction volumétrique de type « Shape from Silhouette » (SfS) ont été implémentés, qui permettent d'obtenir la Coque Visuelle à partir de l'intersection de tous les cônes de reprojection issus des silhouettes de chaque caméra.

À partir des algorithmes de Visual Hull, la reconnaissance sémantique et les interfaces gestuelles ont été réalisées afin d'ajouter de l'intelligence au système à différents niveaux : prise en charge de la reconstruction, intégration d'éléments synthétiques, interaction avec l'utilisateur, génération de services à valeur ajoutée,... Ainsi, la localisation, la reconnaissance et le suivi d'objets et de personnes, l'identification de l'activité humaine (avec une attention particulière aux interfaces gestuelles) et la reconnaissance de comportements et d'interactions basées sur des ontologies de domaine sont réalisées.

Pour obtenir un effet immersif, l’audio joue également un rôle fondamental. Pour cette raison, un système sonore a été développé, capable de reproduire dans une pièce les mêmes sensations acoustiques qu'une personne aurait si elle se trouvait dans une autre pièce, complétant ainsi le traitement du composant vidéo pour réaliser le système de communication avec un sentiment de présence.

Communication

Évidemment, un projet de ce calibre n'aurait pas de sens sans la garantie de pouvoir relier deux points distants avec les normes et technologies actuelles en matière de gestion conjointe de plusieurs flux vidéo, de bande passante élevée, de latence ultra-faible et d'offre de services qui contribuent à améliorer l'interaction des utilisateurs.

Le codage, où la technologie de l'entreprise Sapec a été décisive, est la première étape dans la transmission de l'information. Dans ce domaine, des recherches sur de nouveaux encodeurs vidéo multi-vues et de nouveaux encodeurs vidéo de haute qualité ont été proposées, ainsi que sur des systèmes de codage efficaces pour plusieurs flux vidéo. L'un des principaux objectifs est de minimiser le délai de codage afin d'éviter l'impact sur la transmission de bout en bout et ainsi d'améliorer l'interactivité des services conversationnels. Une étude détaillée du codage vidéo MPEG-2 et H.264 a été réalisée, en choisissant d'utiliser le H.264/AVC, avec son extension MVC (MultiView Video Coding).

Le réseau de communication développé dans le cadre du projet est un réseau haute capacité et à latence ultra faible, capable de satisfaire aux exigences strictes de QoS exigées. Pour y parvenir, il a fallu garantir le profil de QoS requis par les différents flux multimédias, non seulement dans le réseau d'accès, mais également dans les réseaux de distribution et le réseau cœur.

L'architecture du réseau de communication est basée sur le modèle NGN (Next Generation Networks) proposé par TISPAN. Ce modèle structure l'architecture du réseau de communication en trois niveaux : le niveau d'accès, le niveau de contrôle et le niveau application. Les couches de transport et de contrôle fournissent des fonctions avancées de commutation et de routage, et la couche de contrôle d'accès met en œuvre, entre autres, des fonctions de contrôle d'accès (sous-système NASS) et de gestion des ressources et de qualité de service (sous-système RACS).

Présentation de la réalité

Le projet VISION a étudié des techniques innovantes permettant des reconstructions réalistes de scènes capturées par des systèmes de communication vidéo de nouvelle génération, ainsi que la conception et le développement d'un affichage 3D capable de représenter une image tridimensionnelle sous n'importe quel angle de vue à une distance variable du spectateur.

Dans le domaine des technologies de reconstruction réaliste, des progrès ont été réalisés dans la recherche de progrès dans le graphisme en temps réel pour la synthèse de scènes, dans la recherche de techniques de réalité mixte pour la reconstruction à distance de scénarios incluant des éléments virtuels partagés par les différents interlocuteurs.

L’acquisition tridimensionnelle, une fois codée et transmise, génère la source de données qui alimente les algorithmes de rendu. En raison des techniques de capture utilisées, ces topologies ne peuvent pas toujours être constituées de géométries polygonales et cela rend impossible l'utilisation directe des algorithmes de représentation traditionnels. Une ligne de recherche importante est donc établie dans ce domaine. A priori, trois topologies différentes sont attendues dans les informations capturées et donc des techniques de synthèse correspondant à chaque cas sont étudiées : l'obtention de matrices de voxels, des algorithmes permettant d'obtenir des géométries polygonales à partir de nuages ​​de points et enfin la représentation de scènes basées sur plusieurs flux vidéo avec des informations 3D supplémentaires (points caractéristiques et profondeur de chaque pixel).

Une fois réalisé le rendu pour la représentation des modèles tridimensionnels, par exemple avec la méthode « Marching Cubes », on réalise la projection des textures reçues du système de capture. Le projet a travaillé sur différents algorithmes de projection de texture, ayant initialement implémenté un seul algorithme de projection de texture sur le volume via des « shaders ».

Pour obtenir une sensation de réalité immersive, des éléments réels et virtuels sont intégrés au sein d’une même scène. Grâce à la procédure de capture, il est possible de connaître les positions des éléments capturés par rapport à un système de référence global. Ce fait permet d'intégrer des éléments synthétiques localisés de telle manière qu'ils coexistent dans la scène avec les éléments réels. Pour obtenir une meilleure intégration entre les images synthétiques et réelles, des algorithmes d'intégration, d'ajustement des couleurs et de rendu ont été étudiés pour atteindre le réalisme maximum réalisable avec Chromakey.

De plus, dans ce projet, l'équipement de visualisation responsable de l'affichage du résultat graphique final a été étudié, ce qui peut conduire à des méthodes de rendu spéciales capables de satisfaire les exigences de l'image à afficher.

En ce qui concerne les écrans, le projet a fonctionné avec des moniteurs 2D, 3D et 3D autostéréoscopiques conventionnels, évitant ainsi l'utilisation de lunettes.

Sapec, dans le projet VISION

Sapec, en tant que première et unique entreprise espagnole à avoir conçu des systèmes de compression vidéo MPEG2 et H.264, a participé activement au développement du projet VISION, en apportant son expérience et ses ressources dans la recherche de systèmes de compression.

Le fort engagement de Sapec dans la R&D, qui dépasse 20% de son chiffre d'affaires et 30% de son effectif, est l'une des caractéristiques de cette entreprise qui dispose d'une gamme complète de solutions pour les réseaux de contribution et de distribution de signaux.

Pour ce projet, Sapec a bénéficié de la collaboration du Groupe Traitement d'Image (GTI) de l'E.T.S. d'Ingénieurs de l'École Polytechnique de Madrid. Ce groupe possède une vaste expérience dans la surveillance et la contribution aux groupes de normalisation du codage vidéo.

Le défi consistait à analyser et à étudier de nouveaux algorithmes de codage vidéo qui permettraient de transporter les signaux vidéo provenant de plusieurs caméras sur des réseaux IP de nouvelle génération afin de donner une idée de la réalité de la communication.

À l’autre extrême, ces signaux devaient être décompressés pour être présentés à l’utilisateur de telle manière que cette sensation de réalité soit réellement perçue par l’utilisateur. Enfin, il faudrait développer des équipements qui, grâce au matériel et au logiciel, pourraient être intégrés au démonstrateur et permettre de procéder à une évaluation des résultats de la recherche.

Puisque l'un des objectifs du projet VISION était d'apporter la téléprésence non seulement aux environnements professionnels mais aussi entre utilisateurs, il a été nécessaire d'étudier des solutions, des algorithmes et des alternatives pour réduire au maximum la bande passante (en recherchant la compression la plus appropriée pour maintenir la qualité subjective de la vidéo) avec une latence très faible (en maintenant la sensation de réalité) et avec une synchronisation et une interopérabilité parfaites.

Au cours de l'avancement du projet, Sapec a proposé des solutions d'encodage, de transport, de décodage et de synchronisation vidéo pour la visualisation Free ViewPoint Video (Modèles 3D + textures), stéréoscopique (L+R) et autostéréoscopique (Vue+Profondeur) de manière combinée.

L’une des avancées les plus notables est peut-être le développement de l’algorithme de codage H264 MVC (multi-view encoding). Fruit des travaux de recherche menés dans le cadre du projet Sapec, elle a développé une méthode de synchronisation des flux de données transportés par un réseau de Télécommunications pour le transport de vidéo sur réseaux IP (en cours de brevet). Cette technologie a été implémentée dans la nouvelle gamme de solutions de contribution IP FastIpSync.

Dans le démonstrateur de workflow du projet Vision, Sapec a intégré des solutions matérielles et logicielles d'encodage et de décodage, capables d'encoder, décoder, transporter et synchroniser un modèle 3D de la scène (composé de 18 vues vidéo et un modèle voxel), et 2 vues stéréoscopiques HD et la profondeur qui leur est associée codées en H264 MVC et transportées selon la norme MPEG-C, le tout fonctionnant en temps réel.

Ces systèmes intégrés dans le démonstrateur, basés sur le signal des 18 caméras, ont encodé et décodé la vidéo à la fois dans l'affichage Free View Point Video (18 textures avec encodage H264 et voxels avec encodage runlength) et dans l'affichage frontal 3D (2 vues + profondeur), synchronisant tous les flux vidéo et permettant la transmission de tous via des protocoles IP. D'autre part, ces systèmes ont servi à négocier la sélection des vues pour le rendu des textures vidéo.

Par, 28 février 2011, rubrique :Suppléments, Télévision Corporative

Avez-vous aimé cet article ?

Abonnez-vous à notre BULLETIN et vous ne manquerez de rien.