Vision Project:一个雄心勃勃的沉浸式远程呈现项目
经过四年的紧张工作,由CDTI管理的西班牙工业、旅游和商务部的CENIT项目Vision刚刚取得了显着的成功,其目标是开发新一代通信系统,能够传输真实存在的感觉,使相隔很远的人们感受到物理聚集在同一个地方的感觉,无论是在家庭环境、中小企业还是大公司。
2007 年,VISION 诞生,它是工业、旅游和商务部的 CENIT 项目,由 CDTI 管理,属于西班牙政府 Ingenio 2010 项目的框架,旨在增加公共和私人研发投资。
该项目历时4年,旨在开发新一代通信系统,能够传递真实存在的感觉,让相隔很远的人们感受到物理聚集在同一个地方的感觉,无论是在家庭环境、中小企业还是大公司。
具有临场感的通信系统的发展无疑将有助于减少交通和实际旅行的使用,取而代之的是虚拟通信,但提供与面对面会议相同的感觉。通信系统的这些新功能为新形式的职业和个人关系打开了大门。它将改善社会和家庭关系,因为它有利于人际交往,即使是相隔很远的人之间。
该项目最引人注目的方面之一是,它是从多公司、多大学和多部门的角度构思的,由 Telefónica R&D 领导,ADTEL、AD Telecom、阿尔卡特朗讯、Anafocus、Brainstorm、DS2、Eptron、Ericson、PREVI、SAPEC、Solex Visión Artificial 和 Telnet 等十几家公司参与其中。仅举几所大学和技术中心,我们将重点介绍 I2CAT 基金会、光子科学研究所、VivomTech 以及巴利亚多利德大学、坎塔布里亚大学、卡洛斯三世大学、海梅一世大学、马德里自治大学以及加泰罗尼亚理工学院、巴伦西亚和马德里理工学院的项目。
Para poder evaluar los resultados de los estudios teóricos el proyecto llevó a cabo en las instalaciones de Telefónica I+D un sistema demostrador donde se pudiera evaluar de forma práctica los resultados teóricos obtenidos en áreas como la captura de realidad, el procesado AV, las tecnologías avanzadas de comunicación y de presentación de la realidad.
项目开发
El presupuesto global del proyecto Vision ha sido de 33 millones de euros, subvencionado en el 49.23% por el CDTI, participando unas 90 personas al año (más el personal aportado por las universidades asociadas) en cada uno de los cuatro años en los que se ha desarrollado.
El primer año del proyecto se dedicó a su lanzamiento y estudio de requisitos e interfaces. EL segundo año se focalizó en la investigación (estado del arte, funcionalidades, algoritmos, equipamiento…). Un año más tarde, el esfuerzo se centró en la integración de cada pieza, empezando a trabajar con los algoritmos, implantarlo, mejorarlos, pasando así de algo téorico a algo práctico capaz de correr en tiempo real. El último año se puso en marcha el demostrador final en el que poner en práctica todos los avances.
现在,一旦该项目的前四年结束,预计 CDTI 所满意的所有开发工作将继续下去,为未来开辟新的工作和研究领域,将所有这些努力转化为商业层面的实际解决方案。
为了了解该项目所涉及的所有努力,值得一提的是,已经生成了 195 份报告(最初提交了 139 份报告)、130 份实验资产(已提交了 81 份)、21 次联盟全体会议以及 TID、ALU、Sapec 和 AD Telecom 的 6 项专利申请。
该项目重点关注的三个示范场景是:住宅、娱乐和中小企业、大公司。
En entornos residenciales, el objetivo ha sido contar con una videoconferencia 3D de alta calidad con mínimos recursos pero diferencial de las existentes comercialmente. Para ello, sólo se han empleado un set frontal 3D con dos cámaras ofreciendo una visualización 3D con y sin gafas. Para estos entornos se ha desarrollado una interacción gestual (interfaz hombre-máquina), un complejo sistema de sonido 3D (síntesis de audio para recibir audio espacial coherente según el posicionamiento del interlocutor) y un práctico sistema para compartición simultánea de fotos, vídeos… con el otro extremo de la aplicación.
Otro de los escenarios sobre el que el proyecto Vision ha trabajado es el de la PYME a fin de ofrecer nuevas posibilidades más allá de la videoconferencia en escenarios de entertainment, formación… En este caso, se trabaja con varias cámaras con mayor complejidad de captura y comunicaciones a fin de contar con una videoconferencia inmersiva de alta calidad.
Partiendo de dos cámaras frontales y 18 cámaras reales se recrean cientos de puntos de cámara virtuales que aportan una conferencia inmersiva 3D multipunto (con tecnologías VC 3D y Free View Pint Video) y con varios escenarios virtuales 3D. La interfaz gráfica permite cambiar elementos gráficos en GUI,puntos de vista, grabaciones de sesiones….
En un escenario corporativo, el proyecto se ha enfocado en ofrecer una videoconferencia inmersiva de alta calidad orientada al sector empresarial con posibilidad de gestionar reuniones y llevar a cabo videoconferencias 3D multipunto con sonido 3D y escenarios virtuales seleccionables.
En un entorno colaborativo de trabajo (edición y visualización simultánea de contenidos 3D en tiempo real), quienes participan en la videoconferencia cuentan siempre con la posición relativa de los usuarios y un análisis de escena presencial que aumenta aún más la sensación inmersiva. Incluso se pueden recrear avatares fotorrealista de las personas que intervienen montando un avatar 3D partiendo de fotos.
[youtube]http://www.youtube.com/watch?v=sGWymOgjp9o[/youtube]
捕捉现实
该项目最有趣的方面之一是开发用于场景、地点、环境的数字采集的方法和技术,以便捕获迄今为止在通信中尚未考虑到的现实方面。
基于多摄像头架构,这一开发可以获取现实的三维模型并将其数字化。大量摄像机(共有 18 个单元)允许在一个房间内捕捉场景,在该房间的设计和尺寸方面投入了大量精力,照顾到所有细节,例如防反射罩、照明系统、金属结构和用于固定摄像机的锚定系统,以及必要的摄像机和电缆。
如此大量摄像机的使用使得设计一个用于同步摄像机拍摄的系统至关重要,以保证所有摄像机以协调的方式捕捉整个场景。
该项目指定、设计并构建了一个分布式触发系统,能够为每组摄像机生成不同的触发频率。
为了确保相机的完美校准,该项目开发了手动和自动系统,允许以最简单、最快的方式获得相机的内在和外在参数。为此,已经评估了具有高空间精度(亚像素精度)和时间精度的算法。
该项目还研究和设计了用于创建视频采集系统的技术,这些系统可以满足实时服务(例如 VISION 中指定的服务)的计算和延迟需求。这项活动的成果是一个实验性实时捕捉系统,主要由基于带有高性能 CMOS 传感器的相机的前端组成,通过标准高速接口连接到计算平台,并集成到具有实时多媒体处理算法的实验性捕捉系统中。
[youtube]http://www.youtube.com/watch?v=ae9S_pZBZSY[/youtube]
Análisis y procesado de vídeo
El proyecto ha servido también para desarrollar avanzadas tecnologías de análisis y procesado de vídeo que permitan enriquecer las imágenes capturadas posibilitando la percepción de la realidad por el usuario final y combinándola con elementos virtuales generados sintéticamente.
从多摄像机捕捉中获得视听捕捉系统的算法基础将允许实时构建现实的三维模型,该模型可以传输到远程对话者,以在后者中产生物理存在的感觉。为此,研究人员开发了模型来识别场景的背景并从图像中提取前景。前景提取是随后使用“轮廓形状”技术获得视觉外壳的重要工具。
使用场景背景的统计模型实现了从每个摄像机的角度观察到的前景感兴趣区域(ROI)的不同提取方法(分割)。这些算法提供了一个二元掩模(也称为轮廓)和一个地图,指示图像中每个像素属于“轮廓/对象”类或“场景背景”类的概率。
另一方面,该系统允许使用双目和多相机捕获来获取深度图(视差的倒数)。在双目捕获中,已经对不同的算法实现进行了原型设计(相位相关、橡胶匹配、图形切割等),并且对所述实现的计算和架构影响进行了实时分析。
在多相机捕捉中,通过使用三相机作为采集基元来探索先前算法的泛化。对于体积分析,已经实现了“轮廓形状”(SfS)类型的体积重建算法,该算法允许从源自每个相机轮廓的所有重投影锥体的交集获得视觉外壳。
从Visual Hull算法开始,进行了语义识别和手势界面,以便在各个层面上为系统添加智能:支持重建、合成元素的集成、与用户的交互、增值服务的生成……从而实现物体和人的定位、识别和跟踪、人类活动的识别(特别关注手势界面)以及基于领域本体的行为和交互的识别。
要实现沉浸式效果,音频也起着基础性的作用。为此,开发了一种声音系统,能够在一个房间中再现一个人在另一个房间中所拥有的相同的声学感觉,从而补充视频分量的处理,以实现具有临场感的通信系统。
沟通
显然,如果不能保证能够使用当前标准和技术连接两个远程点,包括联合管理多个视频流、高带宽、超低延迟以及提供有助于改善用户交互的服务,那么这种水平的项目就没有意义。
编码是信息传输的第一步,其中 Sapec 公司的技术发挥了决定性作用。在这一领域,已经提出了对新的多视图视频编码器和新的高质量视频编码器以及针对多个视频流的高效编码系统的研究。主要目标之一是最小化编码延迟,以避免对端到端传输的影响,从而提高会话服务的交互性。我们对 MPEG-2 和 H.264 视频编码进行了详细研究,并选择使用 H.264/AVC 及其 MVC(多视图视频编码)扩展。
该项目开发的通信网络是一个大容量、超低延迟的网络,能够满足严格的QoS要求。为了实现这一点,必须保证不同多媒体流所需的QoS配置文件,不仅在接入网络中,而且在分发网络和核心网络中。
通信网络的架构基于TISPAN提出的NGN(下一代网络)模型。该模型将通信网络的体系结构分为三个层次:访问层、控制层和应用层。传输和控制层提供高级交换和路由功能,访问控制层实现访问控制(NASS 子系统)以及资源管理和服务质量(RACS 子系统)功能等。
现实的呈现
VISION 项目研究了创新技术,允许对新一代视频通信系统捕获的场景进行真实重建,并设计和开发能够从距观看者不同距离的任何视角呈现三维图像的 3D 显示器。
在现实重建技术领域,在场景合成的实时图形方面取得了进展,研究了用于远程重建场景的混合现实技术,其中包括不同对话者共享的虚拟元素。
三维采集一旦被编码和传输,就会生成为渲染算法提供数据的数据源。由于所使用的捕获技术,这些拓扑并不总是由多边形几何形状组成,这使得不可能直接使用传统的表示算法,因此,在该领域建立了一条重要的研究路线。首先,捕获的信息中预计有三种不同的拓扑结构,因此研究了与每种情况相对应的合成技术:获取体素矩阵、允许从点云获取多边形几何形状的算法以及最终基于具有附加 3D 信息(特征点和每个像素的深度)的多个视频流的场景表示。
一旦完成了三维模型表示的渲染,例如使用“行进立方体”方法,就会执行从捕获系统接收到的纹理的投影。该项目研究了不同的纹理投影算法,最初通过“着色器”在体积上实现了单一纹理投影算法。
为了实现身临其境的现实感,真实和虚拟元素被集成在同一场景中。由于捕获过程,可以知道捕获的元素相对于全局参考系统的位置。这一事实使得整合局部合成元素成为可能,使它们与真实元素共存于场景中。为了获得合成图像和真实图像之间更好的集成,我们研究了嵌入、颜色调整和渲染算法,以实现使用 Chromakey 可实现的最大真实感。
Además, en este proyecto se han investigando los equipos de visualización encargados de mostrar el resultado gráfico final, lo que puede llevar a métodos especiales de renderización que puedan satisfacer los requerimientos de la imagen a visualizar.
En cuanto de displays, en el proyecto se ha trabajado con monitores convencionales 2D, 3D y 3D autoesteroscópico evitando el uso de gafas.
Sapec, en el proyecto VISION
Sapec, como la primera y única compañía española que ha diseñado sistemas de compresión de vídeo MPEG2 y H.264, ha participado activamente en el desarrollo del proyecto VISION aportando su experiencia y recursos en la investigación de sistemas de compresión.
Sapec 对研发的坚定承诺(超过其营业额的 20% 和员工总数的 30%)是该公司的标志之一,该公司拥有针对贡献网络和信号分配网络的全套解决方案。
对于这个项目,Sapec 与 E.T.S. 的图像处理组 (GTI) 进行了合作。马德里理工学院工程师。该小组在监控和为视频编码标准化小组做出贡献方面拥有丰富的经验。
所面临的挑战是分析和研究新的视频编码算法,该算法允许来自多个摄像机的视频信号通过新一代 IP 网络传输,以提供通信的真实感。
在另一个极端,这些信号必须被解压缩才能呈现给用户,以便用户真正感受到现实的感觉。最后,应该开发出能够通过硬件和软件集成到演示器中的设备,并使我们能够对研究结果进行评估。
由于 VISION 项目的目标之一不仅是将远程呈现引入业务环境,而且将远程呈现引入用户之间,因此有必要研究解决方案、算法和替代方案,以极低的延迟(保持现实感)并具有完美的同步和互操作性,以尽可能减少带宽(寻求最合适的压缩以保持视频的主观质量)。
在项目进展过程中,Sapec 提出了以组合方式实现自由视点视频(3D 模型+纹理)、立体(L+R)和自动立体(视图+深度)可视化的视频编码、传输、解码和同步解决方案。
也许最显着的进步之一是 H264 MVC(多视图编码)编码算法的开发。作为 Sapec 项目框架内的研究工作的结果,它开发了一种同步电信网络传输的数据流的方法,用于通过 IP 网络传输视频(正在申请专利)。该技术已在新的 FastIpSync IP 贡献解决方案中得到实施。
在 Vision 项目工作流程演示器中,Sapec 集成了用于编码和解码的硬件和软件解决方案,能够编码、解码、传输和同步场景的 3D 模型(由 18 个视频视图和一个体素模型组成)、2 个高清立体视图以及与它们相关的深度,以 H264 MVC 进行编码并根据 MPEG-C 标准进行传输,所有这些都是实时运行的。
这些系统集成到演示器中,基于来自 18 个摄像机的信号,对自由视点视频显示(采用 H264 编码的 18 个纹理和采用游程编码的体素)和 3D 正面显示(2 个视图+深度)中的视频进行编码和解码,同步所有视频流并允许通过 IP 协议传输所有视频流。另一方面,这些系统用于协商视频纹理渲染的视图选择。
你喜欢这篇文章吗?
订阅我们的 通讯 你不会错过任何东西。















![最短的一天 [ED+C]](https://www.panoramaaudiovisual.com/wp-content/uploads/2017/10/El-Dia-Mas-Corto-250x134.png)







