大学和公司携手发起一项独特举措:R+D+BIT
BIT 2016 展示了大约三十个大学和商业领域的研究项目,旨在寻找应用于视听行业的具有高附加值和增长潜力的新技术。
恰逢 2016 年 BIT 广播的第一天,RTVE 公司技术、创新和系统总监 Pere Vila 介绍了已提交至 R+D+BIT 倡议的 30 个研发项目。 2016年双边投资协定,专业视听技术展,由 IFEMA 于 2016 年 5 月 24 日至 26 日举办。
这些项目正在大学和商业领域开发,以寻找应用于视听行业的具有高附加值和增长潜力的新技术。
因此,R+D+BIT 计划希望认可构成视听研究领域的专业人士和实体的工作,他们在这个领域发挥着至关重要的作用,让社会了解最具创新性的项目。
由 Pere Vila 担任主席的遴选委员会考虑到所开展研究的机会,总共选出了 25 个项目;其对音像行业未来发展的影响能力;其应用潜力;其方法、方法或目标的独创性,以及将不同感兴趣的参与者聚集在一起并产生协作的能力。
通过一系列内容丰富的海报和演示会议,参观 BIT 2016 的人们将能够第一手了解这些项目的发展情况。
IP 音频和视频;合成语音识别和生成;使用应用于大数据的元数据;虚拟、增强和沉浸式现实;与物体的交互;神经科学;科学内容的制作和传播;自适应流媒体;舞台灯光;可达性;自动视频和音频分析; 360°生产;动作捕捉;内容的搜索、编目和推荐;互动电视的可用性;混合内容的同步...是应用于视听领域的一些工作领域,R+D+BIT 中选定的项目对此进行了调查。
各入选研究项目的主线详述如下:
空气质量均衡器
AEQ 正在与 Neogroupe 合作开发一个项目,其中分析了欧洲两个重要电台:西班牙国家广播电台和法国广播电台的广播中电话的使用情况。其目标是使广播电话系统适应用户的要求,同时考虑其与现有控制应用程序的集成,开发定制的控制协议。在这个得到 CDTI 支持的项目中,AEQ 与电话经理、技术总监、制作人、导演、控制员携手合作……
AEQ 在 RNE 工作室 102 中安装了一个操作模型,该模型对电话呼叫的播放以及与大型电话系统和数字交换机的互操作性进行参数化。
尤尼森
Eunison 项目(人类声音的广泛统一域模拟)的目标是利用现有的并行超级计算能力根据基本物理原理生成语音,该项目由拉萨尔大学 (Universitat Rmon Llull) 的 Grup de Recerca en Tecnologies Mèdia (GTRM) 以及 KTH、Gipsa-Lab、CIMNE (UPC) 和 FAU-Erlange 共同赞助。该系统基于喉部和声道的磁共振成像并求解相关方程,能够通过经过实验测试验证的统一仿真引擎生成声音。毫无疑问,这项有趣研究的最终目标是使能够重现我们的言语器官功能的梦想成为可能。
该研究的对象非常新颖且具有挑战性,因此它得到了欧盟委员会第七个 FP7 计划中的未来新兴技术 (FET) 计划的资助,拨款为 296 万欧元。
长远的观点包括开发适用于电影配音等视听内容生成的自然语音合成、虚拟角色的完全模拟(包括实际语音生成过程)、新的文化表达形式……
数码
DigiBit 和马德里音乐学院正致力于一个名为 MusicBit 的实用项目,该项目旨在创建一个包含各种流派音乐的元数据数据库,特别关注从中世纪至今的西班牙和欧洲古典音乐。虽然大多数互联网音乐提供商几乎不允许按艺术家、流派或歌曲/作品进行搜索,但该项目旨在推出一个包含 18 个元数据字段的数据库。迄今为止,世界上还没有数据库可以收集这些信息,并且可用于 iOS 和 Android 应用程序。目前,他们已经收录了超过 75,000 张唱片,并计划再添加 25,000 张古典音乐以及爵士乐、民谣、流行音乐和摇滚乐等其他流派。
头脑风暴
制作公司和广播公司在使用虚拟演播室时遇到的困难之一是所使用的设备和软件的复杂性。目前,只有大型内容制作商才有能力拥有能够启动虚拟场景的设备、工具和人力团队。为了“民主化”虚拟场景的使用,并简化其管理和处理,Brainstorm Multimedia 正在与瓦伦西亚理工学院一起开发 SmartSet 项目,该项目不仅降低了虚拟场景使用的复杂性,而且旨在促进市场的推出,用户可以在其中下载内容、模型和场景,并根据自己的需求进行个性化和调整。
另一方面,Brainstorm 与 RTVE、TVR 或 BlueSky 等多家广播公司、萨里大学或 IRT 等机构以及 Never.no 或 Signum 等公司合作,正在推动一个项目,其主要目标是将社交网络生成的内容与实时 3D 图形实时集成,开发一个完全集成的解决方案,收集来自所有社交网络的信息,对其进行适当的结构化,并在增强现实环境中以 3D 图形的形式表示,并具有交互的可能性主持人对他们进行了介绍。社交网络的日益普及,加上增强现实环境中 3D 图形的壮观特性,将为满足这一需求提供独特的机会,并为该行业提供独特的工具。
互动木偶
APACIA(儿童和青少年文化活动专业人士协会)的目标是与博物馆 I+D+C 以及数字文化和超媒体博物馆学实验室(康普顿斯大学)一起,通过基于《堂吉诃德·拉曼查》的现场数字木偶(化身)建立一种新的叙事语法,以收集数据和经验,从而实现新观众在电视上所需的真实、安全的互动性。
画
巴塞罗那拉萨尔校区(拉蒙鲁尔大学)的媒体技术研究小组 (GTM) 目前正在研究一种通过绘图连接的对象的新型交互方式。用户在移动设备上绘制他们想要交互的对象,并且允许他们这样做。此外,还可以同时与多个连接的对象进行交互,将它们置于上下文中。因此,用户的精神负担大大减轻,因为他们只需在设备上绘图,将其变成一个有用且非常简单的与视听产品交互的界面。
高动态范围
开发主要基于视觉科学并应用于视听行业的图像处理算法是欧洲研究委员会 (ERC) 与庞培法布拉大学 (UPF) 在 IP4EC(增强电影摄影图像处理)项目中合作的主要目标。该研究团队正在使用视觉感知和神经科学模型来操纵高动态范围(HDR)图像,根据每个屏幕的可能性调整颜色并优化图像的外观。他们还致力于广播和后期制作环境中的噪声消除和色彩稳定。随着 HDR 的发展,需要有方法来使用该技术并探索如何使其适应已经制作的内容(传统)。该项目由九名不同国籍和学科的专业人士组成的团队开发,于 2012 年在 ERC 启动补助金的框架内启动,并将于明年结束。
重新创造
Imageen 公司与弗朗西斯科·维多利亚大学和 UNED 一起开发了一个原型,用于通过虚拟现实 (RECREAT) 来重现创意过程。本研究旨在通过对作者创作过程的分析来开发艺术作品中的沉浸式技术。 RECREAT 致力于建立沉浸式和艺术作品阅读的模型,使塑造博物馆、艺术中心或跨媒体的模型成为可能……以网络 3.0 空间的典型叙事方式,在沉浸式过程中提供丰富且多重语义层面的作品。该项目可能会对艺术领域和 21 世纪文化机构模式中新的沉浸式技术和视听叙事的产生产生决定性影响。
云实验室
Hipermedia 实验室隶属于马德里卡洛斯三世大学,正在研究通过云计算技术在数据库中管理视频,创建、编辑、存储和发布交互式教学工具(例如演示和不同形式的评估问题)。鉴于视频和交互性作为教材设计中关键要素的增加,创建和存储演示文稿和在线工具的可能性以及从云编辑视频的机会提供了附加值。国际足联、亚足联以及日本、比利时和卡塔尔的足协已经使用该工具,它们的培训活动基于视频和“边做边学”的动态。
传输视频适配器
目前有各种专有解决方案以及用于自适应流媒体的国际标准 MPEGDASH。然而,需要一种无论使用何种解决方案都能够更容易地提供内容分发服务的解决方案。沿着这些思路,诺基亚和马德里理工大学正在开发Tranvideoadap项目,该项目旨在推广一个平台,允许根据自适应流方案从单个副本实时生成不同格式的视听内容,从而最大限度地减少所需的存储资源。这样,内容就可以实时适应客户的设备。
Transvideoadapt 平台提供了传统内容分发业务模型的替代方案,网络基础设施提供商可以将内容适应添加为服务,以适应每个时刻和设备所需的需求概况。此外,对 MPEG-DASH 的支持将有助于推进该标准作为综合技术解决方案的实施。
梅菲尔德
国际团结表演艺术学院项目主任 Marco Fidel Vargas 与凭借这一想法在 UNED 获得电子工程和机器人学荣誉的 Jesús Marcos García 一起,向 R+D+BIT 提交了一个由 UNED 赞助的项目,该项目以 MAFILED 为名,开发了一种表演空间照明的替代系统,无论是布景、剧院、礼堂......旨在确保在光线条件不佳的情况下流通的专业人士的通行。其伸缩梯形结构非常适合安全和工作照明,解决了窗帘和布景之间通道区域的黑暗问题。
多路混音
Peranoid 和瓦伦西亚理工大学的研究目标是对电影、电视或其他媒体中的视听材料的声音信号进行数字处理,以识别内容和当前播放时刻,以便(通过耳机和智能手机)与主屏幕的替代配音同步。与 Shazam 的做法一致(在本例中应用于音乐识别),对于 Multidub,除了识别视听内容之外,它还允许用户使用与广播不同的配音来收听他们观看的内容。它的发起人强调,这个想法将使配音行业民主化,在以前无法进入的地方将其货币化。
成立不到一年,MultiDub 已被两个欧洲加速平台(CreatiFI 和 IMPACT)和 Lanzadera 加速器(由商人 Juan Roig 推动)选中。
社会图谱神经营销
Analytic System 3.0 系统由 Sociograph Neuromarketing 与巴利亚多利德大学合作开发,可在视听内容播出前对其有效性进行验证和客观测量。经过多年的经验和研究,该团队开发了一种独特的分析方法,通过使用算法,能够衡量对目标受众的影响。 Mediaset España 等大型视听集团已经测试了这种方法,以更好地验证和优化其视听产品的营销,分析结果为 100% 成功。
超高清制作
卡洛斯三世大学、胡安·卡洛斯国王大学、康普顿斯大学以及 709 Mediaroom 正在开发一个项目,以阐述有关新视听制作技术及其与超高清相关的工作流程的理论建议。提高视觉和声音表现质量的新国际标准将对视听行业的所有子行业产生重大影响,但也将影响数字艺术家的所有创作过程和工作流程,不断发展表达和叙事形式。领先于这些变化是该工作组的主要目标之一。
智能管理系统
用于智能广告、高级导航和用户分析 (smArDS) 的场景分割解决方案。 Ugiat Techbologies 和加泰罗尼亚理工大学的团队以这个名称为基础,使用基于低级描述符和计算学习算法的技术自动分析视听内容。通过这种方式,他们寻求将视频分层分解为场景、镜头变化、短语……从而找到导航或插入广告的最佳点。通过这种方式,除其他问题外,在非线性电视环境中,可以避免随机插入广告的问题,这种广告通常会在单词或动作中间打断内容,此外还可以通过自然直观的方式通过场景、镜头、短语进行后退或前进,从而改善播放器的浏览体验。
smArDS 被设计为软件产品,分析视频并提取相关元数据,确定插入广告的最佳点或广告完成率最高的点,甚至根据视听元数据确定用户配置文件。
泽尼特-MOCAP
米格尔·德·塞万提斯欧洲大学的一个研究小组正在开发应用于电影、电视和视频游戏的动作捕捉 (MoCap) 技术。 Zenit-MoCap技术希望成为一种通过获取真实演员或角色的动作直接创建动画的工具。 Zenit-MoCap 基于加速度、磁力和数字罗盘 3D 惯性运动传感器,在第三方软件(Maya Unity Motion Builder)的唯一帮助下,可以实时集成 3D CGI。
该项目的新颖之处在于,它不仅限于两个立体相机(Kinect 风格),而是利用惯性系统来收集关节的加速度,甚至可以纠正感知偏差,而无需复杂的相机捕捉系统。通过不依赖摄像机,可以最大程度地减少盲点和所捕获物体的信息丢失。
VIYOU
韦尔瓦大学和阿尔梅里亚大学正在研究协作视频注释的使用,即一个用户所做的注释可以轮流由另一个用户进行评论,依此类推。研究团队旨在建立一种在线协作内容学习方法。该方法包括协作内容平台 (Viyou) 和用于内容访问和身份验证的硬件系统,为用户提供来自任何设备的快速且可扩展的体验。这种体验旨在通过生成可从任何连接到互联网的媒体(包括智能电视)访问的协作可重用内容来保证教师和学生之间的协作性质。
透露
通常,研究人员的工作不会到达在很大程度上为其提供资助的社会。因此,维戈大学的一个项目致力于促进研究领域和社会之间的信息传递。他们建议使用基于 2D 和 3D 动画的有吸引力的视听技术,可以严格重现调查过程和获得的结果。目前,Divulgare 项目的重点是环境和地球科学知识的传播,但它也可能适用于其他研究领域,结合任何类型的算法和流程。
索引和语义搜索
维戈大学多媒体技术小组和信息社会服务小组开发了一个项目,旨在通过视频、音频和文本的综合处理来改进视听内容的搜索、编目和推荐。为此,他们推出了一系列多媒体和自然语言处理模块,并将其集成到视听存储库上的示范搜索和推荐平台中。
该工作团队基于这样的想法:绝大多数搜索引擎对视听文件中包含的大量信息完全视而不见,这就是为什么有必要开发强大的处理模块,允许提取元数据并建立索引以进行搜索和编目。为此,他们使用了先进的处理技术,例如自动转录、语义标签提取、语音和面部运动分析、字幕分析......
城市环境中的增强现实
萨拉戈萨大学开发的一个项目的目标是开发增强现实应用程序并在移动平台上实施,以重建城市环境中丢失或隐藏的文化遗产。针对增强现实的设备的出现以及为此目的智能手机的日益使用将伴随着对基于云和终端之间的分布式计算的新服务和应用的需求。
目前,增强现实移动应用程序基于 2D 标记或简单的预训练几何形状,这些问题可以通过可用智能手机的计算能力来解决。在这个项目中,最繁重的流程被转移到云端。目前,萨拉戈萨大学已经开发了一个试点项目,其中的应用程序允许您从阿拉贡首都圣费利佩广场的任何位置拍摄照片,并在同一张照片上看到失踪的新塔楼在其当前位置的重建效果。
互动电视中的可用性
马德里理工大学正在开展的一个研究项目的目标是巩固交互式数字电视和智能电视、电视3.0应用、OTT和IPTV服务的应用和服务的研发线,以及研究专注于OTT媒体和分发新环境的生产范式。在该项目中,概述了交互式数字电视技术支持的内容、应用和服务建设可以解决的问题。特别是,它寻求提供符合集体利益的开源解决方案,与改善与教育、健康、政府相关的人口福祉有关……重点是社会和数字包容性。该计划的新颖之处在于它涉及使用 SCORM 兼容的 TVDI 格式制作交互式学习对象。因此,将生成系统、编解码器、标准和外围设备,以评估电视和在线视频存储库的新功能。
混合同步
巴伦西亚理工大学正在开展混合和接收者间同步 (IDMS) 项目,以实现个性化、身临其境和共享的丰富多媒体体验。除其他方面外,它解决了以协调方式使用广播网络(例如 DVB)和宽带(例如互联网)以提供对相关多媒体内容的广泛且无处不在的访问时出现的主要挑战之一,突出了在一个或多个消费设备上对所述内容的信令和同步机制的需求。这将实现个性化、身临其境、互动和共享的电视体验。
值得注意的是,虽然HbbTv 2.0标准提供了基本的混合内容同步机制,无论是在单个设备上还是在多屏幕场景中,该项目为这些功能以及远程用户组之间的内容同步提供了先进且精确的解决方案。此外,在传统视听内容中添加香气等多感官元素,并集成AV会议工具以提高交互性。
玩家四人
为了促进将所有视听无障碍服务纳入作品中,并且每个用户都可以随意激活其中的每一项(音频描述、手语和字幕),以个性化的方式修改大小和布局,是胡安·卡洛斯国王大学与 CNLSE 和 EDSol Producciones 共同制定的 Player4All 项目的主要目标。
该项目将改善电视广播、视频点播或互联网广播的通信能力和视听无障碍性。 Player4All 已经制作了视频点播播放器,作为其工作的第一个成果。目前,它正在开发第二个版本,该版本将使用 HbbTv 标准处理实时视频。值得注意的是,目前没有其他播放器允许您自定义所有辅助服务。
我们自己
VSN 与庞培法布拉大学、德国广播公司德国之声以及多个欧洲实验室和研究中心合作,启动了 EUMSSI(通过多模态社交流解释进行事件理解)项目。它旨在为媒体提供一个平台,通过该平台可以直接访问已根据其主题对世界上发生的主要事件进行分析、解释和编目的数据和多媒体信息,以便提供经过验证和过滤的信息,使他们能够以更高的质量开展工作,而不会在通过众多在线资源搜索数据时浪费时间和资源。
EUMSSI 平台的技术承诺基于多模式分析系统,该系统有助于组织、分类和分组来自线上和线下媒体的信息流,以交互方式集成来自各种来源的内容,并通过相关元数据丰富内容。
EUMSSI 项目与其他包含多模式搜索的提案的一些实质性区别是其数据分解系统提供的互操作性和交互性,这要归功于尖端信息分析和提取技术的使用。该平台正在开源许可下开发。
嗓音
巴塞罗那拉萨尔校区(拉蒙鲁尔大学)正致力于一个集成文本到语音 (CTH) 和语音转换 (TrV) 技术的项目,以便通过直观的用户界面开发单一的个性化合成语音生成系统。这项技术的开发能够将任何文本消息转换为用户通过界面均衡器指示的所需类型的语音(儿童、机器人、男人、女人......),从所需语言的单个中性语音。在视频游戏制作等领域,Voixter 将使制作阶段的合成语音成为可能,从而降低成本和缩短工期,将配音干预留给最终制作阶段。即使该技术的合成质量允许更自然和更具表现力的声音,也有可能取代专业播音员。
你喜欢这篇文章吗?
订阅我们的 通讯 你不会错过任何东西。















