华体会|IEEE院士MingC.Lin:VR中音频渲染模拟为何这么难?

本文摘要:虚拟现实(VR)技术的目的是获取如亲临其境般的沉浸于感觉体验,而到目前为止,不说道仍未能仿真的嗅觉、触觉,早已能在VR中体验获得的音频却并非如视觉极致。

华体会

虚拟现实(VR)技术的目的是获取如亲临其境般的沉浸于感觉体验,而到目前为止,不说道仍未能仿真的嗅觉、触觉,早已能在VR中体验获得的音频却并非如视觉极致。坚信体验过一些VR设备的用户不会找到,VR中的音频失真度较高。这些问题在2000年的时候就被意识到了。然而,为什么连解决方案都有了,VR音频的真实感仿真仍这么无以呢?以下是国际数字感官大会上,UNC讲席教授、IEEE院士Ming C. Lin的演讲节录,为了便于解读,部分内容有必要变动:VR视频变革了,声频还正处于80年代水平刚才袁昱博士也提及了跟踪和延后的问题,而另外的一个问题就是怎么样去建构一种体验,以及捕猎,很多人都没有解决问题这个问题。

此外,就是人与VR环境的对话。目前,VR/AR领域有很多早已积极开展的研究都是关于怎么样去表明的——视觉的展出。但是,触觉的话,就是一个十分有挑战性的话题,我们的皮肤是可以表达感官的,但要告诉怎么样去采样的话,就有可能要运营上千次的。

那么这个标准是怎么样的,很多台计算机才可以支出出来。我们尝试了有所不同的装置,在这个领域的研究里,你是开发者或者是研究者的话,你不会深受鼓舞地去研究这个领域的,但如果你是物理学家的话,你不会告诉这个是十分艰难的问题。

而今天要详尽谈的是,VR中我们的音频动态图形做得并很差。VR视频变革了,声频还正处于80年代水平。VR中方位有所不同、阻碍物不同时,声音是不一样的,而目前我们与声音是没任何交互的。

在VR系统里面体验一些内容的时候,有声音和没有声音的体验差异十分大,这意味著沉浸于感觉否深刻印象。想象一下,当我们正处于一个交互的VR环境中时,是怎么样利用声音的录音来制作效果的呢?——声音掌控在哪里?看视频如果没听见声音的话,你都不告诉再次发生了什么。VR也是一样的,你听得将近声音的话,你都不告诉他是再次发生了什么。

AR环境为确保视觉的 逼真度,动态图象要以每秒20-30帧的频率展开创下,单位时间内的刷新率则使图象具备一维的时间信息。为构建声音与图象的较好信息融合,必需使声音的三维方位信息与图象表明的三维信息互为融合,图象的创下时间与声音的时间信息互为融合。而最重要的是,如果我们人类要去感官这个声音,就是生理层面去感觉空间内的声音时,如何取得一个动态的感觉呢?如果声音无法动态图形,而是依赖外部配音来已完成的话,那么实际的声音轨迹不能是相同的2D效果,而非像现实一样能让我们辨别出有声音的来源、倾听的物质,也就是当视频画面需要移动了,但配音中的声音声源是相同的,这就大大降低了VR系统中的真实感。

另一方面,使用配音的话,无法百分百仿真每一个场景所需要产生的声音,比如当木头、金属、流体等一系列简单元素交叠撞击时,仿真配音不能是大体地已完成;并且,当在虚拟空间中,声音传送不会经过一些比如墙壁等的妨碍,那么这个配音是无法仿真的,所有这些导致的问题是失真度较高。最后,如果每一帧的声音都必须外部仿真再行给定,那么千千万万帧的内容将必须可观的配音工程。

而更大的问题的是,只不过耳朵的形状,就要求了每个人听见的声音都是不一样的。所以,我们必须做到的是依赖算法来融合人体生理条件自动动态图形分解场景中的声频。

必须建模、创建音频数据库、创建算法。难以实现的解决方案对声音建模的目的,就是用计算机分解的声音需要十分迫近真实世界中的声音。从频域上谈,二者的频谱分量要非常相似。任何真实世界中的声音都可看做许多幅值、振幅唯一的正弦波分量的混合,对声音的建模,可解读为对声音的频谱分析。

我们再行理解一下声音传播中数学函数和几何方面是如何展现出的:仿真声音时,必须用方程来计算出来声音传播的压力波,就是欧姆的4次方——这是十分低的一个频率,必须超级计算机来已完成计算出来,必须100倍升级CPU。荐个例子说道,在一个教堂中,仿效里面集中的声音不会用有所不同的材料,它们不会有有所不同的吸收率。因为材料的质量本质上是不一样的,有所不同的材料不会有有所不同的效果。

应当怎么样做到仿真呢?以流体声音为事例,目前的方案是利用许多材料来与一缸水碰撞,然后捕猎起这些单点水珠的声音素材,并转化成代码,那么日后经常出现的新环境中,计算机就能利用算法把有所不同的素材制备为合乎场景活动的声音。这所做到的,可以解读为声音的克隆。那么有了这样的模拟能力,VR就可以容许用户感觉在水中展开对话了,否则,用户在VR中游泳一点感觉都没。

那么伸延出去,有所不同的素材可以做到有所不同的声音仿真,对万物的仿真也某种程度必须海量的素材。又比如,珠子掉下来到木板上时,随着珠子的体积、形状、速度、质量的有所不同,其声音是有所不同的。

那么根据以往搜集的声源材料,比如各种木头之间互相碰撞、铁块与木块碰撞等等,来自动合成这个声音。所以说道,这面对的难题有两个层面:第一是基础建模的艰难,我们有海量的声源物体必须建模;第二是根据模型分解声音的算法艰难,简单的逻辑、极大的计算出来量。目前,我们所能做的是水流、滚珠等几个模型。此外,在建模环境中,要想要每时每刻仔细观察到运动中的实体,计算机分解的图象所对应的视点必需需要象电影镜头不时逆焦距那样动态转换,要超过声像的较好融合,听点应追随视点变化。

声音的听点动态转换在头部追踪中是十分适当的,当头部姿态变化时,为确保分解的虚拟世界声源的方位不应是一动的,必需偏移转换适当的头部脉冲响应函数。然而,可以说道,所有这些物理当中的声音,都可以通过仿真来逐一分解。

我们可以用这个技术来取得一个多通道的交互,所以说道这是一个多模态的交互。这个技术早已在进行研究了,未来将是一个突破的关键点、难题。原创文章,予以许可禁令刊登。

下文闻刊登须知。

本文关键词:华体会

本文来源:华体会-www.punbbturkiye.com

网站地图xml地图