VR课连载10 | 三维虚拟声音,大大增强你在虚拟现实中的沉浸感!

作者:admin 来源:VR必修课 2016-08-02
除了视觉以外,虚拟听觉是增强人在虚拟现实中的沉浸感和交互性的重要途径,虚拟听觉是怎么来的?学完本节课的三维虚拟声音技术知识,你们就会有基本的认识了。...

在虚拟现实系统中,听觉信息是仅次于视觉信息的第二传感通道,听觉通道给人的听觉系统提供的是声音显示,也是创建虚拟世界的一个重要组成部分。而虚拟环境中的三维虚拟声音与人们熟悉的立体声音有所不同。立体声虽然有左右声道之分,但就整体效果而言,立体声来自听者面前的某个平面,而三维虚拟声音则是来自围绕听者双耳的一个球形中的任何地方,即声音出现在头的上方、后方或者前方。因此在虚拟环境中,能使用户准确判断出声源的准确位置,符合人们在真实世界中听觉方式的声音系统称为三维虚拟声音。

三维虚拟声音的特征

三维虚拟声音的特征主要包括全向三维定位特性和三维实时跟踪特性。

(1)全向三维定位特性(3D Steering)。是指在三维虚拟环境中把实际声音信号定位到特定虚拟声源的能力。它能使用户准确地判断出声源的精确位置,从而符合人们在真实世界中的听觉方式。

(2)三维实时跟踪特性(3D Real-TimeLocalization)。是指在三维虚拟环境中实时跟踪虚拟声源的位置变化或虚拟影像变化的能力。当用户转动头部时,这个虚拟声源的位置也应随之变动,使用户感到声源的位置并未发生变化。而当虚拟发声物体移动位置时,其声源位置也应有所改变。因为只有声音效果与实时变化的视觉相一致,才能产生视觉与听觉的叠加和同步效应。

语音识别与合成技术

在虚拟现实系统中,语音应用技术主要是指基于语音进行处理的技术,主要包括语音识别技术和语音合成技术,它是信息技术处理领域的一项前沿技术。

语音识别技术

语音识别技术是指计算机系统能够根据输入的语音识别出其代表的具体意义,进而完成相应的功能。一般的方法是事先让用户朗读有一定数量文字、符合的文档,通过录音装置输入到计算机,于是计算机就准备好了用户的声音样本。以后,当用户通过语音识别系统操作计算机时,用户的声音通过转换装置进入计算机内部,语音识别技术便将用户输入的声音与事先储存好的声音样本进行对比。系统根据对比结果,输入一个它认为最“像”的声音样本序号,这就可以知道用户刚才念的声音是什么意义,进而执行此命令。因此通过语音识别技术,计算机可以“听”懂人类的语言。

一个完整的语音识别系统可大致分为以下三个部分。

1、语音特征提取。其目的是从语音波形中提取出随时间变化的语音特征序列。

2、声学模型与模式匹配(识别算法)。声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果。

3、语言模型与语音处理。语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。对小词表语音识别系统,往往不需要语言处理部分。

一般来说,语音识别的方法有3种:基于声道模型和语音知识的方法、模式匹配的方法以及利用人工神经网络的方法。

1、基于声道模型和语音知识的方法起步较早,在语音识别技术提出的初期,就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段没有达到实用的阶段。

2、模式匹配的方法发展比较成熟,目前已达到了实用的阶段。在模式匹配方法中,要经过特征提取、模式训练、模式分类和判断三个步骤。常用的技术有动态时间归正、隐马尔可夫理论和矢量量化技术三种。

3、利用人工神经网络的方法是20世纪80年代末期提出的一种新的语音识别方法,人工神经网络本质上是一个自适应非线性动力学系统,模拟了人类神经活动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性,其强大的分类能力和输入输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点,目前仍处于实验探索阶段。

语音合成技术

语音合成技术是将计算机自己产生的或外部输入的文字信息(如文本文件内容、Word文件内容等),按语音处理规则转换成语音信号输出,使计算机流利地读出文字信息,使人们通过“听”就可以明白信息的内容。也就是说,使计算机具有了“说”的能力,能够将信息“读”给人类听。这种将文字转换成语音的技术称之为文语转换技术(Text To Speech,TTS),也称为语音合成技术。

一个典型的语言合成系统可以分为文本分析、韵律建模和语音合成三大模块。主要功能是根据韵律建模的结果,从原始语音库中取出相应的语言基元,然后利用特定的语音合成技术对语音基元进行韵律特性的调整和修改,最终合成出符合要求的语音。

常用的语音合成方法,按照合成方法分类,分为参数合成法、基音同步叠加法和基于数据库的语音合成法。参数合成法是通过调整合成器参数实现语音合成的,基音同步叠加法是通过对时域波形拼接实现语音合成的。基于数据库的语音合成法是采用预先录制语音单元并保存在数据库中,再从数据库中选择并拼接出各种语音内容来实现语音合成的。

(本文根据苗志宏与马金强老师的课题设计资料整理,图片来自网络,欢迎转发朋友圈,交流请加VR辅导老师微信:aishangyema123 )

  • 连载,三维,虚拟,声音,大大,增强,你在,虚拟现实,中的,沉

VR观察网声明: 任何转载的稿件我们都会标注作者和来源;转载我们原创文章请注明作者和来源。


网友评论

热文榜单