语音听觉感知

听觉是人们获取外部信息的重要途径,在人类进化和社会发展中起着重要作用。语音听觉感知一直是语言声学领域的一个重要研究课题。在复杂声学环境中,人类不仅能够快速准确地聚焦和理解感兴趣的声音信号,而且能够对所处的声学环境进行感知。深入研究多种复杂因素对语音听觉感知的影响机理,探索复杂声学环境下的语音感知机制及其建模方法,对深入探究人的语音感知科学研究具有重要意义。

据2016年3月公布的《全国听力障碍与耳病调查结果》,我国有15.84%的人患有听力障碍,其中中度以上听力障碍的人占到总人口数的5.17%。伴随着我国老龄化趋势加剧,听力障碍总现患率仍在进一步升高。努力使听障患者过上正常人的生活是实现”中国梦”的需求,以语音技术为核心的助听器具能够直接为听障患者带来福音。另一方面,随着互联网、云计算、大数据等技术的蓬勃发展,互联网的下一波浪潮被认为是”万物互联”。万物互联孕育了巨大的产业机会,其至少是当前无线互联网的十倍。在万物互联的时代,人工智能助手将成为入口。急需解决环境噪声、房间混响和多人干扰等问题,从而来提高语音作为人与人交流思想、沟通情感的最自然和最直接的手段的应用效果,智能语音交互当仁不让地正在成为万物互联时代的真正入口。此外,随着信息技术的进步,虚拟现实技术被认为是”下一代计算平台”。目前虚拟现实的研究与应用主要集中在视频技术,然而人类是通过五类感官与外部世界进行信息交互的,因此目前的虚拟现实远远不能到达真正的”沉浸式”用户体验。三维音频技术的加入,能够提高虚拟现实中用户体验约50%。因此,通过研究人对真实三维声学环境的感知机理,对研发先进三维音频技术、提升虚拟现实用户体验具有重要意义。

本方向的科学问题包括:复杂声学环境下,多种复杂因素对语音听觉感知的影响及其建模方法;人类对真实三维声学环境的感知机理及其表示方法;通过听觉感知实验,探寻声学事件的共性和个性。本方向主要研究人类语音听觉感知机制及其建模方法。说话人的发音质量、语音传输环境和听音人的听觉感知能力等都对语音感知具有重要影响,并且这些因素相互作用、相互影响;此外,作为语言的声学表现,不同语言语音中携带的语言信息也不相同,这些错综复杂的因素相互交叉在一起,严重影响了语音听觉感知和语音机器感知的性能,阻碍了语音处理系统的有效广泛应用。针对这些问题,研究上述多种复杂因素对语音听觉感知的影响机理,探索复杂声学环境下语音感知机制,对深入语音感知科学研究和发展智能语音处理技术都具有重要的理论与现实意义。

研究目标:在深入研究人的语音感知机理的基础上,利用物理建模、信号处理和模式识别等技术手段,研究语音听觉感知机制的建模方法及其应用中的关键技术,试图在语音听觉感知机理科学研究和语音信号处理关键技术等方面有所突破,为学科发展、满足国家战略需求和国民经济建设需求做出贡献