自动语音识别

随着经济的全球化,国际交流的日益频繁,以及网络技术的发展,人类活动极大依赖于通信媒体,包括互联网、广播电视网以及有线/无线电信网等,这些网络上包含了海量的语音数据,人们迫切希望从中迅速、准确地获取自己感兴趣和有价值的信息。当前对语音信号的内容信息提取和分析基本还是依赖于人工转写。自动语音识别技术,特别是针对自然口语的自动语音识别技术,能够较好的满足人们的信息需求,但是发展相对滞后,制约了语音内容信息的充分利用。因此,发展自动语音识别技术已成为国家经济发展和国际交流的迫切需求。

本方向围绕国家重大需求,研究声学建模、语言建模以及解码器的核心算法。针对自然口语的语音识别是目前面临的重要挑战之一。相对与朗读式语音,自然口语具有很多独特的发音现象,主要包括:词的发音有了更多的变异、不流畅、不完全符合语法规范等。自然口语的这些特点决定了语音识别有很多急需解决的问题。鲁棒性是语音识别面临的另一个挑战。实际数据中往往包含了大量的非语音噪声。根据噪声的来源,如何提高语音识别系统对环境的鲁棒性的问题,是系统能否进入实用化的关键点,同样也是难点。针对多语言的语音识别是面临的第三个挑战。资源受限是多语言语音识别所面临的核心问题之一,如何解决目标语种语言学知识缺乏、标注数不足的问题,快速构建目标语种的语音识别系统,是当前面临的困难。

研究目标:针对上述三个挑战,要突破语音识别在自然口语对话、环境噪声等方面面临的瓶颈,探索多语言语音的物理规律,建立多语言语音识别研究基地,为国家”一带一路”战略等重大需求提供技术支撑。