实验室概况

中国科学院语言声学与内容理解重点实验室(以下简称实验室)依托中国科学院声学研究所,其前身是成立于2002年的一个语音实验室。自成立以来,一直以满足国家重大需求和推动我国在该领域的学科前沿为己任,经过16年的艰苦奋斗,从最初的6人发展成为包含51名固定人员、总人数120余人的科研力量(为本学科最大的国立研究单元)。固定人员中研究员10人、副研究员12人,其中“百人计划”入选者3人,国家杰出青年基金获得者1人,“新世纪百千万人才工程”国家级人选1人,科技支撑项目首席科学家1人,海外留学归国人员11人。实验室是中科院战略性先导专项“面向感知中国的新一代信息技术”媒体内容项目的牵头单位。实验室布局于音频听感知、语音识别和面向声学应用的大数据分析等方向,全方位覆盖了以音频为核心的媒体内容理解研究内容。

实验室取得了一系列的科研成果,累计获得授权发明专利70余项、PCT受理5项、软件著作权登记100余项,有40余项发明专利正在审查中。已在高水平国际国内期刊和国际会议发表论文400余篇,其中SCI论文80余篇,EI论文200余篇。获得省级科技进步一等奖三项、中国科学院杰出科技成就奖一项、国家科技进步奖二等奖一项。在国家有关部委举办的语音评测中多次获得第一,成果在多个国家工程得到实际应用并得到相关省部主要领导的高度评价。和知名企业合作率先推出了一系列的语音新产品,引领了语音产业发展的潮流。在智能终端领域,推出了智能电视交互系统;在互联网领域,先后跟国内三大互联网企业,即百度、腾讯和阿里巴巴,进行了卓有成效的合作,推出了语音输入、语音和音乐检索、语音客服等应用;在广电领域,实验室的连续语音识别引擎成为该行业主流企业的标配,被索贝、大洋集成到各自的媒资管理系统和多媒体信息检索系统,同时也被天脉聚源在其为电视台提供新闻素材整理服务的云平台中采用。实验室集成了包括语音识别、口语理解、对话交互管理和对话分析等的音频内容理解技术,在面向呼叫中心的自动客服和商业情报分析中得到应用推广,促进了呼叫中心的智能化发展。

实验室在音频内容分析核心技术方面建立了全面的、具有国际水平的开发工具和处理平台,主要包括非特定人大词表连续语音识别系统、语种识别系统、说话人识别/确认系统、识别置信度评价关键词检测系统、发音评估系统、固定音频检测系统、口语理解和对话系统、噪声消除系统、音频水印编解码系统、基于Hadoop的信息安全大数据分析系统等。同时自主设计研制了基于FPGA和DSP的多通道相位同步实时音频采集和处理系统,用于基于传声器阵列语音增强、定位和声场分析的研究和开发。建立了面向智能手机和智能电视的自然语音交互系统和试验平台。在基础资源数据库方面,建立了大规模的汉语、英语、朝鲜语、维语、日语等语种的语音基础资源数据库和音乐数据库。实验室目前拥有超一流的硬件设施。这些为开展音频信号和信息处理的科研提供了良好的基础。

实验室于2010年和2011年获批升级为中科院和北京市重点实验室,在实验室评估中取得优异成绩。