腾讯 AI Lab 副主任、西雅图人工智能研究室负责人俞栋日前发表观点:即使语音识别在过去取得了一定进步,如今机器也已经在电话聊天这样的任务上达到甚至超过人的识别水准,但是离真正的人与机器的自由交流还有一定差距。
俞栋还介绍了如今语音识别的四个前沿方向,包括更有效的序列到序列直接转换的模型、鸡尾酒会问题、持续预测与适应的模型以及前后端联合优化。
值得一提的是,腾讯AI Lab于2016年4月成立。作为腾讯公司级AI实验室,AI Lab专注于基础研究和应用探索的结合,语音识别正是其四大基础研究方向之一。腾讯西雅图研究室由AI Lab副主任、语音识别及深度学习领域专家俞栋博士领导,偏向语音识别及自然语言理解两大领域的基础研究。
俞栋是在参加全球机器智能峰会(GMIS 2017)期间透露上述观点的。他在发表《语音识别领域的前沿研究(Frontier Research of Speech Recognition)》的演讲时分享了语音识别领域的四个前沿研究方向。
他认为,如今语音识别的环境,以及声音衰减度等问题都是制约语音识别技术进一步发展的问题。“如今我们研究的语音识别问题越来越没有环境、说话风格、口音、词汇等限定(不像以前有非常多的限制),这极大地增加了语音识别的难度,同时研究的前沿也从近场麦克风转向远场麦克风。两者的区别在于,在远场情况下,当人的声音传达到麦克风时,声音衰减很厉害。所以以前在近场麦克风很难见到的一些困难,在远场麦克风场景下就变得很明显。如果不解决这些问题,用户在很多的应用场合仍然会觉得语音识别效果欠佳。”俞栋指出。
俞栋还介绍了如今语音识别的四个前沿方向,包括更有效的序列到序列直接转换的模型、鸡尾酒会问题、持续预测与适应的模型以及前后端联合优化。以鸡尾酒会问题为例,俞栋指出,人在鸡尾酒会这样非常嘈杂的环境中能够把注意力集中在某一个人的声音上,屏蔽掉周围的说话声或噪音,非常好地听懂他要关注的那个人的说话声音。现在绝大部分的语音识别系统还没有这个能力。
这个问题在近场麦克风并不明显,这是因为人声的能量对比噪声非常大,而信噪比下降得很厉害,所以这个问题就变得非常突出,成为了一个非常关键、比较难解决的问题。(原标题:腾讯AI LAB副主任俞栋:语音识别有四大前沿方向)