下载客户端

什么时候人和机器能好好聊天？这个得问问俞栋博士

俞栋/腾讯AI Lab副主任、西雅图人工智能研究室负责人

2017-05-31 15:15

全球智库 >

【编者按】

为什么你和苹果siri对话总是答非所问？

人与机器什么时候才可以好好聊天？

嗯，关于语音识别这个问题，还是需要专业人士可以说得清楚。

腾讯AI Lab副主任、西雅图人工智能研究室负责人俞栋博士5月27日在全球机器智能峰会发表了《语音识别领域的前沿研究》的演讲，探讨分享了语音识别领域的四个前沿问题。俞栋认为，虽然语音识别在过去几十年里取得了一定进步，如今机器也已经在电话聊天这样的任务上达到甚至超过人的识别水准，但是离真正的人与机器的自由交流还有一定差距。

腾讯AI Lab副主任、西雅图人工智能研究室负责人俞栋腾讯供图

以下是俞栋演讲的主要内容（技术宅们看过来，终于有你们看得懂的干货了）：

语音识别是一个有着悠久历史的研究领域，在过去的几十年里，研究人员从最简单的小词汇量朗读语音识别问题 Read Speech 开始，逐渐走向更加复杂的 Broadcast Speech 和 Conversational Speech语音识别问题。如今，即便是在以前认为非常难的电话自由聊天这样形式的语音识别问题上，机器也已经达到甚至超过人的识别水准。但是我们要看到，虽然取得了这些进展，但离真正的人与机器的自由交流还有一定差距，这也就是为什么语音识别的研究前沿需要继续往前推进一步。

如今我们研究的语音识别问题越来越没有环境、说话风格、口音、词汇等限定（不像以前有非常多的限制），这极大地增加了语音识别的难度，同时研究的前沿也从近场麦克风转向远场麦克风。两者的区别在于，在远场情况下，当人的声音传达到麦克风时，声音衰减很厉害。所以以前在近场麦克风很难见到的一些困难，在远场麦克风场景下就变得很明显。如果不解决这些问题，用户在很多的应用场合仍然会觉得语音识别效果欠佳。

今天我介绍一下在这样的背景下语音识别的一些前沿研究方向。

研究方向一：更有效的序列到序列直接转换的模型。

语音识别实际上是把语音信号的序列转化为文字或词的序列，所以很多人认为要解决这个问题，找到一个行之有效、序列到序列的转换模型就可以了。

从前的绝大部分研究是通过对问题做假设，然后据此在语音信号序列到词序列之间构造若干个组件，把语音信号序列逐步转换成词的序列。这些假设中的许多部分，比如短时平稳假设和conditional independence假设，在某些特定场合是合理的，但是在很多真实的场景下是有问题的。而序列到序列直接转换的模型背后的思路是说，如果我们去掉基于有问题的假设而设计的这些组件，然后以从训练数据中学到的转换模型来替换，就有可能找到更好的方法，使序列转换更准确。

这样做另外一个好处是整个的训练过程也可以变简单。

序列到序列直接转换的模型目前来讲主要有两个方向：方向一：CTC模型。

CTC模型十分适合语音识别这样的问题，因为它要求输出序列长度比输入序列长度要短很多。CTC模型还有一个优势，在传统的深度神经网络/隐马尔科夫混合模型中建模单元一般非常小，都在sub-phone级别。但是在CTC模型里面你可以相对自由地选择建模单元，而且在数据量足够大的情况下建模单元越大，识别效果反而会越好。

最近谷歌有一项研究从YouTube上采用几十万小时甚至上百万小时的训练数据量。CTC的模型可以不依赖额外的语言模型就能做到识别率超过传统的混合模型。但由于训练稳定性差，CTC模型相对于传统模型仍然更难训练好。

更有效的序列到序列直接转换的模型的第二个方向是：Attention 模型

Attention 模型首先把输入的语音信号序列转换成一个中间层的序列表达，在这个中间层序列表达上面，能够融合上下文信息，然后就可以基于这个中间层的表达用一个专门的、基于递归神经网络的生成模型来生成转换后的词序列。这个方法在机器翻译里面现在成为了主流方案，但是在语音识别里面它还是一个非常不成熟的技术，它目前有几个问题。

问题1：生成模型所依赖的信息在训练和解码时是不一致的。这使得在解码时错误会累加。所以目前比较适合短语的识别，对长的句子效果比较差。

问题2：Attention的窗口没有时序的限定，所以有时候要生成下一个词时，Attention 窗口反而跑到时间上更靠前的语音信号上去了。所以在做语音识别的时候，它的训练最后的结果相对来说非常不稳定。

那么如何解决这些问题？目前最佳的解决方案就是把 CTC 与 Attention 结合起来，这主要是因为CTC能保证时序信息，即后面的词一定是根据后面的语音信号生成的，由于编码部分是CTC 与 Attention共享的，这有助于 Attention模型所基于的中间表达能更好地生成识别结果。有意思的是在某些情况下两者结合的模型比CTC和Attention各自训练的效果都更好。

但是，即便把 CTC 与 Attention 两种模型结合起来，其效果与传统混合模型相比，依然没有太多优势。所以我们仍然需要解决一些问题。

问题一：在这样的架构下面，有没有更好的一些模型结构，或者是训练准则，能够比现有的CTC或者Attention模型更好。

问题二：当拥有的数据较少时，有没有办法建造一个结构，使得语言模型和声学模型紧密结合在一起。有语音信号时语言模型可以和声学模型一起训练，没有语音信号时，语言模型可以只用文本信息来训练。

问题三：如何利用各种语料的数据，整合起来训练一个更好的序列到序列转换模型。这可能需要在模型的很多层面上可以做迁移学习。

研究方向二：鸡尾酒会问题。

人在鸡尾酒会这样非常嘈杂的环境中能够把注意力集中在某一个人的声音上，屏蔽掉周围的说话声或噪音，非常好地听懂他/她要关注的那个人的说话声音。现在绝大部分的语音识别系统还没有这个能力。这个问题在近场麦克风并不明显，这是因为人声的能量对比噪声非常大，而在远场识别系统上，信噪比下降得很厉害，所以这个问题就变得非常突出，成为了一个非常关键、比较难解决的问题。

鸡尾酒会问题的主要困难在于Label Permutation，而这个问题目前有两个较好的解决方案：

方案一：Deep Clustering。

方案二：Permutation invariant Training。

但是在这些工作里我们只用到了单麦克风的输入信息。而我们知道麦克风阵列可以提供更多的信息，所以一个很重要的问题是如何有效地利用多麦克风信息来继续加强这些模型和方案的能力。第二个就是有没有办法能够找到一个更好的分离模型，因为现在大家用的还是LSTM，但是LSTM不见得是最佳模型。第三个问题是我们有没有办法利用其他的信息，比如语言和发音模型以及解码器里的信息来进一步提升它的性能。

研究方向三：持续预测与适应的模型。

第三个大家关注的热点是能否建造一个持续做预测并自适应的系统。我们之前做了一个模型叫PAC-RNN，它的好处是能够非常快地自适应，从而持续改进识别结果。但是这个模型由于递归神经网络的环路比较大，训练上比较困难。

所以现在的问题是如何建造一个更好的模型，它能够持续地做预测和自适应。它需要的特点是什么呢？一个是它能够非常快地做Adaptation并优化接下来的期望识别率。另外它要能发现频度高的regularities并把这些变成default model的一部分，不需要再做adaptation。还有就是我们有没有办法把大类的自适应模型用更好的方式压缩在模型里面，使得adaptation可以直接从这些模型开始而不是default model。

研究方向四：前后端联合优化。

第四个研究前沿有关远场识别以及如何做前端和后端更好的联合优化。目前来讲，前端的信号处理技术一般只用到当前状态下的语音的信号信息，这些信息的利用主要靠对声学物理规律的把握并基于一定的假设。而机器学习的方法能利用很多的训练集里学到的信息来建模，但是它一般不是基于物理原理的，对当前帧信息的使用比较弱。所以我们有没有办法把这两种方法比较好地融合在一起，这是目前很多研究组织发力的一个方向。

另外，我们有没有办法把前端的信号处理跟后端的语音识别引擎做更好的联合优化。因为前端信号处理有可能丢失信息，且不可在后端恢复。以前那种分别优化的策略可能对于前端来说是最优的，但是放在整个系统里就不是了。所以我们有没有办法做一个自动的系统，能够比较好地分配前后端的处理，使得前端可以有效提升信号质量但同时比较少地丢失信息，而把一些剩余的噪声留给更强大的后端来处理，从而提升整体性能。

校对：施鋆

澎湃新闻报料：021-962866

澎湃新闻，未经授权不得转载

我要举报

#腾讯 #AI #俞栋 #人工智能 #语音识别