哈工大教授刘挺：自然语言处理的十个发展趋势

CCAI 2017《自然语言处理的十个发展趋势》演讲实录摘编

本文由中国人工智能大会（CCAI）投稿并经数据分析网编辑发布，作者：刘挺哈尔滨工业大学教授

趋势1：语义表示——从符号表示到分布表示

自然语言处理一直以来都是比较抽象的，都是直接用词汇和符号来表达概念。但是使用符号存在一个问题，比如两个词，它们的词性相近但词形不匹配，计算机内部就会认为它们是两个词。举个例子，荷兰和苏格兰这两个国家名，如果我们在一个语义的空间里，用词汇与词汇组合的方法，把它表示为连续、低维、稠密的向量的话，就可以计算不同层次的语言单元之间的相似度。这种方法同时也可以被神经网络直接使用，是这个领域的一个重要的变化。

从词汇间的组合，到短语、句子，一直到篇章，现在有很多人在做这个事，这和以前的思路是完全不一样的。

有了这种方法之后，再用深度学习，就带来了一个很大的转变。原来我们认为自然语言处理要分成几个层次，但是就句法分析来说，它是人为定义的层次，那它是不是一定必要的？这里应该打一个问号。

实际工作中，我们面临着一个课题——信息抽取。我之前和一个单位合作，初衷是我做句法分析，然后他们在我的基础上做信息抽取，相互配合，后来他们发表了一篇论文，与初衷是相悖的，它证明了没有句法分析，也可以直接做端到端的直接的实体关系抽取，这很震撼，不是说现在句法分析没用了，而是我们认为句法分析是人为定义的层次，在端到端的数据量非常充分，可以直接进行信息抽取的时候，那么不用句法分析，也能达到类似的效果。当端到端的数据不充分时，才需要人为划分层次。

趋势2：学习模式——从浅层学习到深度学习

浅层到深层的学习模式中，浅层是分步骤走，可能每一步都用了深度学习的方法，实际上各个步骤是串接起来的。直接的深度学习是一步到位的端到端，在这个过程中，我们确实可以看到一些人为贡献的知识，包括该分几层，每层的表示形式，一些规则等，但我们所谓的知识在深度学习里所占的比重确实减小了，主要体现在对深度学习网络结构的调整。

2019年4月
谷歌团队公布了Translatotron，它是第一个可以直接实现从一种语言到另一种语言语音转换的端到端模型。它还能在翻译后的语音中保留原说话者的声音。谷歌希望这项研究可以作为今后端到端语音翻译系统研究的起点。

趋势3：NLP平台化——从封闭走向开放

以前我们搞研究的，都不是很愿意分享自己的成果，像程序或是数据，现在这些资料彻底开放了，无论是学校还是大企业，都更多地提供平台。NLP领域提供的开放平台越来越多，它的门槛也越来越降低。

语音和语言其实有很大的差别，我认识的好几位国内外的进入NLP的学者，他们发现NLP很复杂，因为像语音识别和语音合成等只有有限的问题，而且这些问题定义非常清晰。但到了自然语言，要处理的问题变得纷繁复杂，尤其是NLP和其他的领域还会有所结合，所以问题非常琐碎。

2019年7月
腾讯开放了自然语言处理云平台，整合了腾讯顶级NLP技术（包括 AI Lab、信息安全团队、AI平台部、翻译君和知文团队自研等等），依托于海量中文语料累积，全面覆盖了从词法、句法到篇章等各个粒度的NLP能力。

趋势4：语言知识——从人工构建到自动构建

AlphaGo告诉我们，没有围棋高手介入他的开发过程,到AlphaGo最后的版本，它已经不怎么需要看棋谱了。所以AlphaGo在学习和使用过程中都有可能会超出人的想像，因为它并不是简单地跟人学习。

美国有一家文艺复兴公司，它做金融领域的预测，但是这个公司不招金融领域的人，只是招计算机、物理、数学领域的人。这就给了我们一个启发，计算机不是跟人的顶级高手学，而是用自己已有的算法，去直接解决问题。

但是在自然语言处理领域，还是要有大量的显性知识的，但是构造知识的方式也在产生变化。比如，现在我们开始用自动的方法，自动地去发现词汇与词汇之间的关系，像毛细血管一样渗透到各个方面。

2018年11月
谷歌在github上开源了其最强的NLP模型BERT。该模型在在11项NLP测试中刷新了较高成绩，甚至全面超越了人类的表现。在模型训练阶段，BERT就使用到了自动构建的方法。

趋势5：对话机器人——从通用到场景化

最近出现了各种图灵测试的翻版，就是做知识抢答赛来验证人工智能，从产学研应用上来讲就是对话机器人，非常有趣味性和实用价值。

这块的趋势在哪里？我们知道，从Siri刚出来，国内就开始做语音助手了，后来语音助手很快下了马，因为它可以听得到但是听不懂，导致后面的服务跟不上。后来国内把难度降低成了聊天，你不是调戏Siri吗，我就做小冰就跟你聊。但是难度降低了，实用性却跟不上来，所以在用户的留存率上，还是要打个问号。

现在更多的做法和场景结合，降低难度，然后做任务执行，即希望做特定场景时的有用的人机对话。在做人机对话的过程中，大家热情一轮比一轮高涨，但是随后大家发现，很多问题是由于自然语言的理解没有到位，才难以产生真正的突破。

2019年
《麻省理工科技评论》发布的 “全球十大突破性技术”预测榜单中，阿里小蜜作为目前世界上用户数领先的智能客服机器人入选。“阿里小蜜”集合了阿里巴巴集团淘宝网、天猫商城、支付宝等平台日常使用规范、交易规则、平台公告等信息，是一个在店家服务场景下的对话机器人。

趋势6：文本理解与推理——从浅层分析向深度理解迈进

Google等都已经推出了这样的测试机——以阅读理解作为一个深入探索自然语言理解的平台。就是说，给计算机一篇文章，让它去理解，然后人问计算机各种问题，看计算机是否能回答，这样做是很有难度的，因为答案就在这文章里面，人会很刁钻地问计算机。所以说阅读理解是现在竞争的一个很重要的点。

2018年12月
阿里AI在MS MARCO挑战赛中，经过阅读理解能力测试，创造了人工智能新纪录。这项权威比赛包含100多万个问题和300多万篇文档，相当于参赛机构提供的人工智能模型需要阅读完维基百科中的所有文章。测试结果显示，阿里AI模型在英文阅读理解比赛中得分排名第一，接近人类理解水平。