终身机器学习：一种可持续学习的范式

作者：Infaraway

前言：

最近发现了一篇很有意思的论文，有关集成学习中的可持续性的研究，这里翻译了一下，供了解和学习使用

刘兵：美国芝加哥大学的计算机科学教授。他的研究包括情绪分析和意见挖掘、终身机器学习、数据挖掘、机器学习和自然语言处理。他目前担任ACM SIGKDD的主席，ACM Fellow, AAAI Fellow, and IEEE Fellow。

下面是正文内容：

引言：

机器学习(ML)对数据分析和人工智能(AI)的广告都有帮助。最近，深度学习的成功使它达到了一个新的高度。在工业、科学和工程领域，几乎所有的应用程序都成功地使用了ML算法。

目前对ML的主流范例是在给定的数据集上运行一个ML算法来生成一个模型。该模型随后应用于现实生活中的任务中。我们把这种范式称为孤立学习，因为它不考虑任何其他相关的信息或过去的知识。这种孤立学习的根本问题在于它没有记忆。它不保留过去的知识，并利用它来帮助未来的学习。因此，需要大量的训练样本才能有效地学习。对于监督学习，训练数据标签通常是手工完成的，这是非常耗费人力和时间的。由于世界上有太多可能的任务，因此几乎不可能为每个任务标记大量的示例，以便进行一个ML算法来学习。更糟的是，每件事都在不断变化，因此标签需要不断地进行，这是一项艰巨的任务。当前的孤立学习模式可能不适合构建一个真正智能的系统，但只适合在非常狭窄的领域中解决问题。

我们人类似乎学到了很多不同的东西。我们从不孤立地学习。相反，我们总是保留并积累过去学到的知识，并在未来的学习中无缝地使用它。随着时间的推移，我们学习得越来越多，知识越来越渊博，学习越来越有效。终生机器学习(简称LML)(简称终生学习)旨在模仿人类学习过程和能力。这种类型的学习是很自然的，因为我们周围的事物都是紧密相关的和相互关联的。过去的概念和它们之间的关系可以帮助我们更好地理解一个新的主题，因为很多事情在不同的领域和任务中都是共享的。例如，我们人类不需要1000个正面评价和1000个负面评论，因为一个ML算法需要建立一个精确的分类来识别关于电影的负面评论和负面评论。事实上，对于这个任务，如果没有单独的训练回顾，我们就可以执行分类任务了。怎么能这样呢?原因很简单。这是因为我们在过去已经积累了很多关于人们如何赞扬和批评事物的知识，尽管这些赞扬和批评可能都是在线评论的形式。事实上，如果没有过去的知识，人类可能很难在2000年的积极和消极的训练评估中手动建立一个好的分类器。

终身机器学习的定义：

定义：终身机器学习(LML)是一个连续不断的学习过程，在这个过程中，学习者已经完成了N个学习任务，T1，T2，..TN。当面对(N+1)的任务TN+1和它的数据DN+1时，学习者可以利用其知识库(知识库)(内存)中的先验知识来帮助学习TN+1。知识库存储并维护在过去学习N个任务时所学习和积累的知识。在学习了TN+1之后，知识库更新了从TN+1中学习的(中间和最后的)结果。

陈等人[1]的这一定义表明，LML的关键特征是 1)持续学习，2) 知识积累在知识库(知识库)中，3)利用知识库中的知识来帮助未来的学习。这些特点使它有别于其他相关的学习任务，如转移学习[2]和多任务学习[3]。

迁移学习(TL)：使用一个源域来帮助一个目标获取域学习。它假设源域S有大量的标记训练数据，目标域T只有很少或没有标记的训练数据，但有大量未标记的数据。TL利用被标记的数据来帮助在目标域中学习。由于几个原因，TL与LML不同。首先，TL不是连续的。它只使用源域来帮助目标域学习。其次，TL并没有积累所学的知识。第三，TL是单向的，使用源来帮助目标。LML可以在任何方向上进行。第四，TL假设源与目标非常相似。这种相似性是由人类用户决定的。LML并没有做出这样一个强有力的假设。人类用户通常不参与确定任务的相似性。

多任务学习(MTL)：的目标是执行多个相似学习任务的联合优化，这样它们就可以共享彼此的知识，从而获得更好的整体效果。然而，MTL仍然在传统的范式中工作。在优化单个任务的过程中，它会优化几个任务。如果我们把几个任务看作一个更大的任务，它就会减少到传统的优化，这在MTL的大多数优化公式中都是如此。随着时间的推移，它不会积累任何知识，它也没有持续学习的概念，这是LML的关键特性。尽管有人会说MTL可以在添加新任务时联合优化所有任务，但是在单个进程中同时优化所有任务是相当困难的，因为任务是非常不同的，而且是非常numer的。

终身机器学习的历史：

LML的概念是在1995年由Thrun和Mitchell [4]提出的。从那时起，它就被研究了四个主要方向:

终身监督学习，Thrun [5] 开始学习终身概念学习，每一个过去或新任务都是一个阶级或概念。在基于记忆的学习和中立的网络环境中，提出了几种LML技术。在参考文献[6]中，神经网络方法得到了改进。费等[7]将这种形式的LML扩展到累积学习，在遇到新类时，构建了一个新的多类分类器，可以对所有的过去和新类进行分类。它还检测测试中未见的类。这为自我学习铺平了道路，因为它能够探测到看不见的类，从而使它学习新的东西。Ruvolo和Eaton[8]提出一种有效的LML算法(ELLA)来改进一种多任务学习方法。陈等[1] 人在朴素贝叶斯分类的背景下提出了一种LML技术。对LML的理论研究是由Pentina和Pentina [9]所做的。

陈和刘[10]首先提出了终身无监督学习的终身学习模式。随后，他们也报告了其他几个模型。所提出的技术可以从许多过去的任务中学习知识，并利用这些知识帮助在新任务中生成更一致的主题。刘[11]等人提出了一种利用LML方法提取信息的方法，刘[12]提出了一种终生的图形标记方法，将两种类型的表达式分离开来。

终生的半监督学习在这个领域的工作是由永无止境的语言学习者(NELL)系统[13]所代表的。自从2010年1月以来，NELL一直在为信息提取而不断地阅读网络，并且已经拥有了数百万的实体和关系。

终生强化学习Thrun和Mitchell [4]第一次学习终生强化学习(LRL)，用于机器人学习。Tanaka和Yamamura [14]提出了一种“LRL”方法，将每一个环境视为一项任务。Bou Ammar等[15]人提出了一种政策梯度有效的LRL算法。

总结：

虽然LML已经存在了20多年，但到目前为止还没有进行大量的研究。一个原因可能是，过去20年里的ML研究侧重于统计和算法的方法。LML通常需要系统方法。然而，随着统计机器学习的日益成熟，研究人员意识到它的局限性，LML将变得越来越重要。可以肯定的是，如果没有LML的能力来积累学习的知识并在过去的知识的帮助下学习新的任务，那么我们将无法建立一个真正的智能系统。我们只能在非常狭窄的领域内解决问题。

参考文献：

Chen Z Y, Ma N Z, Liu B. Lifelong learning for sentiment classification. In: Proceedings of ACL Conference. 2015Pan S J, Yang Q. A survey on transfer learning. IEEE Transaction on Knowledge and Data Engineering, 2010, 22(10): 1345–1359Caruana R. Multitask learning. Machine Learning, 1997, 28(1)Thrun S, Mitchell T M. Lifelong robot learning. In: Steels L, ed. The Biology and Technology of Intelligent Autonomous Agents. Berlin: Springer, 1995, 165–196Thrun S. Is learning the n-th thing any easier than learning the first? Advances in Neural Information Processing Systems, 1996: 640–646Silver D L, Mercer R E. The task rehearsal method of life-long learning: overcoming impoverished data. In: Proceedings of the 15th Conference of the Canadian Society for Computational Studies of Intelligence on Advances in Artificial Intelligence. 2002, 90–101Fei G L, Wang S, Liu B. Learning cumulatively to become more knowledgeable. In: Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2016, 1565–1574Ruvolo P, Eaton E. ELLA: an efficient lifelong learning algorithm. In: Proceedings of International Conference on Machine Learning. 2013, 507–515Pentina A, Lampert C H. A PAC-Bayesian bound for lifelong learning. In: Proceedings of International Conference on Machine Learning. 2014, 991–999Chen Z Y, Liu B. Topic modeling using topics from many domains, lifelong learning and big data. In: Proceedings of International Conference on Machine Learning. 2014Liu Q, Liu B, Zhang Y L, Kim D S, Gao Z Q. Improving opinion aspect extraction using semantic similarity and aspect associations. In: Proceedings of the 30th AAAI Conference on Artificial Intelligence. 2016Shu L, Liu B, Xu H, Kim A. Separating entities and aspects in opinion targets using lifelong graph labeling. In: Proceedings of Conference on Empirical Methods in Natural Language Processing, 2016Mitchell T, Cohen W, Hruschka E, Talukdar P, Betteridge J, Carlson A, Dalvi B, Gardner M, Kisiel B, Krishnamurthy J, Lao N, Mazaitis K, Mohamed T, Nakashole N, Platanios E, Ritter A, Samadi M, Settles B, Wang R, Wijaya D, Gupta A, Chen X, Saparov A, Greaves M, Welling J. Never-ending learning. In: Proceedings of the 29th AAAI Conference on Artificial Intelligence. 2015, 2302–2310Tanaka F, Yamamura M. An approach to lifelong reinforcement learning through multiple environments. In: Proceedings of the 6th European Workshop on Learning Robots. 1997, 93–99Bou Ammar H, Eaton E, Ruvolo P, Taylor M. Online multi-task learning for policy gradient methods. In: Proceedings of the 31st International Conference on Machine Learning. 2014, 1206–1214

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。