作者：Will Koehrsen
编译：ronghuaiyang

导读

深度学习的一个显著成功应用是嵌入，这是一种将离散变量表示为连续向量的方法。这项技术已经有了实际的应用，其中有在机器翻译中使用词嵌入和类别变量中使用实体嵌入。

近年来，神经网络在图像分割、自然语言处理、时间序列预测等方面的应用有了很大的发展。深度学习的一个显著成功应用是嵌入，这是一种将离散变量表示为连续向量的方法。这项技术已经有了实际的应用，其中有在机器翻译中使用词嵌入和类别变量中使用实体嵌。

在本文中，我将解释什么是神经网络嵌入，为什么要使用它们，以及如何学习它们。我们会在真正的问题的上下文中讨论这些概念：将Wikipedia上的所有图书表示为向量，并创建图书推荐系统。

神经网络嵌入的解释，非常有用的东西，一看就明白

Wikipedia上所有书的神经网络嵌入

嵌入

嵌入是一个从离散变量到连续数字向量的映射。在神经网络的上下文中，embeddings是低维的，离散变量用学习到的连续向量表示。神经网络嵌入是有用的，因为它们可以减少类别变量的维数，并有意义地在转换空间中表示类别。

神经网络嵌入有3个主要目的：

在嵌入空间中查找最近的邻居。这些邻居可以用于根据用户兴趣或聚类类别提出建议。
作为监督任务的机器学习模型的输入。
用于概念的可视化和类别之间的关系的可视化。

这意味着在图书项目中，使用神经网络嵌入，我们可以把维基百科上所有的37000篇图书文章，用一个具有50个数字的向量来表示每一篇文章。此外，由于嵌入式是学习的，在我们的学习问题上下文中更相似的书籍在嵌入式空间中更接近。

神经网络嵌入克服了用独热编码表示分类变量的两个局限性：

独热编码的局限性

独热编码类别变量的操作实际上是一个简单的嵌入，其中每个类别都映射到一个不同的向量。这个过程采用离散实体，并将每个观察结果映射到一个只有一个1的向量中。

独热编码技术有两个主要缺点：

对于高基数变量—那些具有许多类别的变量—转换之后向量的维数变得太大了。
这种映射是完全没有监督的：“相似”的类别在嵌入空间中并没有彼此放置得更靠近。

第一个问题很好理解：对于每个额外的类别(称为实体)，我们必须向一个热编码向量添加另一个数字。如果我们在Wikipedia上有37000本书，那么表示这些书需要为每本书提供37000维的向量，这使得针对这种表示的任何机器学习模型的训练都是不可行的。

第二个问题同样是有局限的：独热编码不会将相似的实体彼此靠近的放在向量空间中。如果我们使用余弦距离来度量向量之间的相似性，那么经过独热编码后，实体之间的相似性为0。

这意味着，《战争与和平》和《安娜•卡列尼娜》(这两本书都是列夫•托尔斯泰(Leo Tolstoy)的经典著作)这样的实体彼此之间的距离，并不比《战争与和平》与《银河系漫游指南》之间的距离更近。

考虑到这两个问题，表示类别变量的理想解决方案是需要更少的数字，而不是类别的数量，并且将类似的类别放在更靠近的位置。

为了更好地表示类别实体，我们可以使用嵌入神经网络和监督任务来学习嵌入。

学习嵌入

使用one-hot编码的主要问题是转换不依赖于任何监督。我们可以通过在有监督的任务中使用神经网络来学习嵌入，从而大大改进嵌入。嵌入形成参数—网络的权重—经过调整以最小化任务上的损失。得到的嵌入向量表示类别，其中相似的类别(相对于任务)彼此更接近。

例如，如果我们有一个包含50,000个单词的电影评论集合，我们可以使用一个训练好的嵌入式神经网络来预测评论是的情感，从而为每个单词学习100维的嵌入。词汇表中与正面评价相关的单词，如“brilliant”或“excellent”，将在嵌入空间中出现得更近，因为网络已经了解到它们都与正面评价相关。

电影句子中的词嵌入

在上面给出的书的例子中，我们的监督任务可以是“确定一本书是否是列夫·托尔斯泰写的”，由此产生的嵌入将使托尔斯泰写的书彼此更接近。解决如何创建监督任务来生成相关表示的问题是嵌入过程中最困难的部分。

实现

在Wikipedia book项目中，监督学习任务被设置为预测一本书的文章中是否出现了指向Wikipedia页面的给定链接。我们提供成对的(书名、链接)训练示例，其中混合了正样本对和负样本对。这种设置基于这样的假设，即链接到类似Wikipedia页面的书籍彼此相似。因此，由此产生的嵌入应该将类似的书籍更紧密地放置在向量空间中。

我使用的网络有两个平行的嵌入层，分别映射书和wikilink，用来区分50维向量，还有一个点积层，将嵌入的内容组合成一个数字，用于预测。嵌入是网络的参数或权重，在训练过程中进行调整，以最小化监督任务的损失。

在Keras代码中，这看起来像这样(如果你不完全理解代码，不要担心，直接跳到图像)：

虽然在有监督的机器学习任务中，目标通常是训练一个模型对新数据进行预测，但在这个嵌入模型中，预测只是达到目的的一种手段。我们想要的是嵌入权值，将书籍和链接表示为连续向量。

嵌入本身并不那么有趣，它们只是数字的向量：

来自书籍推荐嵌入模型的示例嵌入

然而，嵌入可以用于前面列出的3个目的，对于这个项目，我们主要感兴趣的是推荐基于最近邻的书籍。为了计算相似性，我们取一本书进行查询，找到它的向量与其他所有图书向量的点积。(如果我们的嵌入是标准化的，那么这个点积就是向量之间的cos距离，范围从-1(最不相似)到+1(最相似)。我们也可以用欧氏距离来度量相似性。

这是我建立的图书嵌入模型的输出：