别笑,雅虎也有人工智能的秘密武器

摘要:又一个科技巨头与世界分享它的人工智能成果了。2月24日,雅虎公布了 CaffeOnSpark 人工智能引擎的源代码,从学术研究者到大公司员工都可以使用或修改。

别笑,雅虎也有人工智能的秘密武器

也许近年来很少人了解雅虎在科技界的实力。它孵化了开源项目 Hadoop——被 Facebook、Twitter 和许多其他公司广泛使用的数据分析平台。Hadoop 对于人工智能有特别的价值。数据和算法对训练人工智能系统同样重要,而雅虎拥有最有意思的数据库之一——图片站点 Flickr。

和许多新的开源人工智能项目一样,CaffeOnSpark 以深度学习为基础。深度学习是人工智能的一项分支,对帮助机器识别人类讲话、图像和视频内容用处尤其大。比如雅虎利用它测定不同图片的内容,来优化 Flickr 的搜素结果。雅虎不是依赖上传图片的人所输入的描述和关键词,而是教会计算机识别图片的某些特点,比如特定的颜色、甚至动物和物体。

几个月来,谷歌开源了它的深度学习框架TensorFlow,微软开源了它的类似框架CNTK,脸书开源了它的人工智能硬件设计,中国搜索引擎巨头百度开源了它的深度学习训练软件代码。

这些开源各有侧重。雅虎想在现有的系统上运行深度学习进程,不必把数据从一个地方移到另一个地方。雅虎的构架副总裁 Andy Feng 解释,训练一个深度学习系统识别图片需要巨大的数据量。比如你把大量猫的图片交给算法处理,最终机器会 “学到” 猫的共同特征,从而有能力分辨包含猫的照片和不包含猫的照片。

Flickr 拥有几十亿张照片,有充足的图片类别来训练人工智能。但团队不想把所有 Flickr 主服务器的图片复制到新的运行深度学习软件的服务器集群中。因此他们发明了在现有的基础架构中运行深度学习软件的途径。

CaffeOnSpark,从名字可以看出,它将两种现有技术结合起来:广泛流行的深度学习框架Caffe和后起之秀数据分析系统 Spark。雅虎创造了一种可以在Spark集群上运行 Caffee 的方式。它可以在 Spark 上单独运行,也可以在 Hadoop 上运行。Feng 说,除了简化人工智能开发者对类似工具的操作,避免把数据搬来搬去,CaffeOnSpark 还使在多个服务器上分配深度学习进程变得相对容易,这是谷歌的 TensorFlow 所做不到的。

Feng 表示在团队发布一条关于软件的长文后,很多公司要求雅虎开源 CaffeOnSpark。看来有许多机构都不想把服务器集群上的数据移来移去。

本文编译自:wired.com

本文出处:,链接:,采用「CC BY-SA 4.0 CN」协议转载学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请联系「我们」处理。

发表评论

登录后才能评论

联系我们

如有建议:>>给我留言 大数据交流群: 统  计  学 数据分析网-统计学 商业智能 数据分析网-商业智能 数据挖掘 数据分析-数据挖掘 数据产品 数据分析网-数据产品

QR code