机器学习分类算法大全

大数据文摘 • 2019-09-13 05:44 • 人工智能

大数据文摘出品

来源：builtin

编译：邢畅、刘兆娜、李雷、钱天培

说起分类算法，相信学过机器学习的同学都能侃上一二。

可是，你能够如数家珍地说出所有常用的分类算法，以及他们的特征、优缺点吗？比如说，你可以快速地回答下面的问题么:

KNN算法的优缺点是什么？
Naive Bayes算法的基本假设是什么？
entropy loss是如何定义的？
最后，分类算法调参常用的图像又有哪些？

答不上来？别怕！一起来通过这篇文章回顾一下机器学习分类算法吧（本文适合已有机器学习分类算法基础的同学）。

机器学习是一种能从数据中学习的计算机编程科学以及艺术，就像下面这句话说得一样。

机器学习是使计算机无需显式编程就能学习的研究领域。

——阿瑟·塞缪尔，1959年

不过还有一个更好的定义：

“如果一个程序在使用既有的经验（E）执行某类任务（T）的过程中被认为是“具备学习能力的”，那么它一定需要展现出:利用现有的经验（E），不断改善其完成既定任务（T）的性能（P）的特性。”

——Tom Mitchell, 1997

例如，你的垃圾邮件过滤器是一个机器学习程序，通过学习用户标记好的垃圾邮件和常规非垃圾邮件示例，它可以学会标记垃圾邮件。系统用于学习的示例称为训练集。在此案例中，任务（T）是标记新邮件是否为垃圾邮件，经验（E）是训练数据，性能度量（P）需要定义。例如，你可以定义正确分类的电子邮件的比例为P。这种特殊的性能度量称为准确度，这是一种有监督的学习方法，常被用于分类任务。

机器学习入门指南：

https://builtin.com/data-science/introduction-to-machine-learning

监督学习

在监督学习中，算法从有标记数据中学习。在理解数据之后，该算法通过将模式与未标记的新数据关联来确定应该给新数据赋哪种标签。

监督学习可以分为两类：分类和回归。

分类问题预测数据所属的类别；

分类的例子包括垃圾邮件检测、客户流失预测、情感分析、犬种检测等。

回归问题根据先前观察到的数据预测数值；

回归的例子包括房价预测、股价预测、身高-体重预测等。

机器学习新手的十大算法之旅：

https://builtin.com/data-science/tour-top-10-algorithms-machine-learning-newbies

分类问题

分类是一种基于一个或多个自变量确定因变量所属类别的技术。

机器学习分类算法大全

你可能也喜欢这些文章