2019十大机器学习面试必看问题

张乐 • 文章来源: AI中国 • 2019-09-10 03:47 • 人工智能

机器学习

本文译自 | dzone.com

新兴技术席卷全球。它们所带来的创新、机遇和威胁是独一无二的。随着它们的增长，对这些领域专家的需求也在增长。

根据最新的行业报告显示，新兴技术领域的工作，如机器学习、人工智能和数据科学等，都是最热门的新兴职业。从事机器学习、人工智能或数据科学等新兴技术领域的职业，既能带来丰厚的利润，也能激发智力。

在本文中，我整理了一些最常见的机器学习面试问题，并给出了相应的答案。有志于机器学习的人，以及有经验的ML专业人士，都可以在面试前利用这一点来完善一下他们的基础知识。

2019年机器学习面试必看问题

1. 机器学习和深度学习的区别是什么？

机器学习是人工智能的一个子集，它为机器提供了无需任何显式编程就能自动学习和改进的能力。而深度学习是机器学习的一个子集，人工神经网络能够做出直观的决定。

2. 你对回忆和精确的理解是什么?

召回率也称为真实阳性率。它指的是与整个数据中可用的阳性数量相比，您的模型所声明的阳性数量。

精度，也称为正预测值，是基于预测的。它是对模型已声明的准确的阳性数量与模型实际声明的阳性数量进行比较的度量。

3. 有监督机器学习和无监督机器学习的区别?

在监督学习中，机器在有标记数据的帮助下进行训练，即，即带有正确答案标记的数据。而在无监督机器学习中，模型是通过自身发现信息来学习的。与有监督学习模型相比，无监督学习模型更适合于执行困难的处理任务。

4. k -的意思和KNN是什么?

K-means是一种用于聚类问题处理的无监督算法，KNN或K近邻是一种用于回归和分类处理的有监督算法。

5. 什么使分类不同于回归?

这两个概念都是监督机器学习技术的一个重要方面。通过分类，将输出划分为不同的类别进行预测。而回归模型通常用来找出预测与变量之间的关系。分类和回归的一个关键区别是前者的输出变量是离散的，而后者是连续的。

6. 如何处理数据集中丢失的数据?

数据科学家面临的最大挑战之一与丢失数据的问题有关。您可以通过许多方式对缺失值进行属性设置，包括分配一个惟一的类别、行删除、使用均值/中值/模式替换、使用支持缺失值的算法以及预测缺失值等等。

7. 你对归纳逻辑编程(ILP)理解是什么?

归纳逻辑编程是机器学习的一个子领域，它通过使用逻辑编程来开发预测模型来搜索数据中的模式。这个过程假定逻辑程序是一种假设或背景知识。

8. 您需要哪些步骤来确保您不与特定的模型过度匹配?

当模型在训练中提供了大量的数据,它开始从噪声和其他错误的数据集的数据。这使得模型很难学会概括新实例除了训练集,有三种方法在机器学习可以避免过度拟合。第一种方法是保持模型简单，第二种方法是使用交叉验证技术，第三种方法是使用正则化技术，例如LASSO。

9. 什么是整体学习?

集成方法也称为学习多个分类器系统或基于提交的学习。集成方法是指建立分类器集，然后对新的数据点进行分类，从而对其进行预测的学习算法。这种方法训练了许多假设来解决相同的问题。集成建模的最佳例子是随机森林树，其中许多决策树用于预测结果。

10. 请说出机器学习项目中需要的步骤?

要实现一个好的工作模型，您应该采取的一些关键步骤是收集数据、准备数据、选择机器学习模型、模型培训、评估模型、调整参数，最后是预测。

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。