1. 数据分析网首页
  2. 人物观点

桃树科技创始人杨滔:大数据,多大算大?

大数据,多大都不算大。

关于作者:

杨滔,桃树科技(TaoData)创始人,专注于下一代人工智能产品的研发、应用与商业化。拥有超过十年机器学习研究与应用经验。奥克兰大学机器学习博士,悉尼科技大学博士后。创立桃数科技前,任职阿里巴巴集团数据科学家,建立淘宝网数据科学团队,首创聚划算爆款模型。

来源:微信公众号【桃树科技】(ID:TaoDataRobot)


桃树科技创始人杨滔:大数据,多大算大?

大数据,多大算大?”——这是一个经常被问到的问题。

这不是一个经济学问题,也不是一个数学问题,而是需要具体情况具体分析的一个实验问题。然而,实验需要工具。

首先,这取决于目标。如果没有明确的目标,数据常常被笼统地认为有用。然而,实际并非如此。互联网每天都产生大量数据,但其中大部分数据是噪音,不仅没有用,还需要被化疗掉。

当我们设定好一个可以量化的目标变量,算法才可以用科学的方式量化评估数据价值。

其次,我们需要工具,可以自动化跑通建模全流程,从而评估效果。这在机器学习技术——有监督学习中有详细介绍。在分类问题中,量化效果的指标包括:AUC, KS, Accuracy, Precision, Recall, F1 measure;在回归问题中,量化效果的指标包括:RMSE, RMSLE, MAE, Gini。

也就是说,当我们明确目标后,把数据丢给工具,工具告诉我们:用这份数据建模,效果是多少。

当我们有了目标和工具,我们便可以评估样本大小和数据价值的关系了。我们可以把数据进行分割,一份用于训练模型(训练数据),一份用于测试效果。对于训练数据,我们可以再随机均分为N份,基于部分训练数据进行预测并计算效果。

然后,我们便可以评估训练样本大小和模型效果之间的关系。不仅如此,我们还可以由此推断,什么类型的样本最有价值。

不是所有特征(变量)都有用,有用的特征往往并不多。建模工具同时还可以提供——哪些特征有用,权重分别是多少,详见机器学习技术——有监督学习。基于机器学习算法选择的变量和对应权重,我们可以进一步进行关联,找到和有用变量相关的其他潜在变量。

大数据,多大算大?”这是一个简单的问题——如果你有工具。

你丢给工具一份数据,工具告诉你:

1. 这份数据的效果有多好?

2. 样本大小与数据效果的关系?

3. 什么样本最有用?

4. 什么特征最有用?

如此,你便可以继续收集和重要样本类似的样本,继续提取和重要变量相关的变量。

如果我们可以轻而易举地知道什么数据有用,那么,大数据,多大都不算大。

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

联系我们

如有建议:>>给我留言

QR code