搜索:Python
-
HTML基础与R语言解析
无论学术研究还是商业分析,数据搜集永远是第一个需要解决的问题。
-
Airbnb 数据科学家 : 历时6个月,我终于找到了心仪的工作
在本文中,我想跟大家分享我的求职历程,希望能帮助你收获自己心仪的工作。
-
我们从爬取1000亿个网页中学到了什么?
现如今,爬取网页看起来似乎是一件很简单的事。有很多开源框架或库、可视化爬取工具和数据提取工具,利用这些工具可以很容易地从网站上爬取数据。但是,当你想大规模爬取网站时,事情就变得棘手起来。其中包括应对不断变化的网站格式、构建可伸缩的爬虫基础框架并保持吞吐量,与此同时还要挫败网站反机器人的手段以及维护数据质量。在这篇文章中,流行 Python 爬虫框架 Scrapy 开发者 Scrapinghub 分享了大规模爬取产品数据时将面临的主要挑战,以及他们爬取 1000 亿个网页后的经验之谈。
-
关于商业部署机器学习,这有一篇详尽指南
当今数据科学面临的一个具有挑战性的难题是在项目的商业化中部署训练模型,对于任何的以消费者为中心的公司或想要使自己的解决方案拥有更多受众的个人来说都是如此。
-
友盟+的数据智能生意经:如何从DI向AI进阶?
到今年为止,大数据的概念已经火了不止 7 年,人工智能和区块链成为了新的风口,而大数据产业则慢慢沉淀下来,更多地着眼于“落地应用”。
-
6月份最热门的机器学习开源项目Top10
燥热的 6 月天已经结束了,本月机器学习领域又有哪些开源项目值得一看呢?Mybridge AI 从将近 250 个机器学习开源项目中评选出排名 Top10 的项目。这是他们对在此期间新发布或进行重大发布的项目进行比较之后得出的结果,考量了各种因素对项目的专业性进行排序。哪些项目上榜了呢?
-
机器学习大牛最常用的5个回归损失函数,你知道几个?
“损失函数”是机器学习优化中至关重要的一部分。L1、L2损失函数相信大多数人都早已不陌生。那你了解Huber损失、Log-Cosh损失、以及常用于计算预测区间的分位数损失么?这些可都是机器学习大牛最常用的回归损失函数哦!
-
5月Github上最热门的数据科学和机器学习项目TOP5
如果你是开发者,那一定对 GitHub 不会陌生,截止到 2018 年 4 月 10 日(GitHub 上线 10 周年),已经拥有超过 2700 万开发者,分布在全世界,在超过 8000 万个项目上进行着紧密协作。
-
20本机器学习与数据科学必读书籍
高校的暑假即将来临,有没有想利用这个暑假为自己充电,为未来的自己赢在起跑线上,成为人工智能界的人生赢家呢?来自 KDnuggets 的 Matthew Mayo 就提供了这份书单,小编在翻译此书单的同时,还贴心搜索了相应的中文译本,并提供了中文版的购买链接。加油吧,骚年!
-
找工作必看!数据科学与机器学习最全面试指南
你是否有志于成为一名数据科学家,却又因为不知如何克服面试而头疼不已?跨入数据科学领域并不是一件简单的事。因此,在进行面试之前,你最好能做好充分的准备。
-
为什么要使用交叉验证?
什么是交叉验证法?它的基本思想就是将原始数据(dataset)进行分组,一部分做为训练集来训练模型,另一部分做为测试集来评价模型。
-
想转行?数据科学全流程求职指南
本文覆盖数据科学求职全过程。从申请到面试,到拿offer之后的协商,所有细节一应俱全。
-
2018数据科学和机器学习调查:Hadoop被抛弃!
近日,著名数据科学网站 KDnuggets 发布了 2018 年数据科学和机器学习工具调查结果。超过 2000 人对自己「过去 12 个月内在项目开发中使用过的数据挖掘/机器学习工具和编程语言」进行了投票。该统计还对过去三年来的排名进行了对比分析。
这份投票结果既有预料之内,也有预料之外的部分。数据显示,Python 作为机器学习常用的编程语言正在不断扩大领先优势,R 语言的使用率第一次降到了 50% 以下。在深度学习框架上,最近呼声很高的深度学习框架 PyTorch 仅仅占据了 6.4% 的使用率,远远落后于 TensorFlow 的 29.9% 和 Keras 的 22.2%。
-
老司机带你分享R语言学习路径
作为数据分析或挖掘工作者,技能是一方面,另一方面是关于如何培养好自己的分析思维,毕竟技术这个东西是很容易替代的,而思维才是属于自己的,才是自己有别于其他人的地方。
-
始于Jupyter Notebooks:一份全面的初学者实用指南
如果说有什么每个数据科学家都应该使用或必须了解的工具,那非 Jupyter Notebooks 莫属了(之前也被称为 iPython 笔记本)。Jupyter Notebooks 很强大,功能多,可共享,并且提供了在同一环境中执行数据可视化的功能。