1. 数据分析网首页
  2. 软件工具
  3. Python

GitHub上的数据分析库

本次将为大家简单分享介绍几个GitHub上数据分析相关的项目库,包括图像处理项目库、数据集项目库以及学习资源项目库。

本次将为大家简单分享介绍几个GitHub上数据分析相关的项目库,包括图像处理项目库、数据集项目库以及学习资源项目库

首先介绍一下GitHub:GitHub是一个通过Git进行版本控制的软件源代码托管服务托管平台,于2008年4月正式上线,截止上个月已经成立十周年。目前,GitHub上有超过两千七百万用户以及超过八千万代码库,是一个大家学习、分享和创建软件的社区。

在GitHub,用户可以十分轻易地找到海量的开源代码并下载到本地或添加到自己的GitHub项目库中。项目库涉及的题材种类丰富,譬如比特币和众多区块链项目代码库也托管在GitHub。

除了软件开发方面的代码库,机器学习也是GitHub 上的热门话题,在machine learning的话题下有近一万七千个开源项目库(传送门:https://github.com/topics/machine-learning),从谷歌的tensorflow,到机器学习方面的scikit-learn再到微软的Cognitive Toolkit (CNTK),众多广受好评的项目,都可以找到。

下面开始本次数据分析相关的项目库的介绍:

  1  图像处理库

想要遮挡住合影中意外闯入的不慎闯入的陌生人?想要消除桌子上意外多出的水杯?在图像处理库这方面随缘推荐person-blocker项目库帮您实现这项功能。

person-blocker于2018年3月份发布,是基于python的图像处理代码库。person-blocker库可以自动识别图像中物体进行识别并遮挡,该功能的实现是基于Mask_RCNN库对于常见物体进行识别区分,预训练模型则使用了Microsoft COCO: Common Objects inContext数据集。下图中的实例代码实现了遮挡斑马群旁边的长颈鹿的功能。

GitHub上的数据分析库

除了长颈鹿,还有80种元素(例如,人物、鸟类、电脑、等等)也可以用这可库进行识别和遮挡,而且代码运行过程中不需要使用图形处理器(GPU),需要修图的用户考虑一下哟~

地址:https://github.com/minimaxir/person-blocker

  2  数据集库

想要做好数据分析,高质量的数据集也是必不可少的,紧贴时事又干净清晰的数据集,在GitHub各种项目库中也有不少,您值得拥有。本次数据集方面推荐的项目库是 fivethirtyeight。

GitHub上的数据分析库

fivethirtyeight项目库由FiveThirtyEight网站提供(传送门:http://fivethirtyeight.com)。FiveThirtyEight,又称538,是一个专注于发布舆情调查、政治、经济和体育等相关题材博客的网站,曾先后被ESPN和ABCNews收购。

网站于2008年由 Nate Silver创办,命名灵感来自于美国大选中的选举团成员数目,网站初期用于发布美国总统选举的投票结果预测,后逐渐增加体育、经济生活等板块的数据分析类博客。创办人Nate Silver成功预测了2008年的美国总统选举中50个州的49个州的投票结果,在2009年被时代(Time)杂志列全球最有影响的100个人之一。

目前,除了总统选举结果预测项目,538网站上还有MLB,NBA等各大赛事的结果预测的项目,和诸多时事数据分析。点击下图看示例。

GitHub上的数据分析库

(图源:https://projects.fivethirtyeight.com/)

GitHub上的数据分析库

(图源:https://projects.fivethirtyeight.com/soccer-predictions/)

在GitHub上的FiveThirtyEight中,可以找到FiveThirtyEight网站里的博客以及项目中使用的数据和部分数据分析代码。数据库里的数据都是整理清洗好的,着重推荐给爱好时事,但苦于缺少数据来源的用户。此外,希望练习一下自己数据可视化展示能力的用户,这个库不要错过哟。

地址:https://github.com/fivethirtyeight/data

  3  数据分析学习资源库

Coursera、Stack Overflow、慕课网……随着互联网的发展及推广,各种开源在线学习资源层出不穷,GitHub上同样也有很多数据分析方面的学习资源可供大家参考。

数据分析学习资源库方面本次主要推荐两个库:data-science-ipython-notebooks(主要包含使用python进行数据分析的代码示例和解释说明)和The OpenSource Data Science Masters(数据科学相关知识的整合资源库)。

data-science-ipython-notebooks是由Donne Martin发布的数据科学代码库,该库以Jupyter Notebook(过去称为IPython Notebook)形式发布,用户可以清晰看到各种数据分析库所涉及的代码的应用实例,目前获得点赞数目超过一万二千次。下图中的示例展示了如何利用pandas对数据进行选择的代码,代码输入和输出结果以IPython Notebook形式呈现,方便阅读。

GitHub上的数据分析库

(图源:https://github.com/donnemartin/data-science-ipython-notebooks/blob/master/pandas/03.02-Data-Indexing-and-Selection.ipynb)

data-science-ipython-notebooks库中涉及的数据分析题材广泛,从数据处理方面的pandas,到机器学习方面的scikit-learn,深度学习方面的TensorFlow,Theano, Caffe, Keras也在持续更新。这个库很适合常用python进行数据分析处理的用户去了解代码功能。地址:https://github.com/donnemartin/data-science-ipython-notebooks

The Open Source DataScience Masters由数据科学家Clare Corthell维护的开源教学资源库,是一个比较全面地整合了数据科学方面各种学习资源的项目库。该库包含机器学习,数据挖掘方向的从入门到精通、从理论到操作技术所需的各种技能包以及相应的资源(例如在线课程、书籍、编程资料,等等)。下图中为在数据科学方面较为必须的数学技能列表(例如线性代数、线性规划、矩阵运算,等等),以及相应的线上课程学习资源和书籍推荐。

GitHub上的数据分析库

这个库推荐给想要比较系统的学习数据科学理论知识或者需要查找某些特别知识点的用户。地址:https://github.com/datasciencemasters/go

以上就是本次要分享的项目库,祝各位读者探索愉快!

本文为专栏文章,来自:KPMG大数据挖掘,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/52851.html 。

联系我们

如有建议:>>给我留言

QR code