如何使用 Python 开始建立你的数据分析项目

数据工匠 • 2017-07-05 04:55 • Python

现在有很多博文对复杂的机器学习算法和前沿的技术进行了展示，而这也促使数据科学家们慢慢变成了“社交控”（FOMO）。但数据分析的基本内容究竟是什么样的？你应当怎样安排项目结构？你需要使用什么样的工具？等等诸如此类的问题却鲜有人问津。本文将会对如何建立项目提供一些启发思路，以帮助你快速达到在数据科学领域能有所产出的境界。

项目结构

项目的结构总是为了契合人们的需求而得到不断完善，这会导致在一个团队中出现不同的项目构架。如果你或者团队中的其他人能够及时发现项目结构的重要性，并且这个概念在团队中得到推广，那么，你无疑是幸运的。

多年前作者偶然发现了 R 语言的项目模板网站。从那之后，作者便一直提倡身边的人使用规范的项目结构。最近，DrivenData 发布了更为普适的 Cookiecutter Data Science 来构建项目结构。

而这些网站在项目构建方面的思路大致如下：

一个连贯且组织良好的结构，以便于人们协作
你的分析应当可复现，而你的项目结构可以满足这个需求
不应该从原始数据作为出发点开始你的项目，而应当假设原始数据不变，创建其他派生的文件

作者简略的项目结构如下所示：

example_project/
├── data/               <- The original, immutable data dump.
├── figures/            <- Figures saved by notebooks and scripts.
├── notebooks/          <- Jupyter notebooks.
├── output/             <- Processed data, models, logs, etc.
├── exampleproject/     <- Python package with source code.
│   └──>这里 看到相关实例。

项目通常遵循另一种结构：

 	原始数据不变，存储在 data/中；
 	数据处理和相关输出图分别存储在不同的文件夹下，例如：figures/和output/；
 	笔记文件存储在notebooks/；
 	项目信息撰写在README.md中；
 	项目代码放置在独立的文件夹下。

实际上，你选择什么样的项目结构并不重要，只要它能符合你的工作流程，你也能坚持使用它。你应该尝试去理解何为项目，从而选择满足要求的项目结构。
虚拟环境
项目之间应当相互独立，你肯定不希望新的项目打乱了之前的工作成果。我们可以通过把不同项目的文件存储在不同的文件夹下实现独立性，但是不同项目之间也应当使用不同的 Python 环境。

虚拟环境依赖于不同的项目而相互独立，避免了包的冲突问题。每个虚拟环境都安装了特定版本的不同包。虚拟环境一中安装了版本为 1.11 的numpy库和版本为 0.18 的pandas库，而虚拟环境二中则仅仅安装了版本为 0.17 的pandas库。作者选取适用于数据科学的 conda 管理虚拟环境（可在 这里 看到选择它的原因）。

下列命令可以创建一个使用 Python 3.5 的新的 conda 虚拟环境，命名为 example_project：

$ conda install --name example_project python=3.5


激活虚拟环境（ Windows 系统下将 source 省去）：

$ source activate example_project


之后便可以安装所需的包了：

$ conda install pandas numpy jupyter scikit-learn


当你在不同的项目间跳转时，可以运行source deactivate命令取消激活，并激活新的项目虚拟环境。
一旦你熟练使用activate和deactivate命令，就会发现虚拟环境是一个很轻巧的工具来保证 Python 环境的独立。通过导出环境定义文件（例如，所有安装的包名和版本号），你的项目就很容易得到复现了。如果你想查看更多细节，可在Tim Hopper 的博文 中看到。
Git
每个项目都应该有自己的 Git 资源库。在每个项目创建一个资源库可以帮助你追踪每个项目的历史和解决在不同的项目间复杂的版本依赖问题。
又或者，你可以选择在一个资源库中包含多个项目，将所有内容存储在一个位置。这样做的缺点在于往往会因为合并冲突问题而告终（数据科学家通常并不能熟练使用 Git ）。除了很多使用 Git 时出现的问题，这也会导致你的项目之间缺乏独立性。
创建 Git 资源库最简单的方法就是在你的 Git 远程主机托管服务（例如，Github 和 GitLab ）上创建一个新的 Git 资源库，然后把它复制到本地：

$ git clone https://github.com/hgrif/example-project.git


你可以在这个空文件夹下构建你的项目结构。
如果你按照这个步骤执行，并准备在一个新文件夹下创建一些文件了。那么，你首先还需要在电脑上对 git 资源库进行初始化：

$ git init


然后在你的远程主机上创建一个新的 git 资源库，得到它的链接，并运行下列命令：

$ git remote add origin https://github.com/hgrif/example-project.git


该命令会添加链接为 https://github.com/hgrif/example-project.git 的远程资源库，并命令为 origin 。你可能需要把现有的 master分支推送到origin上：

$ git push --set-upstream origin master


在你的项目目录下创建.gitignore文件可以避免将图或数据误填加进资源库中。作者一般使用 针对 Python 的.gitignore文件 ，并且在文件中加入 data/、figures/ 和 output/ 文件夹，以便 Git 可以忽略它们。
既然 Git 已经设置好了，你就可以对核心内容使用git add和git commit命令了！
使用工具
使用一些工具可以帮助你摆脱那些重复性工作。
Python 中的cookiecutter包可根据模板自动创建项目文件夹。你可以使用现有的模板，例如，Cookiecutter Data Science 或者 作者的项目结构模板 ，或是创建你自己新的模板。
使用虚拟环境最好的方法就是选用支持它们的编辑器，比如：PyCharm 。你也可以使用 autoenv 或者 direnv 去激活虚拟环境，并设置环境的变量，如果你cd定位到一个工作目录下的话。
结论
对你的数据科学项目有一个良好的设置将会有助于同其他人协作，并且项目本身也会更容易复现。一个好的项目结构，一个虚拟环境和一个 git 资源库是每个数据科学项目的基石。
原文链接：How to Start a Data Science Project in Python
原文作者：Henk Griffioen
译作者：Vector
本文为特邀专栏文章，来自：数据工匠，内容观点不代表本站立场，如若转载请联系专栏作者，本文链接：https://www.afenxi.com/45814.html 。

数据科学家数据分析Python


 赞 (0)



  数据工匠专栏 

  0
   生成海报




使用python和tableau对数据进行抓取及可视化

  上一篇 2017-06-27 22:21


从头开始：用Python实现随机森林算法

 下一篇  2017-07-06 19:42


你可能也喜欢这些文章
      人工智能
  漫谈：机器学习和数据挖掘中一些常见的距离公式和相似性度量方法  
  00
   张乐  2016-03-16
      数据挖掘
  美国大数据工程师面试攻略分享  
  00
   董飞  2015-10-28
      行业资讯
  数据控有福了！支付宝数据分析的秘密武器G2上线  
  00
   小胖  2016-05-18
      人物观点
  “大数据院士”鄂维南： 完美的数据永远等不来  
  00
   涂子沛  2016-05-17
      数据分析
  数据分析师是怎么被“养大的”？  
  00
   小胖  2016-03-13
      数据分析
  大数据分析实习生应该如何选择职业方向？  
  00
   张乐  2016-05-01



 

数据工匠专栏
数据工匠（合作媒体），公司主要提供数据分析服务与产品，具体内容包括对企业与政府机构提供大数据咨询；平台级的通用化数据分析产品（软件）开发。


 74 文章
 9 粉丝
 最近文章
  强化学习与简单多臂老虎机问题
 如何使用ggplot2绘制公共债务地图
 在量化交易回测中容易犯的9个错误
 
   


资料下载
            
    
 跨境电商数据指标体系及日报模板（付费下载）
 2024-12-05
    
 电商类数据门户数据产品功能框架（付费下载）
 2024-12-05
    
 数据分析师职业发展必备知识地图（付费下载）
 2023-12-15
热门文章
            
       肿瘤大数据公司LinkDoc完成数千万美金B轮融资，宽带资本领投  
       Sensor Tower：2022年5月中国手游发行商全球收入排行榜  
       一张图破解大数据，云计算，物联网和移动互联网的关系  
       想破增长瓶颈？APP运营数据分析的思路分享  
       主成分分析原理解析  
       神策数据创始人桑文峰：创业公司如何构建数据指标体系  
热门主题
Excel Indus.ai SAS 人口统计 傅志华 大数据 大数据新闻 小蚊子乐园 数据信息图 数据分析图书 数据分析师 数据分析精选 数据分析观点 数据分析资料 数据可视化 数据挖掘 数据科学家 数据管理 数据观点 朱冠胤 机器学习 水晶易表 电商数据分析 统计学




 

关于我们
免责声明
广告及服务
热门主题
作者列表
大数据导航
帮助中心
                 Copyright © 2022-2025 Afenxi.com 版权所有  浙ICP备11037353号