1. 数据分析网首页
  2. 软件工具
  3. R语言

如何为学习,实验和教学生成有意义的人造数据集?

如果你从事教学或喜欢实验,不想使用老套的数据集,fakir是一个非常好的值得了解的包。

如何为学习,实验和教学生成有意义的人造数据集?

作者:AbdulMajedRaja RS
原文链接:
https://www.programmingwithr.com/how-to-generate-meaningful-fake-data-for-learning-experimentation-and-teaching/

问题描述

关于R,有一件事是很多人的首选。iris数据集的黑白图已是R的一个巨无聊视图。这无聊是因为其美学和一次次使用的老套的例子。另一个问题是为你想教/学/实验的问题找到合适的数据集。假设您想讲时间序列,而在这种情况下,您的垃圾邮件/火腿分类数据集没有任何用处。

解决方案

不要担心,fakir可以帮助我们。fakir是一个由Colin Fay (Think-R)设计的R包,他对R社区的贡献非常大。

关于fakir包

在文档中,fakir的目标是提供可用于教学R的人造数据集。

安装和加载

fakir可以从Github上安装(CRAN上还没有fakir)

# install.packages("devtools")devtools::install_github("ThinkR-open/fakir")library(fakir)

用例:Clickstream / Web数据

Clickstream / Web数据是目前许多组织在分析中使用的一个东西,但是你很难得到一些点击流数据,因为没有公司愿意分享他们的数据。在谷歌分析测试帐户上有一个样本数据,但这可能对您学习R或R的生态系统中的数据科学没有任何帮助。

这是一个典型的例子,fakir可以帮助你

library(tidyverse)fakir::fake_visits() %>% head()
如何为学习,实验和教学生成有意义的人造数据集?

这就是使用fakir获取示例Clickstream (tidy)数据是如此的简单。另一件值得注意的事情是,如果您查看fake_visit()文档,您会发现有一个seed参数,这意味着您可以控制数据的随机化和可重复性它们。

fake_visits(from = "2017-01-01", to = "2017-12-31", local = c("en_US", "fr_FR"), seed = 2811) %>% head()
如何为学习,实验和教学生成有意义的人造数据集?

用例:French 数据

此外,在上面使用fake_visit()函数时,您可能注意到了另一个属性local,它可以帮助您选择French数据而不是English数据。在我个人看来,如果您的任务是提高数据素养或使数据科学民主化,那么这一点至关重要。

fake_ticket_client(vol = 10, local = "fr_FR") %>% head()
如何为学习,实验和教学生成有意义的人造数据集?

在上面的例子中,我们使用了fakir的另一个函数fake_ticket_client(),它帮助我们给出一个典型的票据数据集(就像您从ServiceNow或Zendesk获得的数据集)

用例:散点图

所以,我在这篇文章开始关于iris数据集的叫嚷(别误会我:我对创建这个数据集的科学家们非常尊重,只是我对它的错误/过度使用了不欣赏)现在我们可以使用fakir数据集来克服它。

fake_visits() %>%   ggplot() + geom_point(aes(blog,about, color = as.factor(month)))
如何为学习,实验和教学生成有意义的人造数据集?

(也许,不是一个好的散点图来显示相关性,但是,嘿,你可以教散点图不绘制花瓣长度和萼片长度)

总结

如果你从事教学或喜欢实验,不想使用老套的数据集,fakir是一个非常好的值得了解的包。正如fakir包的作者在描述中提到的,charlatan是另一种帮助生成有意义的假数据的r -包。

参考文献

本文为专栏文章,作者:数据人网,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/73484.html 。

发表评论

登录后才能评论

联系我们

如有建议:>>给我留言

QR code