统计学

  • 小白学统计(30)推断统计基础:点估计与区间估计

    参数估计:就是根据样本统计量的数值对总体参数进行估计的过程。根据参数估计的性质不同,可以分成两种类型:点估计和区间估计。

    2016-09-08
    0
  • 小白学统计(29)切比雪夫(Chebyshev)定理

    在总体分布未知(或非正态)且样本容量小于30时,均值的抽样分布是未知的,这时我们就不能运用中心极限定理、t分布和大样本理论来估计总体的均值,此时,可以运用切比雪夫(Chebyshev)定理来近似估计总体均值。

    2016-09-07
    1
  • 小白学统计(28)抽样分布:t分布

    有正态总体(均值为μ),定义随机变量T(见下方公式),它的值为t(变量用大写字母表示,具体的值用小写字母表示)。

    2016-09-06
    0
  • 从程序员的角度说统计学习方法概论

    对于程序员来说,特别是很少见数学公式的来说,要读一本这样满是公式的书其实是比较有挑战的。

    2016-09-05
    0
  • 小白学统计(27)抽样分布:详述均值的抽样分布及中心极限定理

    均值的抽样分布类型 抽样分布的定义、作用和主要种类已经介绍过(回顾点击:通俗解释“大数据”及推断性统计学:抽样分布),本篇介绍均值的抽样分布。均值抽样分布根据样本量的情况分为均值的理论抽样分布和均值的经验抽样分布。 均值的理论抽样分布 通俗的解释:有总体N,每次从中抽取固定容量为n的样本并计算出该样本的均值,如果将所有可能抽取的样本列出,并计算均值,这些均值的频率分布就称为理论抽样分布。 均值的经验抽样分布 与均值的理论抽样分布不同,均值的经验抽样分布并没有抽取所有可能样本,并计算均值,将这样的部分样本均值的频率分布称为均值的经验抽样分布。随着样本个数逐渐趋近“所有可能样本”,均值的经验抽样分布越来越接近均值的理论抽样分布。 两个例子 例1:有数字总体:0,1,2,3,4;用有放回抽样得到容量为2的样本,所有可能的样本有5*5=25个(见表1,[(样本)均值]),这25个样本的均值出现概率(相对频数)就组成了均值的理论抽样分布(见表2);如果样本个数不足25个(所有可能样本),则称这样的样本均值出现频率为均值的经验抽样分布。 例2:有数字总体:0,1,2,3,4;用无放回抽样得到容量为2的样本,所有可能的样本有5*4=20个,其中一半(10个)与另一半仅仅是取值顺序不同(例如(0,1)和(1,0)),对均值的频数没有影响,所以所有可能样本为10个(见表3,[(样本)均值]),这10个样本的均值出现概率(相对频数)就组成了均值的理论抽样分布(见表4);如果样本个数不足10个(不考虑取值顺序),称这样的样本均值出现频率为均值的经验抽样分布。 均值的理论抽样分布参数特性(均值、方差和标准差) 1、均值理论抽样分布(所有抽样类型:无限总体抽样、有限总体有放回抽样和有限总体无放回抽样)的均值与总体均值相等,是无偏性的。计算过程简单,以例1和例2进行推导验证,结果都等于2;无偏性表达式: 2、均值的理论抽样分布的方差与总体方差有如下关系: 以例1和例2进行推导,过程如下: 3、从2中的方差公式可以得出:样本容量n越大,均值的抽样分布的方差(标准差)越小,样本均值作为总体均值的误差就越小,也就越精密。 中心极限定理 在假定抽样总体服从正态分布的条件下,可以证明,如果容量为n的所有的可能样本(理论抽样)取自正态分布总体,并且从每个样本计算出均值,则得到的均值的连续型理论抽样分布服从正态分布。(如果是离散型总体,则得到的均值的离散型理论抽样分布可以用正态分布拟合) 如果总体分布情况未知,或者总体具有偏态或多峰,不是正态总体呢 对于应用中遇到的所有这类总体分布,如果样本容量“足够大”,由此导出的均值的理论抽样分布可以认为近似服从正态分布,这是推断性统计学的一个重要定理——中心极限定理的基础。 证明过程可以参见上面的例1(有放回有限总体)和例2(无放回有限总体),总体(0,1,2,3,4)是离散型平均分布总体,不是正态总体,得到的均值的理论抽样分布可以用正态分布近似(见例1和例2柱型图);而且随着n增大,这种近似越来越好,见下图: 中心极限定理的表述 之前我们介绍过,可以将总体抽样类型分为:无限大总体抽样;有限总体有放回抽样;有限总体无放回抽样。总体抽样类型不同,中心极限定理的表述也不同。 1、有限总体有放回抽样 在数学上可以证明如果所有容量为n的随机样本,均有放回地取自容量为N,具有有限参数(μ,σ,σ2)的有限总体,并对每一样本计算出均值,则如果n足够大,均值的理论抽样分布近似服从有以下参数的正态分布 2、无限大总体(有放回或无放回) 在数学上可以证明如果所有容量为n的随机样本,均取自(有放回或无放回)一个有有限参数(μ,σ,σ2)的无限总体,并对每一样本计算出均值,则如果n足够大,均值的理论抽样分布近似服从有以下参数的正态分布 可以看出,有限总体有放回抽样和无限总体的理论抽样分布的参数关系式是一样的。 3、有限总体无放回抽样 中心极限定理同样适用于有限总体无放回抽样,不过和上面两种抽样情况有不同。表述为:在数学上可以证明如果所有容量为n的随机样本,均无放回地取自容量为N,具有有限参数(μ,σ,σ2)的有限总体,并对每一样本计算出均值,而且N至少为n的2倍(N≥2n),则如果n足够大,均值的理论抽样分布近似服从有以下参数的正态分布 如果n≤0.05N,则不必适用有限总体的修正因子。 多大是“足够大” 在中心极限定理的三种形式中,均要求n“足够大”,均值的理论抽样分布近似服从正态分布。对“足够大”不存在绝对的统一规则。有两种情形: 1、如果已知总体是正态总体(或接近正态),所需的样本容量n则比较小,n=25或n=20的样本即足够大,可以使用中心极限定理。 2、对任何类型的总体分布,通常可接受的规则是:如果n≥30,即认为样本容量足够大,可使用中心极限定理。 所以,30常作为大样本统计和小样本统计的分界线。如果n≥30,则可以使用中心极限定理要求的大样本方法,如果n<30,则使用小样本方法。

    2016-09-05
    1
  • 小白学统计(26)连续型随机变量概率分布——抽样均值分布

    抽样分布十分重要,它是进行统计推断的基础,正是依赖抽样分布的理论,我们才能对总体的有关特征作出具有一定概率保证的估计和检验。因此,深入理解抽样分布的概念并掌握某些重要的抽样分布,对于进一步学习统计推断的其它方法将大有裨益。 统计量与抽样分布的概念 统计推断的目的,就是通过样本的特征值去推断总体的特征。在推断统计中将描述总体特征的指标都称为总体参数,而将反映样本特征的指标称为样本统计量。例如,总体的(总体均值)和σ(总体标准差)都是总体参数,而样本的X(样本均值)和S(样本标准差)就是样本统计量。因此,所谓推断,就是用样本统计量去推断总体参数。 样本统计量的数值是根据被抽取的样本数据计算的,在没有抽出具体样本之前,样本统计量的数值就不能确定,他是个随机变量。以X(样本均值)为例,当总体中有N个个体,从中抽出n个个体作为样本。如果采取非重复抽样的方式,将有CNn个抽法,也就是说可能有CNn个样本产生,每一个样本都可以计算出一个X(样本均值)的数值,CNn个样本就可以有CNn个X数值。由此可见,对于X来说,在没有确定抽出一个样本之前它是个不确定量,或者说是个随机变量。 概括的说,在已经抽取样本后,样本统计量是一个确切的数值;在未抽取样本之前,样本统计量就是一个随机变量。样本统计量虽然是个随机变量,但其变量值却具有某种概率分布,利用这些概率分布可以对总体参数进行有效的估计和检验。在统计学中,将这种样本统计量形成的概率分布称为抽样分布。常用的抽样分布有: 样本均值X的抽样分布 X2分布 t分布 F分布 样本均值抽样分布 不论总体服从什么分布,只要总体均值和总体方差σ2存在,当样本容量n足够大时,样本均值X的抽样分布就近似与正态分布。下图描述了来自不同总体分布的样本均值的抽样分布,可以看到,当n从2到30时,样本均值已经近似于正态分布了。如下图所示: 解析: 从一个x~N(,σ2)的正态总体中抽样时,样本均值X的抽样分布总是服从与正态分布,记为X~N(1,σ12),1是样本均值X所有可能取值的平均数。可以证明1=(样本均值和总体均值相等)。σ1是样本均值X所能取值的标准差,也称为平均数的抽样误差。σ1虽然在理论上可以求出,但在实际抽样中则很难求得。人们经常利用总体标准差σ来表示σ1,有两种情况: (1)从无限总体抽样或从有限总体重复抽样时 (2)从有限总体非重复抽样时 其中 被称为有限总体修正系数,在实际抽样中,当抽样比n/N<=0.05时,修正系数近似等于1,则上述两种计算式近似相等。 例题: 例如,有1,2,3,4,5组成的一个总体,现从中抽取2个数值为样本。如果重复抽样,将有5*5=25种抽法;如果非重复抽样,将有C52=10种抽法。我们将所有可能抽样结果列在表1和表2种: 从表1中的数据,可以计算得出:1=3,σ1=1。从表2中可以得出:2=3,σ2=0.866。 上述关于样本均值X抽样分布的特征值和σ都可以根据总体特征值得到。因为总体为1,2,3,4,5,所以可以计算得到=3,这与上述两种抽样方法计算的结果都相等,从而验证了=1=2=3.又已知总体的标准差 在重复抽样时 在非重复抽样时 由此可见,由公式计算得到了结果和实际计算得到的结果完全一致。 通过本例,我们主要说明以下三个问题: 1、样本均值X的抽样分布的特征值与总体参数存在着确切关系。 2、样本均值X是个随机变量,且服从概率分布。不论总体为何种分布,当n≥30时,总有X服从正态分布。所以,n≥30的样本被称为大样本;n<30的样本称为小样本。 3、重复抽样的抽样误差大于非重复重复抽样的抽样误差(1>0.866)。因此,实践中大多数抽样均使用非重复抽样。

    2016-09-04
    0
  • 小白学统计(25)通俗解释“大数据”及推断性统计学:抽样分布

    大数据 近两年来,大数据这个词火了,新闻媒体的报道铺天盖地,好像什么东西都要和它搭上边才能显得“高大上”。这些报道大多在阐述大数据的运用和作用,忽略它的理论基础,普通民众无法将其与生活实例联系起来,就让他们觉得不懂和高大上,这样的例子已经有很多,比如“纳米”、“光伏”等概念,很多商家在宣传自己产品的时候都会加上这些概念,可以提升产品的销售价格,甚至某些商家的产品和它们没有任何关系,也用它们进行虚假宣传,欺骗消费者。 大数据是什么呢通俗的解释:搜集或收集某个事件发生结果的历史数据,进行统计分析,推断出该事件在未来发生某个结果的概率。例如:某沙县小吃快餐店,店主会根据过去每天销售卤鸡腿的个数来准备原材料,避免不够卖或者卖不完,最大可能的赚取利润,降低成本,这个过程其实就是大数据分析的过程,只不过老板凭借的是主观经验,所以预测的结果不会很准确。如果这个老板引进专门设备进行数据的收集,并用某些统计分析模型进行数据分析,得出的结果就能够很准确,数据量越多,越海量,推断的结果就越准确。大数据其实就是海量历史数据的意思,随着计算机软件与硬件技术的发展,快速存储、调取和分析海量数据成为现实,所以大数据的运用越来越广泛并发挥重要的作用。 推断性统计学 推断性统计学就是用样本(历史数据)的估计量(离散型或连续型)推断总体(将来)的对应的参数值(离散型或连续型)。推断性统计学有4个理论组成部分:概率论,抽样理论,估计理论和假设检验理论。之前介绍过抽样理论的抽样设计(推断性统计学:抽样设计),抽样理论还有一个重要的内容是抽样分布,它是估计理论和假设检验理论的基础。 抽样分布介绍 通俗解释:如果某总体(容量为无限或者有限),从中取出容量为n的样本,并对样本进行试验,可以获得n个随机变量X,从而可以获得一套关于这n个随机变量X的均值,方差和标准差,当从这个总体k次取出容量为n的样本并进行试验,就可以获得k套的均值,方差和标准差,这些均值,方差和标准差的频数(概率)分布就称为抽样分布。 例如:调查某市中小学生的身高,第一次抽取500人作为样本并测量他们的身高,求出身高数据的均值,方差和标准差。重复k次这样的过程,可以得到k套500个学生样本的身高均值,方差和标准差,k个样本均值数据就组成了均值的抽样分布,k个方差数据组成了方差抽样分布,k个标准差组成了标准差抽样分布。 某些抽样分布很有特点,根据这些特点能够估计出总体的参数值,并计算出这些参数值的可靠性。 主要应用的抽样分布 卡方分布 T分布 F分布 两均值差的抽样分布

    2016-09-03
    0
  • 聪明的数据分析师也会常犯的错误

    在数据分析过程中,聪明的数据分析师也会常犯些错误

    2016-09-02
    0
  • 小白学统计(24)推断性统计学:抽样设计

    推断性统计学 大多数研究的目的是取得有关总体的一般真实情况。然而由于难以得到整个总体,所以需要从总体中抽取一个样本,然后运用统计方法,从样本信息推断关于总体某些特征的结论。为了使推断合理,样本必须在抽样设计的严格条件下抽取。 抽样设计 从总体中抽取合适样本的方法,使得由样本到总体的推断是合理的,这一过程称为抽样设计,即对一个存在的测量总体,制定一种从中抽取测量样本的方法。 抽取样本方法必须满足两个条件: (1) 独立性:从总体中抽取一个元素不影响其他任何元素的抽取概率。 (2) 随机性:每一次选取,总体中的所有元素(抽样单位)都有相同的被选概率。 根据自然总体划分,有以下三种情况: 1、对无限大总体的抽样是理想的抽样情形,满足上述条件,因为(1)总体分布抽样过程中保持不变,无论抽样是有放回还是无放回。(2)从这个不变总体中每次抽样时,总体的每一元素有相同的被取概率。(3)总体中元素的所有可能组合有相同的被取概率。(4)总体中所有元素有相同且相互独立的被取概率。 2、从有限总体有放回的抽样可以看做是从无限总体抽样。因为在各次选取中元素被放回,总体分布保持不变。从而可以认为满足上述所有来自无限总体的抽样条件。 3、从有限总体无放回抽样,违反了独立性条件,因为取走一个元素改变了所有剩余元素的被取概率。但是,如果有限总体的容量N相对于样本容量n较大(n≤5%N),则可认为这种违背不构成问题,否则,违反独立性条件。 四种抽样设计 简单随机抽样设计:就是使总体中所有抽样单元都有相等的概率被抽取到样本中去的一种抽样方法。 分层随机抽样设计:如果总体包含一些不重叠的互斥部分(称为层),这是由年龄、性别、种族或地理位置等因子引起的,如果这样的层存在,那么分层随机抽样设计从每一层抽取样本。这样获得的样本比简单随机抽样获得的样本更具有代表性,使推断更有效。若每一层的随机样本容量在样本中所占的比例与该层元素在总体中所占的比例相等,称为比例分层随机抽样,否则,称为非比例分层随机抽样。 系统随机抽样设计:如果抽样框架非常大,通常采用系统随机抽样。在系统随机抽样中,抽样框架中每隔k个元素都被选为样本元素,而第一个被抽取元素(称为初始元素)是从前k个元素中随机选择的。如果在抽样框架中存在明显的周期性或循环,应避免使用系统随机抽样。 整群随机抽样设计:如果一个总体很大且非常分散,那么整群随机抽样的抽样成本较低。将总体元素划分为若干互斥部分(称为群),每部分尽可能是异质的。整群随机抽样可以分为:单阶段整群随机抽样,两阶段整群随机抽样和多阶段整群随机抽样,区别是两阶段整群随机抽样是对单阶段整群随机抽样抽出的群再进行整群随机抽样,以此类推。例如,对国家进行民意调查,每一个省是异质的,可以看做抽样中的一个群,若进行单阶段整群随机抽样,则随机抽取若干个省,省内的每一个人都作为样本,若是两阶段整群随机抽样,则在抽取的省中再随机抽取若干个市,以此类推。

    2016-09-02
    0
  • 小白学统计(23)概率分布关系:正态分布作为泊松分布近似

    内容介绍: 正态分布能用于近似泊松分布。泊松分布的参数是μ=λ,可以证明λ增加,泊松分布接近μ=σ2=λ的正态分布。因此,只要λ足够大,就可以将泊松分布看作是μ=σ2=λ的正态分布,然后可以用标准正态分布方法计算面积(概率)值。因为这样得到的概率值只是泊松概率真实值的近似,所以正态分布的这种应用称为泊松分布的正态近似。如下图所示,λ增大,概率曲线越接近正态分布: 对于λ足够大不存在绝对的规则,但是同二项分布一样,有许多常用规则说明何时使用正态近似是合适的。其中,在许多统计学著作可以看到一个规则是:当λ大于等于5(λ≥5)时,可以使用泊松分布的正态近似。这个规则更严格的形式要求,λ必须大于等于10(λ≥10)。 范例分析: 某家电缆制造商从以往的生产过程的数据中发现,以6米为一单位的电缆,平均每6米有6个缺陷。现随机检查6米的电缆,计算有6、7或8个缺陷的概率。 1. 泊松分布方法: 根据题意,可以将上述过程看做一个泊松过程,单位长度6米内平均出现6个缺陷,所以λ=6,求P(6≤x≤8)。 2. 正态分布近似方法: 因为λ=6≥5,所以可以用正态分布作泊松分布的近似。连续型分布近似离散型分布,必须进行连续性修正(同),求泊松分布的P(6≤x≤8),用正态分布则需修正为P(5.5≤x≤8.5)。根据题意,已知μ=σ2=λ=6。计算过程如下: 从计算结果来看,用正态分布近似泊松分布的结果还是很好的。

    2016-09-01
    0
  • 什么是二项分布?

    二项分布是一种具有广泛用途的离散型随机变量的概率分布,它是由贝努里始创的,所以又叫贝努里分布。

    2016-08-23
    0
  • 小白学统计(22)概率分布关系:正态分布作为二项分布近似

    内容介绍: 计算二项分布的某个概率,需要对二项式展开(p+q)n的相关项相加,这是一个放缩的过程,而且对较大的n值或许得有一台计算机。上一篇(概率分布关系:泊松分布作为二项分布近似)指出,在一定条件下(当n≥20且q≤0.05时),可以使用泊松分布对二项概率进行近似。类似地,在一定条件下正态分布也是二项分布的一个良好近似,如下图所示,从而可用于计算二项分布的概率。由于这样得到的概率只是对二项概率真实值得近似,故正态分布的这种应用称为二项分布的正态近似。 只有所考虑的二项分布与正态分布相似,即对称且具有钟型,使用正态近似方法才是合适的,在以下两个条件下,上述结果成立: (1) p值(成功的概率)越接近0.5,二项分布越对称(图一)。 (2) 对任何p值,无论距离0.5多远,如果p值不变而n(试验次数,或样本容量)增大,得到的均值为np和方差为npq的二项分布在形状上越来越近似一个的正态分布(图二)。 那么,对于足够接近0.5或n充分大是否也有规则呢很多统计学著作找到一个规则是:当np和nq两者都大于等于5时,可以使用二项分布的正态近似。更严格一点就是np>5且nq>5。 连续型修正:为了用连续型分布近似离散型分布,必须将离散值看做一个区间,离散值就是使用每个测量区间的中点,而每个测量区间上下各延伸了0.5,比如测量二项分布变量8≤x≤10区间的概率,用正态近似就需要测量7.5≤x≤10.5区间的概率。 范例分析: 投掷一枚硬币14次出现正面的次数,计算在14次投掷中出现8、9或10次正面的概率,使用二项分布方法和正态近似分别计算。 (a) 用二项分布计算过程如下: (b) 由于np=nq=7>5,所有用正态近似是合适的。对均值为np=14*0.5=7,方差为npq=14*0.5*0.5=3.5的正态分布计算p(7.5≤x≤10.5)。将正态概率值变换成标准正态概率值。 从计算结果比较,二项计算值0.3666与正态近似值0.3629的计算结果基本相同,二项分布的正态近似结果很好。

    2016-08-22
    0
  • 开发者和IT人士成为数据科学家的学习路线

    这篇指南旨在帮助WEB开发者、软件工程师以及其他的IT从业者转行到数据分析/数据科学行业。

    2016-08-22
    0
  • 关于数据科学历史的新手指南

    尽管很多数据科学的支持者已经拿起大数据作为武器,并且提出新的主张和挑战,但是关于数据科学你还需要了解一些名字和日期。

    2016-08-22
    0
关注我们
关注我们
分享本页
返回顶部