统计学

  • 小白学统计(41)假设检验的“前世今生”

    概率理论和抽样理论是推断性统计的基础,而估计理论和假设检验理论是推断性统计的应用。

    2016-09-18
    0
  • 小白学统计(40)样本容量确定——估计总体方差的样本容量

    样本容量通常是由给定的抽样误差大小来确定。但是在由卡方(χ2)分布推导σ2的置信区间中,并没有提供抽样误差的形式。由卡方(χ2)分布的性质可知,随着样本容量n的增大,卡方(χ2)分布越来越对称,当n的数量充分大时,分布就近似正态分布。因此,在一定条件下,我们可以利用卡方(χ2)分布的这一特征,确定估计σ2时的样本容量。 如果来自正态总体的n很大(n≥100)时,样本方差S2的抽样分布近似正态分布,有μS2=σ2,σS2=σ2(2/n)-1.由此,根据确定参数置信区间的步骤,可得σ2的置信度为1-α的置信区间为 例子:先欲对某一产地每箱苹果质量的方差σ2进行估计。要求方差的抽样误差不超过0.08kg,置信度为95%。根据以往调查知道,每箱质量的方差是0.5kg。求应抽取多少箱苹果进行调查。 解:已知△S2=0.08,S2=0.5,Zα/2=1.96,将数据代入公式中,即可求得n。

    2016-09-17
    0
  • 小白学统计(39)抽样分布:卡方分布

    基础准备 之前已经具体介绍了不同已知条件下用样本均值来估计总体均值的方法: 小白学统计(32)估计理论:详述总体均值的单样本估计原理 小白学统计(35)不同条件的总体均值单样本估计方法总述 回顾总体均值的单样本估计,根据不同已知条件,可以对样本的抽样分布运用标准正态变换、t分布或切比雪夫(Chebyshev)不等式进行总体均值的估计。 那如何用样本方差(标准差)估计总体方差(标准差)呢?抽样分布中的卡方分布就是途径之一。 卡方分布 统计量及卡方分布定义 定义:卡方统计量的抽样分布称为卡方分布,如果大小为n的所有可能的样本取自方差为σ2的正态分布总体,且对每一样本计算卡方统计量的特定值,则这些特定值将有一个称作卡方分布的连续概率分布(抽样分布)。卡方分布由一个特定的唯一的概率密度函数所定义,函数为: 概率密度函数曲线如下,随着自由度的增加,曲线变成单峰的,且越来越对称。 卡方分布的临界值 单尾临界值 上面三个不等式都是右侧概率,正态分布和t分布是关于纵轴0对称的,所以,左侧概率就是负的右侧概率;但是从上面的卡方分布概率密度图可以知道,曲线不是关于0对称的(见下图),所以卡方分布的左侧概率为: 双尾临界值 同样的,正态分布和t分布是关于纵轴0对称的,所以,左侧概率就是负的右侧概率;但是卡方分布概率密度曲线不是关于0对称的,所以卡方分布的左侧概率和右侧概率是不同的,如下图: 卡方分布求正态总体方差的置信区间 以双尾为例,进行公式推导讲解。 如果所有容量为n的可能随机样本来自一个无限大的正态分布总体,且对每一样本计算连续随机变量的方差,利用卡方分布即可推导: 例题分析 社会如果你在食品公司就职,要求确定一标准袋薯片的平均“总脂肪”量(单位:克)。现分析了101袋,并得到下列结果:均值为18.2克,方差为0.56克。如果假定一标准袋的总脂肪量是正态分布的,给出总体均值和方差的90%置信区间。 解:因为是正态分布总体且总体方差未知,所以求总体均值可以用t分布精确求解或用标准正态分布近似(请见基础回顾表格);而求总体方差用到卡方分布,具体过程如下:

    2016-09-16
    0
  • 小白学统计(38)样本容量确定——总体成数P的样本容量

    如果抽样的目的是估计总体成数P的置信区间,则在给定的总体成数抽样误差△P和置信度1-α的条件下,可由以下公式确定样本容量。 从上面的式子中可以看到,都有要估计的总体成数P。因此,在计算n时,必须先确定一个P值。通常P可以通过以下几种方式确定: 1、用以前类似研究的最接近0.5的样本成数代替,这样可以使n较大; 2、通过试点调查,用样本成数代替P; 3、直接用0.5代替P值,这是P(1-P)为最大值。 例子:某城市电视台欲通过抽样调查估计该电视台的家庭收视率。要求估计的抽样误差不超过3%,置信度为95%。求应抽取多少家庭进行调查? 解:本例中收视率的调查是关于总体成数的问题。因为该城市家庭数未知,可视为无限总体。P未知,可用0.5代替。已知△P =0.03,1-α=0.95,查正态分布表,可得Zα/2=1.96。将数据代入公式中,可得样本容量n为 通过上面的计算结果可以知道,当有限总体很大时,所计算的n值与由无限总体抽样计算的n值相差无几。因此,在许多社会调查时,可以无需修正。

    2016-09-15
    0
  • 小白学统计(37)区间估计— —总体成数的置信区间

    在实践中,有许多情况要对总体成数进行估计。例如,通过样本合格品率估计总体的合格品率;通过样本的支持率估计总体的支持率等,这些都属于成数的估计问题。下面我们用p表示总体成数;用`p表示样本成数。对总体成数进行估计,就是用`p去估计p。当n为小样本时,`p为离散型变量,`p的概率分布为二项式分布。当n为大样本时,如果np>5,同时n(1-p)>5,则`p的概率分布近似为正态分布。 例: 某商场从顾客中随机抽取200人,其中持信用卡消费的顾客有6人。求在90%的置信度下,顾客持信用卡消费比例的置信区间。 解:本例是对总体成数估计的问题。有题中可知n=200,是大样本,用`p代表持信用卡消费顾客的样本比例,则`p=6/200=0.03。由于p未知,可用`p代替p。同时验证n`p=6,n(1-`p)=194都大于5,这样可通过公式得到p的置信区间。 已知1-α=0.9,α=0.1,查表得Z0.1/2=1.64,将本例数据带入公式中,得到p的置信区间为 在对总体成数估计时,总体单位数是否有限也会影响估计的精度,这与均值的估计公式一样。如果是从一个有限总体中抽样,则公式中要用修正因子进行修正,这时公式可以改为:

    2016-09-14
    0
  • 小白学统计(36)样本容量的确定—总体均值的样本容量确定

    在抽样之前,确定适当的样本容量是必须的。因为样本容量直接影响到抽样的误差大小以及抽样费用的多少。如果样本容量较大,就会减少抽样误差,提高估计总体参数的精度,但是抽样的费用就会相应增加;反之,样本容量较小,抽样费用可以降低,但抽样误差就会增大。所以,在抽样之前必须确定一个适当的样本容量。 所谓适当的样本容量,就是指能够满足研究者对抽样误差要求的应抽取的最少样本单位。这里所说的抽样误差是指由于被抽取样本的代表性所产生的误差,具体是指样本统计量的实际数值与总体参数之间的差值。例如,`X表示一个实际的样本均值,表示总体均值,则`X-就是抽样误差。一般意义上,我们用Δ`X表示总体均值允许的抽样误差,Δ`p表示总体成数允许的抽样误差,即有|`X-|=Δ`X,|`P-p|=Δ`p。根据抽样误差的定义可知,抽样误差的值可正可负,实际是指围绕总体参数左右波动的范围。 在确定样本容量时,需要考虑以下因素的影响: (1)总体中变量值的离散程度大小。在相同条件下,离散程度越大,则需抽出的样本容量就越多。一般用总体标准差表示离散程度的大小。 (2)置信度1-α的大小。置信度越高,需抽出的样本容量就越多。反之,则越少。 (3)允许的抽样误差大小。研究者如果能够允许较大的抽样误差,则可以减少抽样的数目,降低精度;如果研究者要求的抽样误差较小,则必须增加样本抽样数目。 估计总体均值时的样本容量 如果抽样的目的是为了估计总体均值的置信区间,则在给定Δ`X和置信度1-α的条件下,可用 在上面公式中,都含有总体标准差σ。如果σ已知,则可带入公式计算。如果σ未知,则可按以下方法近似确定σ值。 (1)用以前类似研究的数值最大的样本标准差代替,这样可以使n较大。 (2)做一次试点调查,用调查所得的样本标准差代替σ。 (3)对σ进行最优估计。如已知变量的极大值和极小值,可以用极值差除以4作为σ估计,即σ=(Xmax– Xmin)/4 这样估计的理论基础是,如果总体是正态分布,则约有95.45%的概率保证变量值是在的±2σ范围内,也即4σ范围。当然,理想的情况是变量值在±3σ范围内,也即6σ范围内,此时概率为99.74%。但是,在实践中,很少有这样完美的分布。所以,使用4σ比较合理。 例:假设我们要估计一家化工厂某种产品的平均日产量,已知日产量变动的标准差为±2t。如果要求估计平均日产量的置信度为95%,估计允许的误差为0.5t。求应抽取多少工作日进行调查? 解:本例是估计时确定n的问题。已知总体是无限的,所以可以用公式计算。σ=±2t,Δ`X=0.5t,1-α=95%,查正太分布表,得Zα/2=1.96。将这些数据带入公式 由此可见,误差减少一半,n将是原来的4倍。这说明在置信度1-α不变时,若要提高抽样的精度,则必须付出增加费用的代价。

    2016-09-13
    0
  • 如何成为一名数据科学家?

    数据科学需要哪些技能?如何才能学会这些技能?

    2016-09-12
    0
  • 小白学统计(35)不同条件的总体均值单样本估计方法总述

    基础准备 均值抽样分布: 小白学统计(25)通俗解释“大数据”及推断性统计学:抽样分布 小白学统计(27)抽样分布:详述均值的抽样分布及中心极限定理 小白学统计(28)抽样分布:t分布 估计原理:小白学统计(32)估计理论:详述总体均值的单样本估计原理 总体均值单样本估计条件 上一篇(回顾:小白学统计(32)估计理论:详述总体均值的单样本估计原理)进行总体均值单样本估计原理推导时,假设的前提条件:总体是无限大的正态分布总体且标准差已知,从而得到均值的抽样分布是正态分布的,但是很多情况下,对于总体信息是一无所知的,那该怎么分析呢? 总体均值单样本估计的概率公式推导过程如下(推导回顾:小白学统计(32)估计理论:详述总体均值的单样本估计原理): 推导过程有以下假设条件: 1、从公式1到公式2,抽样分布均值等于总体均值,即此时均值抽样分布是正态分布的,这需要满足总体是正态分布总体或样本容量大于30的中心极限定理(回顾:小白学统计(27)抽样分布:详述均值的抽样分布及中心极限定理),所以有两个决定因素:总体分布情况和样本容量。 2、公式4,计算总体均值的估计区间需要知道总体标准差σ。 3、可以得出推导条件有三个:总体分布情况、样本容量大小和总体标准差。 对三个条件列出下表: 上表对总体均值、总体标准差σ及样本容量进行了分类组合,并列出不同组合下均值抽样分布的情况,从而可以得到总体均值的估计区间公式以及这些公式对总体均值的近似程度。 表中打?的情况,如何进行总体均值的估计呢?这需要用到Chebyshev定理(下篇叙述)。 范例分析 从上表中可以知道,总体均值的估计区间公式有三种,即均值的抽样分布有三种:总体标准差已知的正态分布、总体标准差未知的正态分布和t分布,具体的范例建议回顾过往文章,里面有公式的推导过程和范例,这样有助于构建完整的推断逻辑,以后遇到不同组合的情况,能够迅速的知道均值抽样分布的类型和总体均值估计区间公式。 总体标准差已知的正态分布和总体标准差未知的正态分布请回顾:小白学统计(27)抽样分布:详述均值的抽样分布及中心极限定理; t分布请回顾:小白学统计(28)抽样分布:t分布;

    2016-09-12
    0
  • 小白学统计(34)总体参数的区间估计——小样本(n<30)条件下总体均值?的区间估计

    当n<30时,总体分布对样本均值`X的抽样分布有很大影响。如果总体服从正态分布,则`X服从正态分布;如果总体不服从正态分布,则`X的抽样分布很难判断,这时可以利用切比雪夫不等式对总体均值进行估计(后面会详细叙述)。下面我们仅介绍总体服从正态分布时,均值的区间估计。 1、总体标准差σ已知,的置信度为1-α的置信区间和大样本(n≥30)的公式一致 2、 总体标准差σ未知,的置信度为1-α的置信区间与大样本(n≥30)不同,对于正态分布总体,当n<30时,可以证明 即表示随机变量(`X-)/(S/n)服从自由度为n-1的t分布。由参数区间估计的确定步骤可以将上面的公式转换为的置信区间形式,即 例: 从某公司生存的一批罐装产品中,随机抽取10罐产品,测得每罐的质量分别为318,320,322,321,321,323,319,320,320,324(单位:g)。要求以95%的置信度,估计该公司这批产品平均质量的置信区间。已知罐装质量服从正态分布。 解:本例是从正态总体中抽取小样本的问题。因为N未知,可以不考虑修正因子。总体方差未知,需要根据样本数据计算样本均值`X和样本方差S。 又已知1-α=95%,α=5%,查表可得tα/2(n-1)=t0.05/2(10-1)=2.262,则的置信区间为 即该产品的平均质量为319.5g至322.1g之间,可靠程度为95%。 如果我们只关心产品质量的下限是否达到标准,则可以只对平均质量的单侧置信下限进行估计。假设其它条件相同 即有95%的可靠程度,估计该批产品平均质量的下限为319.8g。

    2016-09-11
    0
  • 小白学统计(33)大样本(n≥30)条件下总体均值?的区间估计

    大样本(n≥30)条件下的区间估计 当样本容量为大样本时,根据中心极限定理,样本均值`X的抽样分布以正态分布为极限,此时可以不用考虑通体的分布形式。估计时,根据总体标准差σ是否已知分为两种形式: 1、 总体标准差σ已知,的置信度为1-α的置信区间为 `X-Zα/2*σ/n<<`X+Zα/2*σ/n 2、 总体标准差σ未知,的置信度为1-α的置信区间为 `X-Zα/2*S/n<<`X+Zα/2*S/n 在有限总体中进行抽样时,如果是非重复抽样,要使用有限修正因子来修正估计平均误差。如果考虑修正因子,则上面的置信区间改写为 `X-Zα/2*σ/n*(N-n)/(N-1)<<`X+Zα/2*σ/n*(N-n)/(N-1) `X-Zα/2*S/n*(N-n)/(N-1)<<`X+Zα/2*S/n*(N-n)/(N-1) 大家在以后的使用中,需要根据给定条件来确定是否需要修正。 例1: 某大学从某一学院中随机抽取学生100人,得知他们平均每天用于体育锻炼的时间为26min。根据以往的数据知道,该学院大学生每天体育锻炼时间的标准差为12min。试求该学院大学生平均每天体育锻炼时间的置信区间,置信度为95.45%。 解:由题中可知:`X=26,n=100,σ=12,由1-α=95.45%,得α=0.0455。该学院虽为有限总体,但N未知,可看为无穷大,故不用考虑修正因子。查表得 Zα/2=Z0.0455/2=2,则的置信区间为 `X-Zα/2*S/n<<`X+Zα/2*S/n = (26-2*12/100,26+2*12/100) = (23.6, 28.4) 可以解释为:有95.45%的可靠程度,估计该学院大学生平均每天体育锻炼的时间在23.6~28.4min之间。 例2: 在例1中,如果已知该学院全部学生为1800人,其它已知条件同例1。试求该学院学生平均每天体育锻炼时间的置信区间。 解:与例1不同的是,总体单位N=1800已知,且n/N=0.056>0.05,因此需要用有限修正因子修正,则的置信区间为 `X-Zα/2*σ/n*(N-n)/(N-1)<<`X+Zα/2*σ/n*(N-n)/(N-1) = (26-2*12/100*(1800-100)/(1800-1), 26+2*12/100*(1800-100)/(1800-1)) = (23.7, 28.3) 可以解释为:有95.45%的可靠程度,估计该学院大学生平均每天体育锻炼的时间在23.7~28.3min之间。 从例1和例2估计的平均每天锻炼时间的结果做比较,可以看出,在同样的条件下,使用修正因子,可以提高估计的精度。

    2016-09-10
    0
  • Stack Overflow“数据科学家”工作一年总结

    人们了解网络开发者的工作,但是“数据科学家”是做什么的呢?(我可不是唯一一个被这么问的人。)

    2016-09-10
    0
  • 什么是非参数统计?

    在对总体的分布不作假设或仅作非常一般性假设条件下的统计方法称为“非参数统计”。

    2016-09-10
    0
  • 小白学统计(32)估计理论:详述总体均值的单样本估计原理

    基础准备 推断性统计学是统计科学的一部分,它提供了从样本特征对整个总体特征做出推断的逻辑和方法。推断性统计学在理论上有4个组成部分:概率论、抽样理论、估计理论和假设检验理论。这篇讲述估计理论在总体均值的单样本估计中的应用。 概率论:小白学统计(7)——推断理论基础(概率) 抽样理论: 小白学统计(24)推断性统计学:抽样设计 小白学统计(25)通俗解释“大数据”及推断性统计学:抽样分布 小白学统计(27)抽样分布:详述均值的抽样分布及中心极限定理 小白学统计(28)抽样分布:t分布 估计理论 估计理论提供了从样本统计量估计未知总体参数的方法。样本统计量是某些测量值样本特征的经验性数值量度,不能将样本的经验抽样分布与样本理论抽样分布及总体概率分布混淆。 两个概念 估计量:指任何一个对总体参数给出估计值的样本统计量,例如样本均值。 估计值:指从某一样本计算得到的估计量的一个具体数值。 点估计 对于来自一个测量总体的任何随机样本,如果对随机量(例如:样本的均值、方差或标准差)算得一个具体的数值(某个样本的均值、方差或标准差),用以估计总体的参数(例如:总体的均值、方差或标准差),则该数值称为总体参数(例如:总体的均值、方差或标准差)的一个点估计。 用点估计反映总体参数时,应该给出尽可能多的附加信息,使得便于评价估计值的准确度和精度。准确度受度量方法和抽样设计影响;精度则由固定容量n的样本标准差决定,标准差越小越精确。 尽管有点估计及其准确度和精度的一些信息,但是仍然未能从样本跳跃到总体,即未能把点估计与待估总体参数联系起来,给出估计对参数的接近程度或确定在估计值中存在多大的可能误差,为了从样本信息推断总体参数,需要用到区间估计。 区间估计 区间估计是一个从样本到总体的推断,区间估计将总体参数置于一个实区间上。区间的边界值由三个因素决定: 1、样本点估计值; 2、联系总体参数和样本点估计的样本统计量(如Z统计量,做正态变换得到); 3、该统计量的抽样分布(例如,样本均值的理论抽样分布服从正态分布,则Z统计量的抽样分布是标准正态分布); 总体均值的区间估计公式推导 上述推导给出了总体均值的区间估计的概率形式,基于要求:容量为n的单样本来自无限大且标准差已知的正态分布总体。 置信水平 在进行数据分析时,经常需要输入置信水平,大多数情况选择95%的置信水平,当然也可以选择其他的置信水平。什么是置信水平呢?通过上面的公式推导,得到了总体均值区间估计的概率表示: 其中的1-α称为置信系数,它的百分数表示形式(1-α)100%称为置信水平。 例题分析 社会学家正在研究居住在乡村的10-12岁儿童的看电视习惯,从N=39200个乡村儿童中无放回抽取n=50个儿童作为随机样本,得到每周看电视的平均时间为12.5小时,假设儿童每周看电视时间的总体服从正态分布,且标准差为2.2小时,则儿童每周平均看电视时间μ的96%置信区间是多少?

    2016-09-09
    0
  • 什么是方差?

    方差是各个数据与其算术平均数的离差平方和的平均数,通常以σ2表示。

    2016-09-09
    0
  • 小白学统计(31)推断统计基础:置信度与置信区间

    基础准备 结束了描述性统计学部分的内容后,就进入到推断统计学阶段。在这个阶段,主要任务就是交给大家用样本信息推断总体信息的原理及方法。点估计和区间估计,置信度和置信区间是推断性统计学的基础性内容。统计基础请前往下方获取导航页。 概念定义 先定义一些区间估计的概念: θ:待估计的总体参数; θL:由样本确定的置信下限; θU:由样本确定的置信上限; α:显著性水平,是大于0小于1的数值; 1-α:置信度; 如果由样本确定的两个统计量θL和θU满足P(θL<θ<θU)=1-α,就称随机区间(θL ,θU)是θ的置信度为1-α的置信区间。θL和θU分别称为置信度为1-α的置信下限和置信上限,1-α称为置信度。曾经估计小学生的平均身高是在1.40m和1.50m之间,可靠程度为95%。现在可以用公式将以上的叙述表达出来: P(1.40<<1.50)=95%; 式中的表示小学生的平均身高。(1.40<<1.50)是置信区间;95%是置信度,1.40m和1.50m分别是置信下限和置信上限。 置信区间的分类 双侧置信区间:上例中的(1.40<<1.50)属于双侧置信区间; 单侧置信区间:在有些场合下,我们只关心总体参数某一侧的界限。例如,对于产品的寿命来说,消费者只关心其寿命的下限,对其上限则希望越长越好;而对于许多成本,则正好相反。 区间估计原理 下面以估计正态总体的均值为例,说明区间估计的原理。 置信度与置信区间的关系 在估计总体参数时,一般都会给出一个较高的置信度,如95%或99%等。但是,当样本容量n一定时,置信度越高,置信区间就越大,也即估计的参数的相对精度就会越低。反之,置信度越低,则精度相对就会越高。

    2016-09-08
    0
关注我们
关注我们
分享本页
返回顶部