统计学

  • 小白学统计(52)成对样本两个总体均值差的假设检验

    今篇着重介绍成对(配对)两样本的两总体均值之差假设检验

    2016-10-10
    0
  • 小白学统计(51)两样本估计和假设检验基础

    估计和假设检验根据样本数的不同,分为:单样本估计和假设检验;两样本估计和假设检验;多样本估计和假设检验。

    2016-10-09
    0
  • 小白学统计(50)假设检验时,样本容量的确定

    如果统计量的数值落在接受域内,则作出的结论可能犯“取伪”错误,而且犯“取伪”错误的概率β是不可知的。

    2016-10-08
    0
  • 小白学统计(48)单样本假设检验范例分析及违背假定的情况

    对于标准差未知的总体均值,总体方差和总体标准差的假设检验应该如何进行呢?

    2016-10-06
    0
  • 小白学统计(47)总体参数的区间估计——小样本(n<30)条件下总体均值?的区间估计

    当n<30时,总体分布对样本均值`X的抽样分布有很大影响。

    2016-10-05
    0
  • 以偏概全?你真的了解客户画像吗?

    企业通过大数据建立客户画像,以此找到客户需求,进行精准营销。然而,许多人认为线上数据不具有代表性,无法代表线下市场,真的是这样吗?

    2016-09-29
    0
  • 数据分析的坑,都在统计学里埋过

    此文为《赤裸裸的统计学》读后感,结合着一些互联网分析的知识来看,发现很多理念隐隐有互通之处,十分有趣。推荐大家阅读。

    2016-09-28
    0
  • 小白学统计(46)总体参数的区间估计——大样本(n≥30)条件下总体均值?的区间估计

    大样本(n≥30)条件下的区间估计 当样本容量为大样本时,根据中心极限定理,样本均值`X的抽样分布以正态分布为极限,此时可以不用考虑通体的分布形式。估计时,根据总体标准差σ是否已知分为两种形式: 1、 总体标准差σ已知,的置信度为1-α的置信区间为 `X-Zα/2*σ/n<<`X+Zα/2*σ/n 2、 总体标准差σ未知,的置信度为1-α的置信区间为 `X-Zα/2*S/n<<`X+Zα/2*S/n 在有限总体中进行抽样时,如果是非重复抽样,要使用有限修正因子来修正估计平均误差。如果考虑修正因子,则上面的置信区间改写为 `X-Zα/2*σ/n*(N-n)/(N-1)<<`X+Zα/2*σ/n*(N-n)/(N-1) `X-Zα/2*S/n*(N-n)/(N-1)<<`X+Zα/2*S/n*(N-n)/(N-1) 大家在以后的使用中,需要根据给定条件来确定是否需要修正。 例1: 某大学从某一学院中随机抽取学生100人,得知他们平均每天用于体育锻炼的时间为26min。根据以往的数据知道,该学院大学生每天体育锻炼时间的标准差为12min。试求该学院大学生平均每天体育锻炼时间的置信区间,置信度为95.45%。 解:由题中可知:`X=26,n=100,σ=12,由1-α=95.45%,得α=0.0455。该学院虽为有限总体,但N未知,可看为无穷大,故不用考虑修正因子。查表得 Zα/2=Z0.0455/2=2,则的置信区间为 `X-Zα/2*S/n<<`X+Zα/2*S/n = (26-2*12/100,26+2*12/100) = (23.6, 28.4) 可以解释为:有95.45%的可靠程度,估计该学院大学生平均每天体育锻炼的时间在23.6~28.4min之间。 例2: 在例1中,如果已知该学院全部学生为1800人,其它已知条件同例1。试求该学院学生平均每天体育锻炼时间的置信区间。 解:与例1不同的是,总体单位N=1800已知,且n/N=0.056>0.05,因此需要用有限修正因子修正,则的置信区间为 `X-Zα/2*σ/n*(N-n)/(N-1)<<`X+Zα/2*σ/n*(N-n)/(N-1) = (26-2*12/100*(1800-100)/(1800-1), 26+2*12/100*(1800-100)/(1800-1)) = (23.7, 28.3) 可以解释为:有95.45%的可靠程度,估计该学院大学生平均每天体育锻炼的时间在23.7~28.3min之间。 从例1和例2估计的平均每天锻炼时间的结果做比较,可以看出,在同样的条件下,使用修正因子,可以提高估计的精度。

    2016-09-23
    0
  • 小白学统计(45)单样本的假设检验

    基础准备 假设检验基础概念回顾: 小白学统计(41)假设检验的“前世今生” 单样本假设检验的应用 假设检验需要设立一对统计假设:原假设(零假设)和备择假设(对立假设)。其中原假设一般是一明确的语句:未知的总体参数等于某个特殊的数值,然后对其进行检验。因此,单样本假设检验可用于探测参数的变化,例如:在科学研究中,检验某新型的汽油添加剂是否能增加每升油的行驶公里数?某新型血压药对体温是否有影响?在工业质量控制中,工厂检查其薯片产品是否与列在包装上的脂肪含量一致;检查巧克力的重量是否与包装上重量一致等等。 单样本假设检验步骤 单样本假设检验步骤如下: (1)选择零假设和对立假设; (2)选择显著水平α; (3)决定检验统计量,由此统计量及α来确定检验的决策规则,并用P值或临界值描述; (4)从总体取一随机样本,并从样本计算检验统计量的值,若可能,计算P值; (5)由样本结果和决策规则决定是拒绝还是接受原假设(零假设); (6)检验的功效。 (1)选择零假设和对立假设 一个零假设和一个对立假设组成一对统计假设(原假设和对立假设的概念描述请回顾:假设检验原理——原假设和备择假设的建立),这样成对的统计假设可以分为两类三种:单侧假设检验和双侧假设检验(两类);无方向对立假设、左向对立假设和右向对立假设(三种)。那如何选择统计假设呢? 单侧假设检验:只有一个方向上的变化是重要的(某种新型减肥药实际减肥多少)或研究的假设预告了一个具体的变化方向(某种新的治疗肿瘤会减小)时用单侧假设合适。有的需要检验是否变大,有的检验是否变小。 双侧假设检验:对于探索性研究和质量控制,因为任何一个方向的变化都要检查,单检验就不合适了,应该用双侧假设检验,例如控制产品的重量和产品内某种物质的含量。 (2)选择显著水平α 回忆估计理论,总体均值的区间估计概率公式如下: 其中,1-α称为置信度或置信系数,(1-α)100%称为置信水平。以双尾为例,如下图: 在假设检验理论中,α是假设检验的显著水平,这是因为它用以评估样本结果的显著性,如果点估计值与零假设中的假设参数有很大差别,以至于P≤α,则拒绝零假设,该结果称为统计显著;如果P>α,则接受零假设,该结果称为不是统计显著的。如上图所示,临界域即为统计显著域,接受域为非统计显著域。 显著水平α在试验前设定为0.05或0.01。例如当α=0.05时,分析人员会在报告中说明“统计假设检验是在0.05显著水平(或5%显著水平)下进行的”,如果P≤0.05,则拒绝零假设,该结果称为统计显著;如果P>0.05,则接受零假设,该结果称为不是统计显著的。 从上图中可以看出,如果P≤0.05,阴影面积比P≤0.01的大,所以P≤0.05可说成是“显著的结果”,P≤0.01可说成是“高度显著的结果”。P≤0.01比P≤0.05发生第一类错误的概率α小。 (3)决定检验统计量,由此统计量及α来确定检验的决策规则,并用P值或临界值描述; (4)从总体取一随机样本,并从样本计算检验统计量的值,若可能,计算P值; 根据假设检验的总体参数和已知的信息,选择假设检验的统计量。在上一篇:假设检验的“前世今生”中解释过合适的统计量是假设检验的基础。 对于总体均值的假设检验,可用下表选择: 对于总体方差的假设检验,可以用卡方分布。 下面以Z统计量为例,说明假设检验原理: 如果在(1)中设定的总体均值的统计假设是双侧假设:H0:μ=μ0;H1:μ≠μ0。假定零假设为真,则可知:如果所有容量为n的随机样本来自于无限大的正态总体(已知标准差为σ),且对每一样本计算均值,该情况下均值的抽样分布是正态分布: 因为抽样分布为正态分布,可进行正态变换,将抽样分布统计量变换为Z统计量: 变换后的Z统计量可以用来度量零假设为真的可能性。如果对一个给定样本计算Z统计量的特定值,几座z1,若z1=0,该样本均值一定等于μ0(红框公式),因而H0:μ=μ0很可能为真。然后,当z1是一较大数时,在零的正或负向,即z1=α或z1=-α,则样本均值与μ0有相当距离,因此,H0:μ=μ0不太可能为真。通过计算P值,即可将可能性量化,进而进行统计假设检验决策。如下图所示: P值得计算: 对于双侧假设检验,P值就是两个阴影部分的面积和(如上图所示);如果是单侧假设检验,就是左侧面积或者右侧面积。阴影部分面积用标准正态分布表查得。 (5)由样本结果和决策规则决定是拒绝还是接受原假设(零假设); 将计算得到的P值与显著水平α比较,P≤α,则拒绝零假设,接受对立假设;如果P>α,则接受零假设。 另外也可以通过比较临界z值来决定是拒绝还是接受零假设。因为P值和z值是等价的,例如,如果z1>1.645成立,则P≤0.05成立。 (6)检验的功效 在两类错误介绍中:假设检验——两类错误,可列出下面的表格: 从表格可以知道,第一类错误(零假设为真拒绝)的概率α是检验的显著性水平:若P≤α,则拒绝零假设。然而在任何此种统计决策中,存在第二类错误:就是零假设不真被接受,它的概率是β。α和1-α是已知的,由研究者在检验前设置,但β和1-β的值是不能确定的,因为不知道总体的参数,所以无法证明H0的真与不真。但是α和β的关系是相反的:α越大,β越小,反之亦然。如下图所示:α越大,接受域越小,接受不真的零假设的概率β也越小。 假设检验的功效就是正确拒绝错误零假设的概率1-β。求解方法见例题。 范例分析 如果某电池生产商最近设立了一个改进计算器电池的项目,要求改进的电池比现有的电池使用时间长,已知现在计算器中,电池寿命的量度是正态分布的,均值为100.3min,标准差为 6.25min。现在开发了一种改进电池,在理论上可能持续更长时间,由初步检验可以假定期寿命量度也是正态分布,标准差为6.25min。选取了一个n=20的改进电池的样本,得到均值为 105.6min,在显著水平α=0.05下,作H0: μ=100.3min的单侧检验,并用P值(z值)叙述决策。 假设功效,如下图所示:

    2016-09-22
    0
  • 小白学统计(44)假设检验原理:两类错误

    在进行假设检验时,一般按以下四个步骤顺序进行:1、根据问题建立原假设和备择假设;2、选择适当的样本统计量,并确定以H0为真时的抽样分布;3、选定显著性水平α,确定临界值;4、进行判别,得出结论。

    2016-09-21
    0
  • 小白学统计(43)假设检验原理——接受域和拒绝域

    假设设定以后,需要设定一个判别标准,用以判断样本数据为多少时才可以接受原假设或者拒绝原假设。

    2016-09-20
    0
  • 小白学统计(42)假设检验原理——原假设和备择假设的建立

    在参数检验中,首先要对某一总体参数建立一个假设,并在随后的抽样推断中以这一假设为前提进行检验。这一假设被称为原假设,用H0表示。如果检验的结果不能拒绝原假设,就接收这一假设。

    2016-09-19
    0
关注我们
关注我们
分享本页
返回顶部