SPSS自带案例数据文件介绍及说明

img-spss-case

SPSS初学者对案例数据文件的需求很大,其实在SPSS软件包安装过程中,这些文件已经自动放在你的电脑硬盘中了。今天分享SPSS自带案例数据文件说明,详见下文:

accidents.sav

该假设数据文件涉及某保险公司,该公司正在研究给定区域内汽车事故的年龄和性别风险因子。每个个案对应一个年龄类别和性别类别的交叉分类。

adl.sav

该假设数据文件涉及在确定针对脑卒中患者的建议治疗类型的优点方面的举措。医师将女性脑卒中患者随机分配到两组中的一组。第一组患者接受标准的物理治疗,     而第二组患者则接受附加的情绪治疗。在进行治疗的三个月时间里,将为每个患者进行一般日常生活行为的能力评分并作为原始变量。

advert.sav

该假设数据文件涉及某零售商在检查广告支出与销售业绩之间的关系方面的举措。为此,他们收集了过去的销售数字以及相关的广告成本。

aflatoxin.sav

该假设数据文件涉及对谷物的黄曲霉毒素的检测,该毒素的浓度会因谷物产量的不同(不同谷物之间及同种谷物之间)而有较大变化。谷物加工机从 8 个谷物产量的每一个中收到 16 个样本并以十亿分之几 (PPB) 为单位来测量黄曲霉毒素的水平。

anorectic.sav

在研究厌食/暴食行为的标准症状参照时,研究人员1对 55 名已知存在进食障碍的青少年进行了调查。其中每名患者每年都将进行四次检查,因此总观测数为 220。在每次观测期间,将对这些患者按 16 种症状逐项评分。但 71 号和 76 号患者的症状得分均在时间点 2 缺失,47 号患者的症状得分在时间点 3 缺失,因此有效观测数为 217。

bankloan.sav

该假设数据文件涉及某银行在降低贷款拖欠率方面的举措。该文件包含     850 位过去和潜在客户的财务和人口统计信息。前 700 个个案是以前曾获得贷款的客户。剩下的 150 个个案是潜在客户,银行需要按高或低信用风险对他们进行分类。

bankloan_binning.sav

该假设数据文件包含 5,000 位过去客户的财务和人口统计信息。

behavior.sav

在一个经典示例中2,52 名学生被要求以 10 点的标度对 15 种情况和 15 种行为的组合进行评价,该 10 点的标度从 0 = “极得体”到 9 = “极不得体”。平均值在个人值之上,值被视为相异性。

behavior_ini.sav

该数据文件包含 behavior.sav的二维解的初始配置。

brakes.sav

该假设数据文件涉及某生产高性能汽车盘式制动器的工厂的质量控制。该数据文件包含对 8 台专用机床中每一台的 16 个盘式制动器的直径测量。盘式制动器的目标直径为 322 毫米。

breakfast.sav

在一项经典研究中3,21 名 Wharton School MBA 学生及其配偶被要求按照喜好程度顺序对 15 种早餐食品进行评价,从 1 =他们的喜好根据六种不同的情况加以记录,从“全部喜欢”到“只带饮料的快餐”。

breakfast-overall.sav

该数据文件只包含早餐食品喜好的第一种情况,即“全部喜欢”。

broadband_1.sav

该假设数据文件包含各地区订制了全国宽带服务的客户的数量。该数据文件包含 4 年期间 85 个地区每月的订户数量。

broadband_2.sav

该数据文件和 broadband_1.sav一样,但包含另外三个月的数据。

car_insurance_claims.sav

在别处被提出和分析的4关于汽车损坏赔偿的数据集。平均理赔金额可以当作其具有伽玛分布来建模,通过使用逆关联函数将因变量的平均值与投保者年龄、车辆类型和车龄的线性组合关联。提出理赔的数量可以作为刻度权重。

car_sales.sav

该数据文件包含假设销售估计值、订价以及各种品牌和型号的车辆的物理规格。订价和物理规格可以从 edmunds.com和制造商处获得。

car_sales_uprepared.sav

这是 car_sales.sav 的修改版本,不包含字段的任何已转换版本。

carpet.sav

在一个常用示例 5中,一家公司非常重视一种新型地毯清洁用品的市场营销,希望检验以下五种因素对消费者偏好的影响:包装设计、品牌名称、价格、优秀家用品标志和退货保证。包装设计有三个因子级别,每个因子级别因刷体位置而不同;有三个品牌名称(K2R、Glory和 Bissell);有三个价格水平;最后两个因素各有两个级别(有或无)。十名消费者对这些因素所定义的 22 个特征进行了排序。变量优选包含对每个概要文件的平均等级的排序。低等级与高偏好相对应。此变量反映了对每个概要文件的偏好的总体度量。

carpet_prefs.sav

该数据文件所基于的示例和在 carpet.sav中所描述的一样,但它还包含从 10 位消费者的每一位中收集到的实际排列顺序。消费者被要求按照从最喜欢到最不喜欢的顺序对 22 个产品概要文件进行排序。carpet_plan.sav中定义了变量 PREF1到 PREF22包含相关特征的标识。

catalog.sav

该数据文件包含某编目公司出售的三种产品的假设每月销售数据。同时还包括 5 个可能的预测变量的数据。

catalog_seasfac.sav

除添加了一组从“季节性分解”过程中计算出来的季节性因素和附带的日期变量外,该数据文件和 catalog.sav是相同的。

cellular.sav

该假设数据文件涉及某便携式电话公司在减少客户流失方面的举措。客户流失倾向分被应用到帐户,分数范围从 0 到 100。得到 50 分或更高分数的帐户可能会更换提供商。

ceramics.sav

该假设数据文件涉及某制造商在确定新型优质合金是否比标准合金具有更高的耐热性方面的举措。每个个案代表对一种合金的单独检验;个案中会记录合金的耐热极限。

cereal.sav

该假设数据文件涉及一份 880 人参于的关于早餐喜好的民意调查,该调查记录了参与者的年龄、性别、婚姻状况以及生活方式是否积极(根据他们是否每周至少做两次运动)。每个个案代表一个单独的响应者。

clothing_defects.sav

这是关于某服装厂的质量控制过程的假设数据文件。检验员要对工厂中每次大批量生产的服装进行抽样检测并清点不合格的服装的数量。

coffee.sav

这是关于六种冰咖啡的认知品牌形象6的数据文件。对于 23 种冰咖啡特征属性中的每种属性,人们选择了由该属性所描述的所有品牌。为保密起见,六种品牌用 AA、BB、CC、DD、EE 和 FF 来表示。

contacts.sav

该假设数据文件涉及一组公司计算机销售代表的联系方式列表。根据这些销售代表所在的公司部门及其公司的等级来对每个联系方式进行分类。同时还记录了最近一次的销售量、最近一次销售距今的时间和所联系公司的规模。

creditpromo.sav

该假设数据文件涉及某百货公司在评价最新信用卡促销的效果方面的举措。为此,随机选择了 500 位持卡人。其中一半收到了宣传关于在接下来的三个月内降低消费利率的广告。另一半收到了标准的季节性广告。

customer_dbase.sav

该假设数据文件涉及某公司在使用数据仓库中的信息来为最有可能回应的客户提供特惠商品方面的举措。随机选择客户群的子集并为其提供特惠商品,同时记录下他们的回应。

customer_information.sav

该假设数据文件包含客户邮寄信息,如姓名和地址。

customer_subset.sav

来自 customer_dbase.sav的拥有 80 个个案的子集。

debate.sav

该假设数据文件涉及在某政治辩论前后对该辩论的参与者所做的调查的成对回答。每个个案对应一个单独的响应者。

debate_aggregate.sav

该假设数据文件汇总了 debate.sav中的回答。每个个案对应一个辩论前后的偏好的交叉分类。

demo.sav

这是关于购物客户数据库的假设数据文件,用于寄出每月的商品。将记录客户对商品是否有回应以及各种人口统计信息。

demo_cs_1.sav

该假设数据文件涉及某公司在汇编调查信息数据库方面的举措的第一步。每个个案对应不同的城市,并记录地区、省、区和城市标识。

demo_cs_2.sav

该假设数据文件涉及某公司在汇编调查信息数据库方面的举措的第二步。每个个案对应来自第一步中所选城市的不同的家庭单元格,并记录地区、省、区、市、子区和单元格标识。还包括设计前两个阶段的抽样信息。

demo_cs.sav

该假设数据文件包含用复杂抽样设计收集的调查信息。每个个案对应不同的家庭单元格,并记录各种人口统计和抽样信息。

dmdata.sav

该假设数据文件包含直销公司的人口统计学和购买信息。dmdata2.sav包含收到试验邮寄的联系人子集的信息,dmdata3.sav包含未收到试验邮寄的其余联系人的信息。

dietstudy.sav

该假设数据文件包含对 “Stillman     diet” 7     的研究结果。每个个案对应一个单独的主体,并记录其在实行饮食方案前后的体重(磅)以及甘油三酸酯的水平(毫克/100 毫升)。

dvdplayer.sav

这是关于开发新的 DVD 播放器的假设数据文件。营销团队用原型收集了焦点小组数据。每个个案对应一个单独的被调查用户,并记录他们的人口统计信息及其对原型问题的回答。

german_credit.sav

该数据文件取自加州大学欧文分校的 Repository of     Machine Learning Databases 8中的 “German credit” 数据集。

grocery_1month.sav

该假设数据文件是在数据文件 grocery_coupons.sav的基础上加上了每周购物“累计”,所以每个个案对应一个单独的客户。所以,一些每周更改的变量消失了,而且现在记录的消费金额是为期四周的研究过程中的消费金额之和。

grocery_coupons.sav

该假设数据文件包含由重视顾客购物习惯的杂货连锁店收集的调查数据。对每位顾客调查四周,每个个案对应一个单独的顾客周,并记录有关顾客购物地点和方式的信息(包括那一周里顾客在杂货上的消费金额)。

guttman.sav

Bell 9创建了一个表,用来阐释可能的社会群体。Guttman 10引 用了该表的一部分,其中包括五个变量,用于描述以下七个理论社会群体的社会交往、对群体的归属感、成员的物理亲近度以及关系正式性:观众(比如在足球比赛     现场的人们)、听众(比如在剧院或听课堂讲座的人们)、公众(比如报纸或电视观众)、组织群体(与观众类似但具有紧密的关系)、初级群体(关系密切)、次 级群体(自发组织)及现代社区(因在物理上亲近而导致关系松散并需要专业化服务)。

health_funding.sav

该假设数据文件包含关于保健基金(每 100 人的金额)、发病率(每 10,000 人的比率)以及保健提供商拜访率(每 10,000 的比率)的数据。每个个案代表不同的城市。

hivassay.sav

该假设数据文件涉及某药物实验室在开发用于检测 HIV 感染的快速化验方面的举措。化验结果为八个加深的红色阴影,如果有更深的阴影则表示感染的可能性很大。用 2,000 份血液样本来进行实验室试验,其中一半受到 HIV 感染而另一半没有受到感染。

hourlywagedata.sav

该假设数据文件涉及在政府机关和医院工作的具有不同经验水平的护士的时薪。

insurance_claims.sav

该假设数据文件涉及某保险公司,该公司希望构建一个模型用于标记可疑的、具有潜在欺骗性的理赔。每个个案代表一次单独的理赔。

insure.sav

该假设数据文件涉及某保险公司,该公司正在研究指示客户是否会根据     10 年的人寿保险合同提出理赔的风险因子。数据文件中的每个个案代表一副根据年龄和性别进行匹配的合同,其中一份记录了一次理赔而另一份则没有。

judges.sav

该假设数据文件涉及经过训练的裁判(加上一个体操爱好者)对     300 次体操表演给出的分数。每行代表一次单独的表演;裁判们观看相同的表演。

kinship_dat.sav

Rosenberg 和 Kim 11     开始分析 15 个亲属关系项(伯母、兄弟、表兄妹、女儿、父亲、孙女、祖父、祖母、孙子、母亲、侄子或外甥、侄女或外甥女、姐妹、儿子和叔叔)。他们让四组大学生(两组     女同学,两组男同学)根据相似程度将各项排序。他们让其中的两组同学(一组女同学,一组男同学)进行了两次排序,第二次排序和第一次排序采取的标准不同。 这样,一共得到六组“源”。每个源对应一个 15     x 15 的近似值矩阵,其单元格中的值等于源中的人数减去此源中对象被划分的次数。

kinship_ini.sav

该数据文件包含 kinship_dat.sav的三维解的初始配置。

kinship_var.sav

该数据文件包含自变量 gender、gener(ation) 和 degree (of separation),这些变量可用于解释     kinship_dat.sav的解的维数。具体而言,它们可用来将解的空间限制为这些变量的线性组合。

marketvalues.sav

该数据文件涉及 1999–2000 年间 Algonquin,Ill. 地区新的房屋开发中的住房销售。这些销售仅仅来自公众记录。

nhis2000_subset.sav

美国健康访问调查 (NHIS) 是针对美国全体公民的大型人口调查。该调查对美国的具有全国代表性的家庭样本进行了面对面的访问,并获取了每个家庭的成员的健康行为和健康状态的人口统计     信息和观察数据。该数据文件包含取自 2000 年调查信息的子集。国家健康统计中心。2000 年美国健康访问调查。公用数据文件和文档。ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Datasets/NHIS/2000/。2003 年发布。

ozone.sav

这些数据包含了用来根据其余变量预测臭氧浓度的六个气象变量的     330 个观察值。在以前的研究人员中,12和 13发现了这些变量之间的非线性,这妨碍了标准回归方法。

pain_medication.sav

该假设数据文件包含用于治疗慢性关节炎疼痛的抗炎药的临床试验结果。我们感兴趣的是该药见效的时间以及它和现有药物的比较。

patient_los.sav

该假设数据文件包含被医院确诊为疑似心肌梗塞(即 MI 或“心脏病发作”)的患者的治疗记录。每个个案对应一位单独的患者,并记录与其住院期有关的一些变量。

patlos_sample.sav

该假设数据文件包含在治疗心肌梗塞(即 MI 或“心脏病发作”)期间收到溶解血栓剂的患者的样本治疗记录。每个个案对应一位单独的患者,并记录与其住院期有关的一些变量。

poll_cs.sav

该假设数据文件涉及民意测验专家在确定正式立法前公众对法案的支持水平方面的举措。个案对应注册的选民。每个个案记录选民居住的县、镇、区。

poll_cs_sample.sav

该假设数据文件包含在 poll_cs.sav中列出的选民的样本。该样本是根据 poll.csplan中指定的设计来选取的,而且该数据文件记录包含概率和样本权重。请注意,由于该抽样计划使用与大小成正比 (PPS) 方法,因此,还有一个文件 (poll_jointprob.sav)     包含联合选择概率。在选取了样本之后,对应于选民人群统计信息及其对提交法案的意见的附加变量将被收集并添加到数据文件。

property_assess.sav

该假设数据文件涉及某县资产评估员在利用有限的资源不断更新资产价值评估方面的举措。个案对应过去一年中县里所出售的资产。数据文件中的每个个案记录资产所在的镇、最后评估资产的评估员、该次评估距今的时间、当时的估价以及资产的出售价格。

property_assess_cs.sav

该假设数据文件涉及某州资产评估员在利用有限的资源不断更新资产价值评估方面的举措。个案对应该州的资产。数据文件中的每个个案记录资产所在的县、镇和区,最后一次评估距今的时间以及当时的估价。

property_assess_cs_sample.sav

该假设数据文件包含在 property_assess_cs.sav中列出的资产的样本。该样本是根据 property_assess.csplan中指定的设计来选取的,而且该数据文件记录包含概率和样本权重。在选取了样本之后,附加变量 Current value将被收集并添加到数据文件。

recidivism.sav

该假设数据文件涉及某政府执法机构在了解其管辖区域内的屡犯率方面的举措。每个个案对应先前的一名罪犯,并记录其人口统计信息和第一次犯罪的详细资料;如果在第一次被捕后两年内又第二次被捕,则还将记录两次被捕间隔的时间。

recidivism_cs_sample.sav

该假设数据文件涉及某政府执法机构在了解其管辖区域内的屡犯率方面的举措。每个个案对应在 2003 年 6 月期间第一次被捕释放的先前的一名罪犯,并记录其人口统计信息和第一次犯罪的详细资料,及其第二次被捕的数据(如果发生在 2006 年 6 月底之前)。根据 recidivism_cs.csplan中指定的抽样计划从抽样部门选择罪犯;该计划使用与大小成正比 (PPS) 方法,因此,还有一个文件 (recidivism_cs_jointprob.sav)     包含联合选择概率。

rfm_transactions.sav

此假设数据文件包含购买交易数据,即每笔交易的购买日期、购买商品和消费金额。

salesperformance.sav

这是关于评估两个新的销售培训课程的假设数据文件。60 名员工被分成 3 组且都接受标准的培训。另外,组 2 接受技术培训;组 3 接受实践教程。在培训课程结束时,对每名员工进行测验并记录他们的分数。数据文件中的每个个案代表一名单独的受训者,并记录其被分配到的组以及测验的分     数。

satisf.sav

该假设数据文件涉及某零售公司在 4 个商店位置所进行的满意度调查。总共对 582 位客户进行了调查,每个个案代表一位单独客户的回答。

screws.sav

该数据文件包含关于螺钉、螺栓、螺母和图钉的特征的信息14。

shampoo_ph.sav

这是关于某发制品厂的质量控制的假设数据文件。在规定的时间间隔对六批独立输出的产品进行检测并记录它们的 pH 值。目标范围是 4.5–5.5。

ships.sav

在别处被提出和分析的15关于波浪对货船造成的损坏的数据集。在给定了船的类型、建造工期和服务期后,可以根据以泊松比率发生来为事件计数建模。在因子交叉分类构成的表格中,每个单元格的汇总服务月数提供遇到风险的值。

site.sav

该假设数据文件涉及某公司在为扩展业务而选择新址方面的举措。该公司聘请了两名顾问分别对选址进行评估,除了提供长期报告外,他们还要以“前景颇佳”、“前景良好”或“前景不佳”来对每个选址进行总结。

smokers.sav

该数据文件摘自 1998 年全国家庭药物滥用调查并且是美国家庭的概率样本。(http://dx.doi.org/10.3886/ICPSR02934) 因此,分析该数据文件的第一步应该是对数据进行加权以反映总体趋势。

stocks.sav该假设数据文件包含某一年的股票价格和成交量。

stroke_clean.sav

该假设数据文件包含某医学数据库在经过“数据准备”选项中的过程清理后的状态。

stroke_invalid.sav

该假设数据文件包含某医学数据库的初始状态及一些数据输入错误。

stroke_survival

此假设数据文件涉及正在研究结束缺血性中风后复元计划的患者存活时间的研究人员面临着很多挑战。中风后,记录心肌梗塞、缺血性中风或出血性中风的发生及其时间。样本为左侧截断,因为只包含在中风后管理的复元计划结束后存活的患者。

stroke_valid.sav

该假设数据文件包含在使用“验证数据”过程检查值后,某医学数据库的状态。它仍包含潜在异常个案。

survey_sample.sav

此数据文件包含调查数据,包括人口统计学数据和各种态度测量。它基于 1998 NORC 综合社会调查的变量子集,但某些数据值已经过修改,并添加了其他虚拟变量以供演示用途。

telco.sav

该假设数据文件涉及某电信公司在减少客户群中的客户流失方面的举措。每个个案对应一个单独的客户,并记录各类人口统计和服务用途信息。

telco_extra.sav

该数据文件与 telco.sav数据文件类似,但删除了 “tenure” 和经对数转换的客户消费变量,代替它们的是标准化的对数转换客户消费变量。

telco_missing.sav

该数据文件是 telco.sav数据文件的子集,但某些人口统计数据值已被缺失值替换。

testmarket.sav

该假设数据文件涉及某快餐连锁店为其菜单添加新项目的计划。有三种可能的促销新产品的活动,所以会在多个随机选择的市场中的地点引入新的项目。在每个地点采用不同的促销方式,并记录新项目前四周的每周销售情况。每个个案对应单独地点的一周。

testmarket_1month.sav

该假设数据文件是在数据文件 testmarket.sav的基础上加上了每周销售“累计”,所以每个个案对应一个单独的地点。所以,一些每周更改的变量消失了,而且现在记录的销售是为期四周的研究过程中的销售之和。

tree_car.sav

该假设数据文件包含人口统计和车辆购买价格数据。

tree_credit.sav

该假设数据文件包含人口统计和银行贷款历史数据。

tree_missing_data.sav

该假设数据文件包含具有大量缺失值的人口统计和银行贷款历史数据。

tree_score_car.sav

该假设数据文件包含人口统计和车辆购买价格数据。

tree_textdata.sav

这是一个只有两个变量的样本数据文件,主要打算在指定测量级别和值标签之前显示变量的缺省状态。

tv-survey.sav

该假设数据文件涉及由某电视演播室进行的一项关于是否要继续制作一档成功的节目的调查。906 位响应者被问及他们在各种情况下是否会收看该节目。每行代表一位单独的响应者;每列代表一种单独的情况。

ulcer_recurrence.sav

此文件包含某项研究的部分信息,该研究旨在比较两种用来防止溃疡复发的治疗的功效。它提供了区间数据的优秀示例并且已在别处被提出和分析16。

ulcer_recurrence_recoded.sav

该文件重新组织 ulcer_recurrence.sav中的信息以允许为研究的每个区间的事件概率建模而不是简单地为研究结束事件概率建模。它已在别处被提出和分析17。

verd1985.sav

该数据文件涉及某项调查18。该调查记录了 15 个主体对 8 个变量的响应。需要处理的变量被分成 3 个集。数据集 1 包含 年龄 和 婚姻;数据集 2 包含 宠物 和 新闻;数据集 3 包含     音乐 和 居住。宠物被刻度化为多名义而年龄被刻度化为有序;所有其他变量都被刻度化为单名义。

virus.sav

该假设数据文件涉及某因特网服务提供商 (ISP) 在确定病毒对其网络的影响方面的举措。他们从发现病毒到威胁得以遏制这段时间内跟踪其网络上受感染的电子邮件的流量的(近似)百分比。

wheeze_steubenville.sav

这是关于空气污染对儿童健康影响的纵向研究的一个子集19。这些数据包含儿童的气喘状况的重复二分类测量(这些儿童来自 Steubenville,Ohio,年龄为 7 到 10 岁),以及母亲在研究的第一年中是否为吸烟者的固定记录。

workprog.sav

该假设数据文件涉及一份尝试为弱势群体提供较好的工作的政府工作计划。文件后还有一个潜在计划参与者的样本,其中一些参与者是被随机选择来参加该计划的,而其他参与者则不是。每个个案代表一位单独的计划参与者。

worldsales.sav

该假设数据文件包含按不同大洲和产品列出的销售收入。

以上为全部案例数据文件简要说明,节选自SPSS.20自带说明文件,仅供学习使用。

作者:数据小兵

来自:http://www.datasoldier.net/post/shuoming.html

数据小兵

数据小兵

资深数据分析博主,SPSS自学教练,百度百家、百度阅读专业作者,博客www.datasoldier.net,微信号datasoldier。
数据小兵

注:数据分析网遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏,请联系主编邮箱:afenxi@afenxi.com

分享到:更多

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址