首页 养生问答 疾病百科 养生资讯 女性养生 男性养生
您的当前位置:首页正文

应用统计习题参考答案教材

2021-03-12 来源:华佗健康网
各章节部分习题参考答案

第2章

3.

(3)帕累托图和饼图都可以了解哪些资源是主要的电力资源来源;帕累托图能直观表示主要电力资源的百分比。

4.

(2)应该重点关注房间脏、房间不足,房间需要清洁,房间未准备好等投诉理由,因为这些因素占了73.59%的投诉理由。

5. (1) 数据的最大值为8.498,最小值为8.312,拟把数据分成10组, 组距约等于0.0186,取组距为0.019.得到的频数分布表如下所示

各章节习题参考答案

(2) 频数分布直方图

18161412108642012345组限#678910频数

频数分布百分比

35.0030.00频数分布百分比25.0020.0015.0010.005.000.0012345组限#678910

(3)所有的槽都达到了公司的要求,尺寸介于8.31与8.61之间

• 361 •

应用统计学 6. 行百分比表

喜欢买衣

服 是 否 总计

列百分比表

喜欢买衣

服 是 否 总计

总百分比表

喜欢买衣

服 是 否 总计

男 27.2 20.8 48 女 44.8 7.2 52 总计

72 28 100 男 56.67 43.33 100.00

女 86.15 13.85 100.00

总计 72.00 28.00 100.00

男 37.78 74.29 48.00

女 62.22 25.71 52.00

总计 100.00 100.00 100.00

女不喜欢买衣服喜欢买衣服男050100150200250

(3)喜欢买衣服的女性比例高于男性比例 7. (1)

分组 0~100 100~200 200~300 300~400

频数

3 7 8 11

百分比

6 14 16 22 累积百分比

6 20 36 58

• 362 •

各章节习题参考答案 400~500 500~600 600~700 700~800 800~900 900~1000 >1000 合计

(2)

121086频数420123456 4 3 4 2 1 1 50 12 8 6 8 4 2 2 100

70 78 84 92 96 98 100

6分组#7891011

右偏分布 (3)

12108频数6420123456分组#7891011频数1210864200246分组#81012

120100累积百分比80604020012345分组#678910 • 363 •

应用统计学 8.

分组上限 频数

50 55 60 65 70 75 80 85 90 95 100 合计

9876频数百分比 2 1 3 3 5 7 6 6 8 4 3 48

累积百分比

4.17 4.17 2.08 6.25 6.25 12.50 6.25 18.75 10.42 29.17 14.58 43.75 12.50 56.25 12.50 68.75 16.67 85.42 8.33 93.75 6.25 100.00 100

543210123456分组7891011

左偏分布特征

第3章

1. 由Excel计算如下:

• 364 •

各章节习题参考答案

总体方差=样本方差*49/50=77558.02;总体标准差=2. 由Excel计算如下:

=278.4924

3.

(1)和(2)如下表所示

平均 标准误差 中位数 众数 标准差

7.114667 0.537619 6.68 #N/A 2.082189

• 365 •

应用统计学 方差 峰度 偏度 区域/极差 最小值 最大值 求和 观测数 最大(1) 最小(1) 置信度(95.0%) 第一分位数 第三分位数

极差 四分位极差 变异系数

4.335512 -1.05627 0.072493 6.67 3.82 10.49 106.72 15 10.49 3.82 1.153078 5.715 8.54 6.67 2.825 0.292662

Z值 1.222431 -0.58336 0.434799 -0.63619 0.775786 -1.58231 0.429996 0.593286 1.62105 -0.20875 -0.70823 -1.45744 -0.45369 1.342497 -0.78987

由于Z值都在-3.0~3.0之间,因此不存在极端值。 (3)由于均值大于中位数,数据倾向于右偏态分布

(4)均值和中位数均大于5分钟。分布是右偏的,意味着存在一些异常的大的数值。进一步讲,15家银行中的13家顾客样本(或86.7%)测量得到的等待时间大于5分钟。所以顾客的等待时间事实上超过了5分钟。经理对顾客等待时间不会

• 366 •

各章节习题参考答案 超过5分钟这一银行服务估计过高了。

4.

几何平均数

白金

112.300 105.700 136.000 124.600 119.091 19.091

黄金

117.800 104.600 119.900 125.600 116.714 16.714

129.500 114.200 127.800 103.300 118.207 18.207

白金在过去四年中的回报率最高,而黄金的回报率则最低

5. 在Excel中运用函数COVAR与CORREL,计算得到: 协方差COV(X, Y)=59.35537 相关系数=1 X与Y完全正相关。 6. (1) 均值=

=226.6667

数码相机电池寿命数据排序如下:35 85 110 120 170 180 240 260 300 380 380 460

中位数=

=210

第一分位数为110,第三分位数为380 (2)

• 367 •

应用统计学

方差=17756.06,标准差=133.2519,极差=425,四分位数极差=270,变异系数=58.79%。

由于Z值中没有小于-3.0和大于3.0的值,因此没有极端值。 (3) 均值大于中位数,右偏。 (5) 五数汇总为:35 110 210 380 460 (6) 箱线图:

• 368 •

各章节习题参考答案

由箱线图可以看到,(6)与(3)的结果一致。 7. 注册资金(万元)企业数累计企业数组中值50以下20202550~100355575100~1504297125150~20026123175200~25015138225250以上5143275 x Me

xffiii123.6(万元) Σf/2=143/2=71.5,中位数所在“100~150”的组,

f/2SLfmm1d10071.55550119.64(万元) 42众数组为“100~150”的组,

M0L14235d10050115.22 (万元)12(4235)(4226)由于众数小于中位数,算术平均数大于中位数,因此数据分布为右偏态。

第4章

• 369 •

应用统计学 根据决策树进行比较分析即可得结论。

1. (1)A1A2A3 (2)A1A2A3A1A2A3A1A2A3 (4)A1A2A3 1A2A3 (3)A(5)A1A2A3 (6)A1A2A3A1A2A3A1A2A3A1A2A3

2. (1)0.084681 (2)0.912673 (3)0.997354

3. HYPGEOMDIST(sample_s,number_sample,population_s,number_population) Sample_s

样本中成功的次数。 样本容量。

样本总体中成功的次数。

Number_sample Population_s

Number_population 样本总体的容量。

19C1C4. P{X1}10490.2

C505. 记X为“死亡年龄”,则所求概率为

P(X70|X50)P(X70,X50)1P(X70)0.277778

P(X50)1P(X50)6. P0.6(10.7)(10.6)0.70.60.70.88

7. 记A1为“该产品的原料来自甲”,A2为“该产品的原料来自乙”,A3为“该产品的原料来自丙”,B为“该产品为次品”,则:

P(A1)0.6,P(A2)0.3,P(A3)0.1

P(B|A1)0.02,P(B|A2)0.03,P(B|A3)0.05

(1)P(BA3)P(B|A3)P(A3)0.005; (2)P(B)P(Ai)P(B|Ai)0.026;

i13(3)P(A1|B)P(A1B)P(A1)P(B|A1)0.461538 P(B)P(B)8. (1)BINOMDIST(number_s,trials,probability_s,cumulative) Number_s Trials

为试验成功的次数 为独立试验的次数 为每次试验中成功的概率

为一逻辑值,用于确定函数的形式。如果 cumulative 为

Probability_s Cumulative

TRUE,函数 BINOMDIST 返回累积分布函数,即至多 number_s 次成功的概率;如果为 FALSE,返回概率密度函数,即 number_s 次成功的概率。 (2)POISSON(x,mean,cumulative) X

事件数

• 370 •

各章节习题参考答案 Mean 期望值

为一逻辑值,确定所返回的概率分布形式。如果 cumulative 为

Cumulative

TRUE,函数 POISSON 返回泊松累积分布概率,即,随机事件发生的次数在 0 到 x 之间(包含 0 和 1);如果为 FALSE,则返回泊松概率密度函数,即,随机事件发生的次数恰好为 x。

9. 要求1(10.02)n0.3n18

10. 记X为“一盒中的废品数”,则X~B(100,0.01),从而 (1)P(X0)BINOMDIST0,100,0.01,false0.366032 (2)P(X2)1P(X0)P(X1)0.264238

(3)记Y为“一盒中的合格品数”,n为每盒中装入的钻头数,则Y~B(n,0.99),从而P(Y100)0.98P(Y99)0.02

BINOMDIST(99,C2,0.99,TRUE)0.02n104

11. 记X为“一台设备的无故障运行时间”,则X~e(1000), (1)P(X1000)0.632121 (2)P(X2000)0.135335 (3)P(500X1500)0.3834

12. 记X为“缸套外径”,则X~N(,0.012),则 (1)P(X0.02)P(X2)0.9544 (2)X~N(,0.0072),则P(X0.02)P(0.02X0.02)0.9957250.0070.007

13. NORMDIST(x,mean,standard_dev,cumulative) X

需要计算其分布的数值 分布的算术平均值

分布的标准偏差

为一逻辑值,指明函数的形式。如果 cumulative 为 TRUE,

Mean

Standard_dev Cumulative

函数 NORMDIST 返回累积分布函数;如果为 FALSE,返回概率密度函数。

14. E(Y)0,D(Y)1 15. (1)不进行地震勘探

记Xi为钻井出油的结果,i=1表示“无油”、i=2表示“少量出油”、i=3表示“大量出油”,则P(X1)0.5,P(X2)0.3,P(X3)0.2,

出油情况 无油 少量出油 大量出油 概率 0.5 0.3 0.2 收入 0 1200 3000 成本 700 从而预期收益为0.500.312000.23000700260(万元)

• 371 •

应用统计学 (2)进行地震勘探

记Yj为地震勘探结果,j=1表示“构造较差”、j=2表示“构造一般”、j=3表示“构造良好”,则有 X1 0.5 构造较差Y1 0.6 0.3 0.1 X2 0.3 0.3 0.4 0.3 X3 0.2 0.1 0.4 0.5 0.41 0.35 0.24 后 验 概 率 P(Yi) P(X1|Yj) 0.7317 0.4286 0.2083 P(X2|Yj) 0.2195 0.3429 0.3750 P(X3|Yj) 0.0488 0.2286 0.4167 构造一般Y2 构造良好Y3 画决策树(未减固定成本):

41017无油0.73少油0.22多油0.0500120030000120030000120030004构造较差0.41钻井不钻井8910971819209602进进进进构造一般0.355钻井不钻井10111700无油0.43少油0.34多油0.2302122232425构造良好0.2416不进行勘探钻井不钻井1213无油0.21少油0.37多油0.4200120030003钻井不钻井960无油0.5少油0.3多油0.214151670

第5章

1. 样本均值=8.95,样本方差=0.840909

2. 0.8293

3. (1)P(X3)P(Z1.00)1.00.51870.8413 (2)P(X1.04)0.85X3.101.040.13.204

• 372 •

各章节习题参考答案 (3)P(X1.04)0.85X3.101.040.053.152

4. (1)当n2时,X的抽样分布形状应与样本来自的总体分布形状相似。由于均值大于中位数,新房屋的销售价格右偏,X的抽样分布也是右偏。

(2)当n100时,根据中心极限定理,X的抽样分布应该接近于正态分布。 (3)当n100时,样本均值接近于总体均值。

P(X25000)P(Z(25000279100)/(90000/100))P(Z3.2333)0.0062 5.

的方差最小

的无偏估计为0.018529

6. 的无偏估计为90.001,

第6章

1. (1) 样本均值和样本方差为90.001,0.000343。

(2) (89.9877,90.0143) (3) 89.9903

(4) (0.00016,0.00114) (5) 0.00093 2. 已知的情况下,

的置信区间估计为(

),其中

是和

的无偏估计,因此,和

的无偏估计

,因此,解得

3. (1)21.0124.99;(2)可以有95%的置信度认为空头支票费用的总体均值在21.01和24.99之间。

4. (1)31.1254.96;(2)时间间隔的天数近似服从正态分布;(3)是的,界外极端值影响数据的偏度;(4)由于样本容量很大,n50,运用t检验较为合适。

5. (1)0.5638p0.6362 (2)0.2272p0.2920

6. (1) 显像管平均寿命的置信度为95%的置信区间为(14026.2,17889.88);(2) 寿命方差的置信度为95%的置信区间为(7172153,31483256)

7. (1) 甲乙两种型号显像管平均寿命之差的95%置信区间为(-4096.37,1565.7);(2) 两种显像管寿命方差比的90%置信区间为(0.3452,2.6913)

8. 甲型显像管寿命的置信度为95%的置信下限为14369.16,乙型显像管寿命的置信度为95%的置信下限为15161.79

第7章

2. 其它均相等,总体均值离假设均值值越近,值越大。

• 373 •

应用统计学 3. 记X为测距仪对目标一次测量得到的距离,则X~N(,102)。若测距仪无系统误差,则应有500,从而问题转化为假设检验:

H0:500;H1:500

由n9,X510,0500,10得到统计量的值 n3

对于 = 0.05,由正态分布表得临界值0.0251.96

X02由31.96,从而拒绝H0,即认为测距仪存在系统误差。

24. 记X为包装机对产品的称重,则X~N(0.5,2)。样本均值X0.5037,S0.005538752

(1)建立假设检验:H0:0.5;H1:0.5

方差未知,检验统计量t拒绝域为tX0.5S/nX0.5S/n0.50370.50.0055/102.11

t(n1)t0.1(9)0.92

2 检验统计量值落在拒绝域中,故拒绝H0。 (2)建立假设检验:H0:0.005;H1:0.005 检验统计量2n1S290.005538752211.04 20.0052022222(9)4.51或2(9)0.125(9)13.93 拒绝域为22(9)0.8751检验统计量值不在拒绝域中,则接受原假设,即包装机的包装精度符合要求。 5. 这是一个单侧假设检验问题:

H0:10560;H1:10560 方差未知,拒绝域为t由t10631.41056081/10X10560S/n10.052t12(n1)

2.787t(101)1.8331知原假设被拒绝,即这批弦的

抗拉强度有显著提高。

6. 这是一个单侧假设检验问题: H0:25000;H1:25000 均值未知,拒绝域为2由2n120S212(n1)

261即这批92004612(n1)120.02(261)12.7知原假设被拒绝,

5000灯泡寿命的波动性较以往增大了。

• 374 •

各章节习题参考答案 7. (1) p=0.7112。(2) 由于Z=5.7771>1.6449,拒绝H0。有足够的证据表明一半以上的成功女性有孩子。(3) 由于Zcalc=1.2927<1.6449,接受H0。没有足够的证据表明三分之二以上的成功女性有孩子。(4) 随机样本假设无效,因为定义“成功的女性执行官”与定义参加峰会的“商界最有权力的女性”的标准有很大不同。 第8章

1. 为提高某种金属材料的抗拉强度,试验了新的热处理工艺。对新,旧工艺处理的各13批材料进行了抗拉强度试验,测得数据如下。

新工艺:31,34,30,27,33,35,38,34,30,36,31,32,35 原工艺:28,24,26,29,30,31,28,27,29,28,30,25,26

设两总体服从同方差正态分布,在给定显著性水平 = 0.01下,分别用计算器和Excel求:

(1) 新、旧工艺处理材料的平均抗拉强度间是否有显著差异? (2) 新工艺生产的材料抗拉强度是否比原工艺有显著提高? (3) 在水平 = 0.20下,关于两总体方差相等的假定是否成立?

2. 设新车的首次故障行驶里程数服从正态分布,现测得甲、乙两种品牌轿车首次故障行驶里程的数据如下:

甲品牌:1200,1400,1580,1700,1900 乙品牌:1100,1300,1800,1800,2000,2400 用Excel求:

(1) 在 = 0.20下,检验两种轿车的首次故障行驶里程是否是同方差的; (2) 在 = 0.05下,检验乙品牌轿车的平均首次故障行驶里程是否显著高于甲品牌轿车。

3. 为分析体育疗法对治疗高血压的效果,对10个高血压患者分别测定了他们在进行体育疗法前后的舒张压,测得数据如下:

患者编号: 1 2 3 4 5 6 7 8 9 10 治疗前: 112 113 134 110 125 117 108 120 118 138 治疗后: 104 96 130 90 108 119 92 90 102 121 在水平 = 0.01下,分别用计算器和Excel检验体育疗法对高血压是否有显著疗效。

4. (1) 由于-1.96生与MBA学生选择高成本基金的比例之间存在差异。(2) p-值=0.1275。如果本科生与MBA学生选择高成本基金的比例之间没有差异,那么获得

• 375 •

应用统计学 两个样本比例差值检验统计量的差值在0与1.5240之间的概率是0.1275。

第9章

1. 由于P-Value值为0.1407,所以4种饲料的喂养效果没有显著差异。 2. (1) 对小麦品种试验数据进行方差分析,得到P-Value值为0.0162,大于0.01,小于0.05,因此不同品种的平均每公顷产量之间存在显著差异。

(2) 对各品种的平均每公顷产量进行双样本等方差假设的t检验,得知:A4与A2、A3、A1之间没有显著差异;A4、A2、A3、A1与A5之间有高度显著差异。

3. 由于P-Value值为0.1229,所以4种不同材质生铁的抗热疲劳性能之间没有显著差异。

4. 行的P-Value值为0.000217,列的P-Value值为0.00113。因此蒸馏水的pH值对血清化验结果又极高度显著的影响,硫酸铜溶液的浓度对血清化验结果有高度显著影响。

5. (1) 燃料因子的P-Value值为0.0260,推进器因子的P-Value值为0.0035,二者的交互作用的P-Value值为6.15E-05。因此燃料对火箭射程的影响显著,推进器对射程的影响高度显著,而二者的交互作用对射程的影响极高度显著。

(2) 使平均射程最远的燃料和推进器组合为A4B1,A4B1与平均射程次远的组合A3B2之间没有显著差异。

第10章

1. (1) 期望频数如下:

期望频数 总 1 0 32 0 总计 0 55 5. 7A20 4B 计 350 75 125 (2) 由于2. (1)

=0.000<3.841,接受:

=

。 。

观测频数:

• 376 •

各章节习题参考答案 美国税收制度 公正 不公正 总计 收入水平 低于50,000美元 225 280 505 高于50,000美元 180 320 500 计 总405 600 1005 总计 405 600 1005 期望频数: 美国税收制度 公正 不公正 总计 数据 显著性水平 行数 列数 自由度 结果 临界值 卡方检验统计量 p-值 3.841459 7.64198 0.005703 拒绝原假设 0.05 2 2 1 收入水平 低于50,000美元 203.5075 301.4925 505 高于50,000美元 201.4925 298.5075 500 决策规则:df=1,如果检验统计量:决策:由于

>3.841,拒绝。

=7.642。 =7.642>3.841,拒绝

。两个不同阶层中认为美国税收不公正的

• 377 •

应用统计学 成人比例之间有显著的差异。

(2) p-值为0.0057。p-值表示当原假设为真时,获得大于等于7.642的检验统计量的概率为0.0057。 3. (1) 期望频数 总 1 0 32 0 总计 0 55 5 700 A20 40 1B30 6C 计 490 135 225 (2) 由于=12.5>5.9915,拒绝。

(3) A vs. B:0.20>0.196;因此A与B不同。A vs. C:0.30>0.185;因此A与C不同。B vs. C:0.10<0.185;因此B与C没有显著差异。 4. (1)

48

152

56

144

24

176

42.667 157.333

42.667 157.333

42.667 157.333

==

(

。:至少有一个比例不同。

) 5.333 -5.333 13.333 -13.333 -18.667 18.667

0.667 0.181 4.167 1.130 8.167 2.215 16.5254

决策规则:df=(c-1)=(3-1)=2,如果检验统计量:

>5.9915,拒绝。

=16.5254。

• 378 •

各章节习题参考答案 决策:由于的差异。

=16.5254>5.9915,拒绝。不同年龄组对购物日选择之间有显著

(2) p-值为0.0003。表示如果原假设为真,检验统计量大于等于16.5254的概率为0.03%。

(3)

成1与2 2与3 1与3

临0.1073

0.0959

0.0929

0.04 0.16* 0.12*

对比较 界值

35-54岁组和54岁以上组之间、35岁以下组和54岁以上组之间存在显著的差异。

(4) 商店可以运用这个信息有目的在周六和其它时间将销售分别集中于不同的特殊的购买者群体。 5. (a)

:公司员工的换班时间与观察到的工作中与压力相关的问题水平之间没有

关系。

:公司员工的换班时间与观察到的工作中与压力相关的问题水平之间有关系。

917

18

586

() -3.1379 -3.1034 6.2414 -0.2414 -0.6810 0.92

0.8112 0.4791 3.3129 0.0111 0.0534 0.1676

12.1379

20.1034

11.7586

5.2414

8.6810

5.

• 379 •

应用统计学 0776 18

28

7

14.6207

24.2155

14.1638

24 3.3793 3.7845 -7.1638

0.7811 0.5915 3.6233 9.8311

决策规则:如果检验统计量:决策:由于

>13.277,拒绝 =9.8311。

。表示公司员工的换班时间与观测到的

=9.8311<13.277,接受

工作中与压力相关的问题水平之间没有显著的关系。

(2) 由于=9.8311>9.488,拒绝。表示在显著性水平0.05下,二者之间有关系。

6. 决策规则:如果

检验统计量:决策:由于

>15.5073,拒绝 =22.1812。

。表示不同年龄段和获取新闻的途径之。

=22.1812>15.5073,接受

间有显著的关系。

7. (1) 决策规则:如果Z<-1.96或Z>1.96,拒绝

检验统计量:Z=-3.000。 决策:由于Z=-3.000<-1.96,拒绝格玛管理后的顾客满意度。 (2) p-值为0.0027<0.05,拒绝

。表示如果引入六西格玛管理前顾客满意度不低

。表示去年的顾客满意度显著低于引入六西

于引入后的顾客满意度,那么检验统计量小于-3.000的概率为0.27%。 8. (1) 决策规则:如果Z<-1.96或Z>1.96,拒绝

检验统计量:Z=-1.9868。 决策:由于Z=-1.9868<-1.96,拒绝(2) p-值为0.0469<0.05,拒绝

。支持A的比例在竞争前后有显著差异。

。表示如果竞争前A的民意选举比例不低于竞争• 380 •

各章节习题参考答案 后的比例,那么检验统计量小于-1.9868的概率为4.69%。 9. 由于Z=-1.5875>-1.96,所以接受10. 由于Z=3.38>1.96,所以拒绝

差异。

11. H=20.9140>9.488,拒绝12. H=19.3269>9.488,拒绝

。表明不同账户的平均收益之间有显著差异。 。表明5种等级之间有显著差异。

。两种培训方法没有显著差异。

。未加工和加工过的铁板的表面硬度之间有显著

第11章

1. (1)

=3.29,

=0.53,回归方程为

。产值每增加1千万元,管

理费用就增加0.53百万元。Significance F=3.19292E-06<0.001,回归方程极高度显著。

(2) 标准误差=0.3104533,即将

=15

代入回归方程,

=0.3105,

=1.5亿元=15千万元,

)=(10.52,11.96),

=3.29+0.53×15=11.24,可得

=2.3060×0.3105=0.6981,(

2. (1) 散点图:

管理费用的置信度为95%的预测区间为(10.52百万元,11.96百万元)

(2) (3)

=177.12,

=1.07

没有意义,因为公寓的面积不可能为0。表示公寓面积每增加1平方英

尺,月租金就增加1.07美元。

• 381 •

应用统计学 (4) ,因此当=1000平方英尺时,公寓的平均月租金

=1247.12。

(5) =0.7226,表示公寓月租金偏差中有72.26%可以由公寓面积来解释。 (6) 估计的标准误差为194.5954。 (7) 残差图:

如图所示,在残差图中没有明显的图形,残差随机分布,因此可知,没有严重违背回归假设。 3. (1) 残差图:

残差图中存在明显的连续正值或负值,表示违背了线性假设。

(2) 杜宾·瓦森统计量D=1.6607,根据杜宾·瓦森统计量临界值表,可知,=1.08,=1.36,D=1.6607>1.36,所以残差中存在自回归现象。 (3) 根据前面的分析,可知残差中存在强烈的自相关性。 4. 线性回归方程为:

逆函数回归方程为:

,Significance F=1.82369E-05。

,Significance F=5.15687E-07

• 382 •

各章节习题参考答案 幂函数回归方程为:

,Significance F=2.19136E-06

由以上的分析可知,逆函数回归方程较为合适。

第12章

1. (1)

ˆ10.8180.196X0.037X 回归方程为:Y12回归方程的p-值<0.01,回归方程高度显著;含碳量与回火温度的p-值<0.01,因此两个变量均高度显著。

ˆd150.99 (2) Pydt0.01(12)SE/(Np1)2.7564

由10.818-0.196*600.037x2d15,得x2506.0357。

ˆ12.2610.070X0.017X 2. (1) 回归方程为:Y14(2) 回归方程表明,五个变量中只有农业劳动力和户均固定资产和农业总产值相关,其中,农业劳动力为极高度显著相关,而户均固定资产为高度显著相关。说明1985年时期,农村主要的生产力还是人力,因此农业总产值与劳动力有极高度显著的相关性,相对而言,农机的普及不够,因此和农业总产值之间的相关关系比较弱。

ˆ156.430413.0807X16.7953X 3. (1) 回归方程为:Y12(2) 对于给定的报纸广告额,无线电广播广告额每增加1000美元,估计销售额将平均增加130807美元;对于给定的无线电广播广告额,报纸广告额每增加1000美元,估计销售额将平均增加167953美元。

(3) 当没有进行报纸广告或者无线电广播广告时,估计销售额均值为156430.4美元。

• 383 •

应用统计学 ˆ156.430413.0807(20)16.7953(20)753.9496千美元 (4) Y(5) 置信区间估计为(623.0383, 884.8609)千美元

(6) 销售额为(396.5226, 1111.3766)千美元

4. (1) 显著性水平为0.05时,无线电广播广告、报纸广告与销售额之间均存在极

高度显著相关关系。

(2) p值近似为0。如果销售额与两个自变量(无线电广播广告和报纸广告)之间没有显著的关系,那么获得大于等于40.1582的检验统计量的概率为0。

(3) 多元判定系数r=0.8087。80.87%的销售额偏差可以由无线电广播广告和报纸广告偏差解释。

(4) 校正r=0.7886。

(5) 9.3983116.7631。

(6) 显著性水平为0.05时,两个自变量的p值均小于0.001,因此两个自变量对回归模型均有极高度显著的贡献。

(7) rY21,2=0.7442。保持报纸广告效应不变,74.42%的销售偏差可以由无线电广播广告偏差解释。rY22,1=0.6283。保持无线电广播广告效应不变,62.83%的销售偏差可以由报纸广告偏差解释。 5.

22ˆ1307.4X45X。对于走道后端,将X=0带(1) 多元回归模型为:Y212ˆ1307.4X;对于走道前端,将X=1带入回归模型得到:入回归模型得到:Y21ˆ1757.4X Y1ˆ1307.4X45X189.2。168.797209.603;(2) YY|X12136.838YX241.562。

(3) 显著性水平0.05下,销售额与两个自变量之间存在显著的相关关系。 (4) 显著性水平0.05下,两个自变量的p值均小于0.01,因此对回归模型有显著贡献。

(5) 4.909719.8903,15.4690274.5310

(6) r=0.8638。86.38%的销售额偏差可以由货架空间和货物摆放位置(走道后端或前端)偏差解释。

(7) radj=0.8335

(8) rY1,2=0.8339。保持货物摆放位置(走道后端或前端)效应不变,83.39%的销售价格偏差可以由货架空间解释。rY2,1=0.5690。保持货架空间效应不变,56.90%的销售价格偏差可以由货物摆放位置(走道后端或前端)偏差解释。

(9)显著性水平0.05下,确定该交叉作用项对模型没有显著贡献。

2

222• 384 •

各章节习题参考答案 (10) 没有交叉项的回归模型更加适合。 6.

(1)

706050403020100020406080100120

ˆ6.64290.895X0.0041X2 (2) Y(3) 预测这块土地的平均产量为49.1679磅。

(4) 显著性水平0.05下,施肥量和番茄产量之间存在显著的相关关系。 (5) p值近似为0,表示如果番茄产量与施肥量之间没有显著的相关关系,那么获得大于等于157.3186的检验统计量的概率为0。

(6) 显著性水平0.05下,回归方程的p值为0,因此有显著的二次效应。 (7) p值为0,表示如果施肥量二次项与番茄产量之间没有显著相关关系,那么获得大于等于157.3186的检验统计量的概率为0。

(8) r=0.9722。97.22%的番茄产量偏差可以由施肥量及其二次项偏差解释。

2(9) radj=0.9660

2

第13章

1. 表9.4是对某地区1998年30个家庭的人均年收入X与人均年服装费支出Y的调查数据。

表14.4 人均收入与人均服装费支出数据 单位:元 人 均 收 入 3280 3300

人均服装费 418 522 人 均 收 入 6500 7900 人均服装费 860 910 人 均 收 入 18600 20000 人均服装费 1260 880 • 385 •

应用统计学 3480 3890 4050 4189 4560 5260 5890 6250 480 640 590 760 720 886 890 820 8950 9700 11500 12300 14800 15400 16500 17200 850 760 1320 915 735 876 1100 930 22300 25000 26750 28000 29000 30000 35500 38000 1580 1120 1800 1200 1050 860 2200 3450

现建立该地区人均服装费支出yi与人均年收入xi间的线性回归模型如下:

yi=0+1xi +i,i = 1,2,…,30

(1) 用图示法判断该模型是否存在异方差;

2000000 residSquare50000010000001500000001000020000x3000040000

• 386 •

各章节习题参考答案 (2) 用帕克检验法检验该模型是否存在异方差;

lgresidSqu~e=-5.14171+1.62917lnx t 值 (-1.23) (3.62)***

由于lnx在统计上显著,存在异方差。 (3) 若存在异方差,以残差序列ei2项作为加权变量,采用加权最小二乘法对原

模型进行参数估计;

y=422.211+.0427251*x se (123.7) (.0122)

ˆ)和(4) 比较WLS与OLS两种方法的参数估计精度(即比较两种方法的D(0ˆ)的大小)。 D(1y=422.211+.0427251*x se (123.8388) (.0069)

与前面WLS估计结果比较,可以发现,两者回归系数的标准差存在明显差异。

2. 表9.5给出了我国1953~1985年的工业总产值yt和固定资产投资总额xt的统计资料。

表14.5 工业总产值和固定资产投资 单位:亿

元 年份 1953 1954 1955 1956 1957 1958 1959 1960 1961 1962 1963 1964

固定资产投资 91.59 102.68 105.24 160.84 151.23 279.06 368.02 416.58 156.06 87.28 116.66 165.89 工业总产值 450 515 534 642 704 1083 1483 1637 1067 920 993 1164 年份 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 固定资产投资 368.08 417.31 412.81 438.12 436.19 544.94 523.94 548.30 668.72 699.36 745.90 667.51 工业总产值 2080 2375 2517 2741 2730 3124 3158 3578 4067 4483 4897 5120 • 387 •

应用统计学 1965 1966 1967 1968 1969 216.90 254.80 187.72 151.57 246.92 1402 1624 1382 1285 1665 1982 1983 1984 1985 845.31 951.96 1185.18 1680.51 5506 6088 7042 8756

对我国工业总产值Y和固定资产投资X间的如下线性回归模型:

yt=0+1xt+t

(1) 用杜宾-瓦森检验法检验该模型是否存在自相关;

DW=0.669146,显然存在正的自相关。

ˆ1DW/2求出相关系数的估计值ˆ,并用广义(2) 若存在自相关,用公式差分法对原模型进行广义差分变换并进行参数估计和D-W检验,是否能消除自相关性?

ˆ1DW/2=1-0.669146/2=.665427 广义差分变换回归估计结果的D-W=0.669146,所以不能消除自相关。 (3) 若对原模型作如下变换,令

xt*=xt /xt-1 (固定资产投资指数) yt*=yt /yt-1 (工业总产值指数)

得新模型

yt*=b0+b1xt*+Vt,t = 2,3,…,33

试用法对该模型进行参数估计并检验是否存在自相关。

这样变化后OLS估计的D-W=1.774067,从而成功消除自相关。

3. 据分析,我国在计划经济年代的钢材产量Y主要与以下各因素有关:原油产量X1,生铁产量X2,原煤产量X3,电力产量X4,固定资产投资X5,国民收入消费额X6,铁路运输量X7。按表9.6所给资料,用SPSS软件对以下钢材产量的回归模型

Y= 0+1 X1+2 X2+3 X3+4 X4+5 X5+6 X6+7 X7+

• 388 •

各章节习题参考答案

• 389 •

应用统计学 表14.6我国计划经济年代钢材产量与相关变量数据 年份 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 钢材/万吨 原油/万吨 生铁/万吨 原煤/亿吨 1622 1466 1633 2208 2497 2716 2670 2920 3072 3372 3693 4058 7706 8716 9364 10405 10615 10595 10122 10212 10607 11461 12490 13069 2449 2233 2505 3479 3673 3802 3417 3551 3738 4001 4384 5064 4.82 4.83 5.50 6.18 6.35 6.20 6.22 6.66 7.15 7.89 8.72 8.94 电力/亿固定资产 国民收入铁路运输

千瓦时 投资/亿元 消费/亿元 /亿吨公里 1958 2031 2234 2566 2820 3006 3093 3277 3514 3770 4107 4495 544.94 523.94 548.30 668.72 699.36 745.90 667.51 945.31 951.96 1185.18 1680.51 1978.50 2541 2424 2573 2975 3356 3696 3905 4290 4779 5701 7498 8312 88955 84066 95309 110119 111893 111279 107673 113532 118784 124074 130708 135636 进行分析: (1) 使用系统默认的Enter方法对原模型进行参数估计,并由运行输出结

果判断是否存在多重共线性;

Source | SS df MS Number of obs = 12 -------------+------------------------------ F( 7, 4) = 259.66

Model | 7541099.35 7 1077299.91 Prob > F = 0.0000 Residual | 16595.5694 4 4148.89236 R-squared = 0.9978 -------------+------------------------------ Adj R-squared = 0.9940

Total | 7557694.92 11 687063.174 Root MSE = 64.412

------------------------------------------------------------------------------

y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+----------------------------------------------------------------

x1 | -.1515496 .10304 -1.47 0.215 -.4376345 .1345354 x2 | .4069233 .3587765 1.13 0.320 -.5892 1.403047 x3 | 104.6747 430.6385 0.24 0.820 -1090.97 1300.319 x4 | .8009309 .2084943 3.84 0.018 .2220579 1.379804 x5 | -.2202757 .3934584 -0.56 0.605 -1.312691 .87214

• 390 •

各章节习题参考答案 x6 | .0243537 .20233 0.12 0.910 -.5374044 .5861118 x7 | -.0010859 .0324602 -0.03 0.975 -.0912098 .0890381 _cons | -125.1301 933.01 -0.13 0.900 -2715.581 2465.321 ------------------------------------------------------------------------------

回归估计结果中,多个解释变量显著,所以,可能存在多重共线性。

(2) 采用逐步回归方法,求出关于钢材产量的最优回归方程;

1. 首先剔除X7得到

Source | SS df MS Number of obs = 12 -------------+------------------------------ F( 6, 5) = 378.56

Model | 7541094.7 6 1256849.12 Prob > F = 0.0000 Residual | 16600.2122 5 3320.04244 R-squared = 0.9978 -------------+------------------------------ Adj R-squared = 0.9952

Total | 7557694.92 11 687063.174 Root MSE = 57.62

------------------------------------------------------------------------------

y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+----------------------------------------------------------------

x1 | -.148783 .0549794 -2.71 0.042 -.290112 -.0074539 x2 | .3954075 .090409 4.37 0.007 .1630038 .6278113 x3 | 90.72384 96.03942 0.94 0.388 -156.1533 337.601 x4 | .7983053 .1727893 4.62 0.006 .3541363 1.242474 x5 | -.2209947 .3514435 -0.63 0.557 -1.124409 .6824197 x6 | .0294594 .1188171 0.25 0.814 -.2759698 .3348886 _cons | -155.0094 241.197 -0.64 0.549 -775.0261 465.0073

2. 进一步剔除X6得到

Source | SS df MS Number of obs = 12 -------------+------------------------------ F( 5, 6) = 538.50

Model | 7540890.61 5 1508178.12 Prob > F = 0.0000 Residual | 16804.3076 6 2800.71793 R-squared = 0.9978 -------------+------------------------------ Adj R-squared = 0.9959

Total | 7557694.92 11 687063.174 Root MSE = 52.922

• 391 •

应用统计学 ------------------------------------------------------------------------------

y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+----------------------------------------------------------------

x1 | -.1511353 .0497391 -3.04 0.023 -.2728426 -.029428 x2 | .3879212 .0782697 4.96 0.003 .1964021 .5794403 x3 | 93.39947 87.65027 1.07 0.328 -121.073 307.872 x4 | .8289853 .1107678 7.48 0.000 .5579463 1.100024 x5 | -.1386444 .1055082 -1.31 0.237 -.3968138 .1195249 _cons | -164.7012 218.6026 -0.75 0.480 -699.6024 370.2001 3.然后剔除X3,得到

Source | SS df MS Number of obs = 12 -------------+------------------------------ F( 4, 7) = 660.06

Model | 7537710.43 4 1884427.61 Prob > F = 0.0000 Residual | 19984.4873 7 2854.92676 R-squared = 0.9974 -------------+------------------------------ Adj R-squared = 0.9958

Total | 7557694.92 11 687063.174 Root MSE = 53.432

------------------------------------------------------------------------------

y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+----------------------------------------------------------------

x1 | -.1195984 .040361 -2.96 0.021 -.2150369 -.0241598 x2 | .3700476 .0771876 4.79 0.002 .1875279 .5525674 x4 | .9127528 .0787886 11.58 0.000 .7264474 1.099058 x5 | -.0788584 .0902144 -0.87 0.411 -.2921816 .1344648 _cons | -125.5886 217.5746 -0.58 0.582 -640.0707 388.8935 ------------------------------------------------------------------------------ 4.最后得到最优模型

Source | SS df MS Number of obs = 12 -------------+------------------------------ F( 3, 8) = 906.56

Model | 7535529.01 3 2511843 Prob > F = 0.0000 Residual | 22165.9045 8 2770.73806 R-squared = 0.9971 -------------+------------------------------ Adj R-squared = 0.9960

Total | 7557694.92 11 687063.174 Root MSE = 52.638

------------------------------------------------------------------------------

• 392 •

各章节习题参考答案 y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+----------------------------------------------------------------

x1 | -.127245 .0388163 -3.28 0.011 -.2167555 -.0377345 x2 | .379139 .0753476 5.03 0.001 .2053872 .5528908 x4 | .8750609 .0649623 13.47 0.000 .7252576 1.024864 _cons | -35.14531 188.5547 -0.19 0.857 -469.9532 399.6626 ----------------------------------------------------

第14章

1. (1), (2)和(3)

周 3-Jan-06 9-Jan-06 17-Jan-06 23-Jan-06 30-Jan-06 6-Feb-06 13-Feb-06 21-Feb-06 股票指数 2,305.62 2,317.04 2,247.70 2,304.23 2,262.58 2,261.88 2,282.36 2,287.04 MA(3) #N/A 2290.12 2289.66 2271.50 2276.23 2268.94 2277.09 2290.67 ES(W=0.50) 2305.62 2311.33 2279.52 2291.87 2277.23 2269.55 2275.96 2281.50 ES(W=0.25) 2305.62 2308.48 2293.28 2296.02 2287.66 2281.21 2281.50 2282.89

• 393 •

应用统计学 27-Feb-06 6-Mar-06 13-Mar-06 20-Mar-06 27-Mar-06 3-Apr-06 10-Apr-06 17-Apr-06 24-Apr-06 1-May-06 8-May-06 15-May-06

2,302.60 2,262.04 2,306.48 2,312.82 2,339.79 2,339.02 2,326.11 2,342.86 2,322.57 2,342.57 2,243.78 2,193.89

2283.89 2290.37 2293.78 2319.70 2330.54 2334.97 2336.00 2330.51 2336.00 2302.97 2260.08 #N/A

2292.05 2277.04 2291.76 2302.29 2321.04 2330.03 2328.07 2335.47 2329.02 2335.79 2289.79 2241.83

2287.81 2281.37 2287.65 2293.94 2305.40 2313.81 2316.88 2323.38 2323.18 2328.02 2306.96 2278.69

(4) 2006年前20周似乎只有轻微的趋势。 2. (2),(3)和(5)

费MA(3) ES(W=0.50) • 394 •

ES(W=0.25) 各章节习题参考答案 用 1994-1995 1995-1996 1996-1997 1997-1998 1998-1999 1999-2000 2000-2001 2001-2002 2002-2003 2003-2004 2004-2005 (4)

8.16 8.10 8.17 8.12 7.94 7.98 8.11 8.37 8.20 8.49 8.78 8.14 8.13 8.08 8.01 8.01 8.15 8.23 8.35 8.49 Y200520068.16 8.16 8.13 8.15 8.15 8.15 8.14 8.14 8.04 8.09 8.01 8.06 8.06 8.08 8.21 8.15 8.21 8.16 8.35 8.24 8.56 8.38 W=0.5:=E2004-2005=8.56。(5) W=0.25:

Y20052006=E2004-2005=8.38。(6) 2005年-2006年的指数平滑预测在W=0.5时

比W=0.25时的值大。

• 395 •

应用统计学

3. (b) 线性趋势:Y88.914360.7670X,其中X=相对于1993年的年数。(c) 。二次趋势:Y44.21075.7955X5.1202X2,其中X=相对于1993年的年数。(d) 指数趋势:log10Y1.59060.1083X,其中X=相

对于1993年的年数。(e) 线家

性趋店

势:;

Y200788.914360.7670(14)761.82762Y200888.914360.7670(15)822.59822家店。

(14)5.1202(14)2966.63967家二次趋势:Y200744.21075.7955(15)5.1202(15)21109.321109家店。 店;Y200844.21075.7955(14)1,278.79家店;2008指数趋势:2007年:log10Y1.59060.1083年:log10Y1.59060.1083(15)1,640.97家店。(f) 二次趋势模型和指数趋势模型都捕捉到了增加开店数量的增长率。指数趋势预测的增长率最高,其次是二次趋势模型,最后是线性趋势模型。二次趋势模型拟合真实数据的增长率比指数趋势模型更加准确,所以应该用于预测2007年和2008年新开的店的数量。

4. (a) 由于p-值=0.4933>0.05的显著性水平,三次项可以舍去。(b) 由于p-值=0.1447>0.05的显著性水平,二次项可以舍去。(c) 由于p-值几乎为0,一次项不能舍去。(d) 进行预测最适合的模型是一阶自回归模型:

Yi2.97530.9255Yi1,预测2007年的值为35.1734。

Q10.0011Q20.0201Q3。6. (2) log10Y2.80080.0077X0.0081(3)

• 396 •

各章节习题参考答案 Y47=1,362.3019。(4) Y48=1,452.4343。(5) 2006:Y49=1,450.9373;

Y50=1,500.8344;Y51=1,462.2459;Y52=1,558.9907。(6) 估计季度复增长

率为1.79%。(7) 时间序列中第二季度的值平均比第四季度的值低0.26%。

7. (2)线性趋势: Y1.34480.6075X,其中X=相对于1975年的年数。(3) 。二次趋势:Y1.38560.0426X0.0188X2,其中X=相对于1975年的年数。(4) 指数趋势:log10Y0.13050.0414X,其中X=相

对于1975年的年数。(5) AR(3):

Yi0.15451.3742Yi10.6504Yi20.3444Yi3。A3检验:p-值

=0.1373>0.05。接受H0,A3=0。三次项可以删除。AR(2):

Yi0.10961.3021Yi10.2490Yi2。A2检验:p-值=0.2341>0.05。接受H0,Yi1。A1检验:p-值A2=0。二次项可以删除。AR(1):Yi0.13491.0702为0。拒绝H0,A2不等于0。一阶自回归模型适合。(6) 前三个趋势模型的残差值为连续的正值和负值。自回归模型拟合历史数据的效果很好,残差在图形中的分布相当随机。 (7) 线性趋势模型的SYX为1.4471,二次趋势模型的SYX为0.4064,指数趋势模型的SYX为1.0848,一阶自回归模型的SYX为0.3149。线性趋势模型的MAD为1.1324,二次趋势模型的MAD为0.2868,指数趋势模型的MAD为0.6795,一阶自回归模型的MAD为0.2013。 第15章

1. (1) n=500,p=761/16000=0.0476

• 397 •

应用统计学 UCL=p3p(1p)0.0476(10.0476)0.047630.0761

500np(1p)0.0476(10.0476)0.047630.0190

500n(2) 由于单值点分布在p周围,没有任何图形模式,所有的点都在控LCL=p3制限内,过程在统计控制内。

2. (1) LCL=0.0082,UCL=0.0176。不合格可乐比例在第4日低于LCL。数值随时间的变化存在一定的图形模式,因为最后8个点都在均值之上,前面的点中大部分都在均值之下。因此,过程在控制之外。

3.(1) RRi1kik=3.275,XXi1kik=5.941。R-图:

UCL=D4R=2.282(3.275)= 7.4736。LCL不存在。X-图:UCL=XA2R =5.9413+0.729(3.275)=8.3287

LCL=XA2R=5.9413-0.729(3.275)=3.5538。(2) 过程似乎在控制内,因为没有落于控制限外的点,在极差图中没有发现图形模式,没有点落于控制限之外,X-图中也没有任何明显的图形模式。

4 (1) R=0.8794,LCL不存在,UCL=2.0068。(2) X=20.1065,LCL=19.4654,UCL=20.7475。(3) 过程在控制内。

5.

(1)

2220.10651820.1065P(180.8794/2.0590.8794/2.059=0.9999

(2) CpUSLLSL(2218)1.56。 6(0.8794/2.059)6(R/d2)• 398 •

各章节习题参考答案 CPLXLSL(20.106518)1.644

3(R/d2)3(0.8794/2.059)CPUUSLX(2210.1065)1.477

3(R/d2)3(0.8794/2.059)CpkMIN[CPL,CPU]=1.477

• 399 •

因篇幅问题不能全部显示,请点此查看更多更全内容