主讲:统计系 袁靖
第四章 多样本模型
§1 k个相关样本的非参数检验
在参数统计中,检验几个样本是否来自完全相同的总体,采用方差分析或F检验。运用F检验的假定条件是:样本是从正态分布的总体中独立抽选的;总体具有相同的方差;数据的测量层次至少是定距尺度。当被用来分析的数据不符合这些假定条件,或研究者不希望作这些假设,以便增加结论的普遍性时,不宜采用参数统计的方法,而必须运用非参数方法。
如果k(等于或大于3)个样本是按某种或某些条件匹配的,那么k个样本称为相关的,否则为独立的。k个相关和独立样本的差别与两个相关和独立样本之间的差别类似。本节介绍k个相关样本的非参数检验。
一、Cochran Q检验
1.研究背景
Cochran Q检验也译为科库兰检验。它是用以检验匹配的三组或三组以上的频数或比例之间有无显著差异的方法。这种匹配可以用不同形式获得。例如,检验三种不同类型的采访形式对被采访者的有效回答是否有影响,可以抽选一些人,分成n组,每组有3个匹配的被采访者,要求他们的有关情况相同。每组的3名成员被随机地置于3种条件之下,即分别接受三种类型的采访,于是,就获得了3个匹配的样本,即k=3,每个样本有n个观测结果。k个相关样本也可以采用同一组人,对不同的k个条件的反应匹配成样本,这类似于两个相关样本中以研究对象作为自身的对照者。例如,检验几种教学手段对学生掌握知识是否有显著不同,可以随机抽取n个学生,让他们先后置于k种教学手段之下,再作出评价。这样可以获得k个匹配的样本,每个样本有n个观测结果。
在现实生活中,很多数据是以二元数据的形式出现的, 【例4-1】村民对四个候选人的评价得到结果:
表4-1 村民评价结果
处理 A B C D 0 1 0 0 1 1 1 0 1 0 1 0 0 0 1 0 区组:20个村民对A、B、C、D四个候选人的评价 0 0 1 1 1 1 0 1 1 1 0 0 1 1 0 0 1 1 0 1 1 1 1 0 1 0 0 0 1 1 0 0 1 1 0 0 1 0 1 1 1 1 1 0 1 1 0 1 0 0 1 1 1 0 0 0 1 0 1 0 1 0 0 0 Ni 16 11 9 6 Lj 1 3 2 1 2 3 2 2 3 3 1 2 2 3 3 3 2 1 2 1 42 其中:1表示同意;0表示不同意。关心的问题是候选人在村民眼中有无区别,即检验H0:12k是否成立,此时如果使用Friedman秩和检验将会遇到麻烦,因为有很多打结现象存在。
2.基本方法
若有k个相关样本,每个样本有n个观测结果,检验k个样本问是否有显著差异,可以建立双侧备择,假设组为
H0:k个样本间无显著差异 H1:k个样本间有显著差异
由于三个及三个以上样本间差异的方向不便于判定,因而,通常只建立双侧备择进行检验。
为对假设作出判定,所分析的数据测量层次为定类尺度即可。获得的数据可排成一个n行k列的表。如果H0为真,那么将测量结果分为“成功”和“失败”的话,“成功”与“失败”应随机地分布在表中的各行各列。Cochran Q检验的统计量定义为
2kk(k1)kx2jxjj1j1Q nn2kyiyii1i1(0.1)
式中,xj是第j列的总数,yi是第i行的总数。
k(k1)(NiN)i1k2QkNLj1bk(k1)Ni2(k1)N2i1k2ikNLj1b (0.2)
2i式中,k为处理数;b为区组数;Ni为行总和;Lj为列总和;NiNijLj;N1Ni。 ki由于Q统计量的抽样分布近似为自由度df=k一1的2分布,所以根据自由度df=k一1,给定的显
2著性水平,能够在附表中查找临界值,若
2Q
则在显著性水平下拒绝H0,表明样本之间存在着显著差异。相反,则不能拒绝H0。
3.使用说明
①运用Cochran Q检验时应注意,只有当行数n不太小时,Q的抽样分布才近似于df=k一1的2分布。但是,n的最小数值日前并没有明确的说明,使用者采用时视具体问题而定。
②Cochran Q检验适用于定类尺度测量的数据,其它测量层次的数据也可以运用,但要象例4-2那样,转化为两类,但这样做可能浪费数据中包含的信息。因此,Cochran Q检验一般只用于定类尺度的数据。
4.应用
1 第 页
【续例4-1】候选人的例子
43(1621129262)34222Q9.357.8150.05(3) 2222442(1321)因而,拒绝原假设,认为这4位候选人在选民眼中不同。 【例4-2】消费者对饮料的爱好是否存在差异
某商店为决定经营饮料的品种、数量,对消费者的爱好进行了一次调查。随机抽取18个消费者,请他们对四种饮料:热牛奶、酸奶、果汁、可口可乐的喜好作出评价,凡喜好的记作1,不喜好记作0。调查结果如表4—2。
表4-2 消费者对饮料喜好的调查结果 消费者 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 合计(xj)
热牛奶 1 0 0 1 1 0 0 0 0 1 0 0 1 1 1 0 1 0 8
酸奶 0 0 0 1 0 1 0 1 1 1 0 0 0 1 1 1 0 0 8
果汁 0 1 1 0 1 0 0 0 1 1 1 1 0 0 0 0 0 0 7
可口可乐
1 0 1 0 0 0 1 0 0 0 0 0 1 0 0 0 1 1 6
合计(yi)
2 1 2 2 2 1 1 1 2 3 1 1 2 2 2 1 2 1 29
分析:为检验消费者对四种饮料的爱好是否有差异,建立双侧各择,假设组为
H0:消费者对四种饮料爱好无显著差异
H1:消费者对四种饮料爱好有显著差异
由于数据为定类尺度测量,只有“爱好”与“不爱好”两种结果,且是两个以上相关样本,这里是四种饮料,k=4,所以选用Cochran Q检验。
根据表4—1的调查数据,计算H0成立时的统计量Q。x1=8表示喜欢第一种饮料热牛奶的总次数,
x28是喜欢酸奶的总次数,其它的依此类推。xj29是所有四种饮料中,消费者表示喜欢的总次数。
j142 第 页
是各个消费者对四种饮料表示喜欢的总次数。xj表yi是第i个消费者喜欢各种饮料的次数。yi29,
j1j14k示按样本数计算的消费者喜欢的总次数,而yi表示按观察对象即消费者或说按样品数计算的对各种饮料
i1n喜欢的总次数。这两个总和应相等,即有xjyi。统计量Q正是用于说明按样本数计算的总次数与
j1i1kn按样品数计算的总次数的符合程度。按(4.1)式,可以计算出
Q=0.5238
2根据给定的显著性水平=0.05,自由度df=4-l=3,查附表,得到临界值=7.82。显然,Q=0.52382<=7.82。因而,调查数据在5%的显著性水平上不能拒绝H0,即消费者对四种饮料的爱好没有显著
差异。
【例4-3】三种不同教学方法的效果是否有显著差异
三种不同教学方法:电视教学、课堂讲授、课堂讨论,对学生掌—握知识的效果是否有所不同。为检验这一问题,抽选部分学生分为18组,每组3名匹配的学生,他们的有关情况类似。各组中3名学生被随机地置于3种条件下,即随机地指定接受某种教学方法。实施不同教学方法后进行测验,成绩合格为有效,记作1;成绩不合格为无效,记作0。结果如表4—3。
表4-3 实施不同教学方法的学生成绩 学生组 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 合计(xj)
电视教学
0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 1 0 0 3
课堂讲授
0 1 1 0 0 1 1 1 0 0 1 1 1 1 1 1 0 1 12
课堂讨论
0 1 0 0 1 1 1 0 1 0 1 1 1 1 1 1 1 1 13
合计(yi)
0 2 1 0 2 2 2 1 2 0 2 2 2 2 2 3 1 2 28
3 第 页
分析:学生的考试成绩是定距尺度测量,这里将其转化为合格、不合格两类,则视为定类尺度。合格即教学方法有效为1,不合格为教学方法无效,记作0。接受三种不同教学方法的学生在每一组是匹配的,即构成3个相关样本,k=3。检验三种教学方法的效果是否存在差异,建立的假设组为
H0:三种教学方法的效果无显著差异 H1:三种教学方法的效果有显著差异
由于是定类尺度测量的数据,相关样本数目大于2,因此,宜采用Cochran Q检验。利用表4—2的数据计算检验统计量Q=13
22给定显著性水平=0.05,df=3—1=2,查附表中相应临界值=5.99。显然,Q=13>=5.99,
在5%的显著性水平上调查数据拒绝H。,表明三种不同教学方法的效果有显著差异。最后的判定,还可以采用这种方法,计算其尾概率。
5.软件处理
Cochran Q Test (例4-1.sta)Number of valid cases: 18Q = .5238096, df = 3, p < .913630SumPercentPercentVariable0's1's热牛奶8.00000055.5555644.44444酸奶8.00000055.5555644.44444果汁7.00000061.1111138.88889可口可乐6.00000066.6666733.33333 Cochran Q Test (例4-2.sta)Number of valid cases: 18Q = 13.00000, df = 2, p < .001504SumPercentPercentVariable0's1's电视教学3.0000083.3333316.66667课堂讲授12.0000033.3333366.66667课堂讨论13.0000027.7777872.22222 二、Friedman检验
Friedman检验亦称佛利得曼的2检验。或佛利得曼双向评秩方差分析,或者Friedman秩和检验。它是对k个样本是否来自同一总体的检验。k个样本是匹配的,实现匹配的方法与前面类似。可以是k个条件下同一组受试者构成,即受试对象作为自身的对照者,也可以将受试者分为n个组,每组均有k个匹配的受试者,随机地将k个受试者置于k个条件之下形成。在不同受试者匹配的样本中,应尽量使不同受试者的有关因素匹配即相似。
1.基本方法
与Cochran Q检验相似,Friedman检验也是用来检验各个样本所得的结果在整体上是否存在显著差异。因此建立的也是双侧备择,假设组为
H0:k个样本间无显著差异 或者 H0:12k H1:k个样本间有显著差异 H1:不全相等 为对假设作出判定,所分析的数据应是定序尺度测量。获得的数据排成一个n行k列的表,行代表不同的受试者或匹配的受试小组,列代表各种条件。由于是定序尺度测量的数据,因此,可以对每一行的观测结果分别评秩,即评等级,等级1是最小的,依次排序,秩从1到k。如果H0为真,那么每一列中秩的4 第 页 分布应该是随机的,即各个秩出现在所有列中的频数应几乎相等,也就是说各列的秩和应该大致相等。
STEP1:在每一个区组中计算各个处理的秩:Rij; STEP2:计算秩和RiRijj1bi1,2,,k;
STEP3:定义Friedman检验统计量为。
Qkk12b(k1)212(R)Ri23b(k1) ibk(k1)i12bk(k1)i1(0.3)
NOTE:①Q越大对H0越不利;
②在小样本时,要查临界值表,查表时,要作变换WQ;
b(k1)③在大样本时,有Q的抽样分布在n、k不太小时,近似于自由度df=k—l的2分布,即
Q~2(k1),k定,b。因此,在附表中,可以根据给定的显著性水平,自由度df=k一1查得H0为真
22时,相应的临界值。若r2,则在水平上拒绝H0,否则不能拒绝H0;
④某区组中存在结时,Q应作适当的修正。
2.应用
【例4-4】在不同的城市对不同的人群进行血液中铅含量测试。设有A、B、C三个城市(汽车密度不同)代表三种不同的处理(k=3),对试验者按职业分组(b=4)取血(四个区组)。他们血液中铅含量及其评秩的结果如下:
表4-4 不同城市居民血液铅含量评秩 城市 (处理) A B C 职业 (区组) Ⅰ 80(3) 52(2) 40(1) Ⅱ 100(3) 76(2) 52(1) Ⅲ 51(2) 52(3) 34(1) Ⅳ 65(3) 53(2) 35(1) Ri 11 9 4 由此可以计算出Q6.5(W0.8125)
【例4-4】三种不同教学方法的效果是否有显著差异
三种不同教学方法同例4-2,抽选的学生也分为18组,每组3名匹配的学生,其有关情况类似。各组中3名学生被随机地安排接受某种教学方法。实施不同教学方法后,进行测验,按成绩高低对3名匹配学生的成绩排列等级即评秩,结果如表4—4。
表4-4 实施不同教学方法的学生成绩 学生组 1 2 3 4 5
电视教学
1 1 2 3 2
5 第 页
课堂讲授
3 2 3 2 1
课堂讨论
2 3 1 1 3
6 7 8 9 10 11 12 13 14 15 16 17 18
合计(Rj)
1 1 2 2 2 1 1 1 1 1 1 1 1 25
3 2 3 1 1 3 3 2 3 2.5 2 2 2 40.5
2 3 1 3 3 2 2 3 2 2.5 3 3 3 42.5
分析:这个问题与例4-3类似,也是检验三种教学方法的效果,有无差异,因而应建立双侧备择,假设组为
Ho:三种学方法的效果无显著差异 H1:三种教学方法的效果有显著差异
表4-4实施不同教学方法的学生成绩等级由于数据的测量已转化为定序尺度,且是两个以上相关样本,故可以来用Friedman检验。根据表4—4的数据1,按(4.3)式计算检验统计量r2
r210.8
2给定显著性水平=0.05,自由度df=k—l=2,查附表中H0成立时相应的临界值=5.99。显然,2=5.99,因此数据在5%的显著性水平上拒绝H0,三种教学方法的效果有显著差异。 r210.8>【例4-5】四部分技术训练的有效性有无差异
某田径队对新入队的学员要进行四个部分的技术训练,以提高学员的身体素质。为检验这四个部分的技术训练计划是否确实有效,随机抽选了14名新学员,分别接受四个部分的训练。每一训练结束后,均进行该部分的测验,成绩以10分为最高。检测结果如表4-5。
表4-5 学员受训后检测的成绩 学员编号
1 2 3 4 5
1
技术训练Ⅰ
10 2 4 6 3
技术训练Ⅱ
3 5 10 3 4
技术训练Ⅲ
6 9 3 10 10
技术训练Ⅳ
8 4 8 4 6
表4—3中,第15组接受课堂讲授和课堂讨论方法的学生测验成绩相同,因此排序时,取秩2和3的平均值,均记为2.5。
以平均秩替代同分,不影响这一检验的有效性。
6 第 页
6 7 8 9 10 11 12 13 14
5 7 6 10 8 5 3 4 6
4 10 10 5 9 4 5 5 5
6 6 3 7 7 2 4 10 8
7 5 5 6 6 6 7 9 10
分析:学员的测验成绩是定距尺度测量的,但可以将其转换为定序尺度。将每一学员的4个成绩,按由低到高的顺序排列,给出等级即评秩,得到表4一5。由于是两个以上相关样本,且数据为定序尺度,故可以运用Friedman检验。建立的假设组为
Ho:四个部分技术训练的有效性无显著差异 H1:四个部分技术训练的有效性有显著差异
根据表4—5的数据,按(4.2)计算得到
r20.7714
2在附表中,查找与显著性水平=0.05,自由度df=k—1=3相对应的临界值=7.82。显然Q
2=0.7714<=7.82,调查结果在5%的显著性水平上不能拒绝H0,表明四个技术训练的有效性没有
显著差异。
3.软件处理
Friedman ANOVA and Kendall Coeff. of Concordance (例4-3.sta)ANOVA Chi Sqr. (N = 18, df = 2) = 10.33803 p < .00569Coeff. of Concordance = .28717 Aver. rank r = .24524AverageSum ofMeanStd.Dev.VariableRankRanks电视教学1.38888925.000001.3888890.607685课堂讲授2.25000040.500002.2500000.732642课堂讨论2.36111142.500002.3611110.763228 Variable技术训练技术训练技术训练技术训练Friedman ANOVA and Kendall Coeff. of Concordance (例4-4.sta)ANOVA Chi Sqr. (N = 14, df = 3) = .7714286 p < .85629Coeff. of Concordance = .01837 Aver. rank r = -.0571AverageSum ofMeanStd.Dev.RankRanks12.35714333.000005.6428572.46848322.35714333.000005.8571432.65611532.57142936.000006.5000002.73861342.71428638.000006.5000001.786703 三、Cochran Q检验与Friedman检验 这两个检验都用于k个相关样本是否可能来自同一个总体的检验。但对数据测量层次的要求不同。 Cochran Q检验适用于定类尺度的测量数据,其它测量层次的数据也可以使用,但应转化为两类数据。7 第 页 有时观察值是以“是”或“否”,“喜欢”或“不喜欢”等二元数据的形式出现,如果用Friedman秩和检验将会出现很多打结的现象,即秩相同。Cochran Q检验就解决了打结的问题。
但当数据为定类尺度测量,只能运用Cochran Q检验。因为,这一检验对于定类尺度或仅分为两类的定序尺度测量数据是极为有效的。若数据测量层次至少为定序尺度时,应优先选用Friedman r2检验。因为若将定序尺度转换为定类尺度,而采用Cochran Q检验,可能会浪费数据包含的信息
四、区组设计的另外两种检验:Page检验和Durbin检验
1.完全区组设计的Page检验
对于单边检验问题H0:1k,H1:1k,Page于1963年引入下面统计量:
LiRi
i1bk(0.4)
式中Ri为秩Rij在第j个区组中的秩和RiRij。
j1NOTE:①L值越大对H0越不利; ②在b时,有正态近似Z见笔记;
③存在打结时,需要进行修正。 【续例4-4】血液中含铅量的例子
这里将城A和C对调,即检验H0:123,H1:123。 R14,R29,R31
LLLb(k3k)2bk(k1)22;L,证明过程详~N(0,1),其中:L144(k1)4所以,L419211355,查表2得,P(L5)0.010.05,拒绝原假设,认为有显著性影响。 正态近似计算,ZLLL55483/32.4751.96。
2.不完全区组设计的Durbin检验
考虑平衡的不完全区组设计BIBD(k,b,r,t,),检验H0:1k,H1:不全相等。Durbin于1951年提出检验统计量为:
可以使用下面的简化计算:
D12(k1)k23r(k1)(t1)Rit1
rk(t21)i112(k1)kr(t1)2D(Ri) 22rk(t1)i1(0.5)
(0.6)
2
P187表,k3,b4。
8 第 页
在原假设成立时,D统计渐近服从2(k1)
【例4-6】比较四种材料(k4)在四个部位(b4)的磨损,数据可以记为下面两种形式:
表4-6a 不完全区组设计举例 材料 (处理) A B C D 解:
从右边的表容易看出BIB设计的平衡性质,这里(k,b,r,t,)(4,4,3,3,2)。
12(k1)k23r(k1)(t1)2DRi6.756.250.1(3) 2t1rk(t1)i1表4-6b 不完全区组设计举例
Ri 部位 (区组) Ⅰ 34(1) 36(2) 40(3) Ⅱ Ⅲ Ⅳ 28(1) 36(1) 30(2) 45(1) 48(2) 60(3) 44(3) 54(3) 59(2) 部位 (区组)
Ⅰ 34(A) 36(B) 40(C)
Ⅱ 30(B) 28(A) 44(D)
Ⅲ 48(C) 54(D) 36(A)
Ⅳ 59(D) 60(C) 45(B)
3 5 8 8 拒绝原假设,认为在10%的显著性水平下,不同材料的磨损情况存在区别。
9 第 页
§2 k个独立样本的非参数检验
一、 Kruskal-Wallis检验
Kruskal—Wallis检验亦有译为克拉夏尔—瓦里斯检验,或简称为克氏检验。它是两个独立样本Mann—Whitney—Wilcoxon检验的一种推广。
1.问题的提出
【例4-7】在一项健康试验中,有三种生活方式,减肥效果如下表,问:每种生活方式的减肥效果是否相同?
表4-7 减肥效果表 生活方式 一个月后 减少的重量 (单位500g)
ni
1 3.7 3.7 3.0 3.9 2.7 5 2 7.3 5.2 5.3 5.7 6.5 5 3 9.0 4.9 7.1 8.7 4 更为一般的数据形式为:
表4-8 一般的数据结构 1 x11 x12 „„ x1n1
2 x21 x22
„„ „„ „„
k xk1 xk2
„„ x2n2
…„„ „„ xknk
在数理统计学中,应作单因素方差分析 原假设:H0:12k
ni(xix)2/k1SSA~F(k1,Nk) 检验统计量:FSSE(xijxi)2/(Nk)但这是要求不同的样本来自于具有相同方差的正态总体。然而,这种条件在现实中难以满足。
2.Kruskal—Wallis检验基本方法
1.基本假定
①假定这k个样本具有相似的连续分布; ②所有的观察值在样本内和样本间是相互独立的。 2.提出原假设
若有k个总体,各自的连续累积分布函数为F1(x),F2(x),,Fk(x),那么Kruskal—Wallis检验的一般零假设为
第 10 页
H0:F1(x)F2(x)Fk(x) 对所有的x
如果在研究总体是否相同时,偏重于考察位置参数,并且位置参数采用各个总体的中位数,即么,H0
等价于k个总体的中位数相等。若仍以M1,M2,,Mk代表k个总体的中位数,则Kruskal—Wallis检验建立的假设组为
H0:M1M2Mk
H1:Mj(j1,,k)中至少有两个不相等
这里的备择对于k>2时不存在单侧备择的配对,因为对于Mj(j1,,k)来说,有k!种不同的有序排列,这不便于进行检验。
3.基本原理3
为对假设作出判定,需要的数据是k个独立的随机样本,其大小为n1,n2,,nk样本独立地分别从各自总体抽取,总体分别具有连续的累积概率分布F1(x),F2(x),,Fk(x)。数据的测量层次至少在定序尺度上。
记观察值xij在混合样本中的秩为Rij。则有
RiRij,i1,2,,k为第i个样本的秩和
j1niRiRi/ni,i1,2,,k为第i个样本的平均秩和
RRiNi1k12NN(N1)N1 N2N2当Ri存在较大差别时,有理由怀疑H0是否为真。
由此,仿照方差分析的做法,可以构造检验的统计量,将它定义为H
H12N(N1)ni(RiR)2j1kH02~(k1)
(0.7)
(4.7)式还可以写成下面的形式
2kRj12H3(N1) N(N1)j1nj(0.8)
或者可以这样来思考。将所有数据按从小到大的顺序合并成一个单一的样本,其大小
Nn1n2nk。将每一个观察值给出一个等级即评秩,秩为整数,从1到N。对于N个观察值来说,
平均等级是
12NN(N1)N1 N2N2对于含有nj个观察值的第j个样本来说,等级总和的期望值是nj(N1)/2。若以Rj表示第j个样本的实际等级总和,那么Rjnj(N1)/2就表示k个样本中第j个样本等级总和与其均值的偏差。如果H0为真, 3
统计量的构造可以仿照两样本的Wilcoxon秩和检验,先混合两个样本,然后找出各个观察值在混合样本中的秩,分别按
样本求和。
第 11 页
所有样本数据混合排列成一个单一的随机样本,等级即秩次应该在k个样本之间均匀地分布,也就是说,各样本实际的等级总和即秩次和Rj与期望等级总和nj(N1)/2之间的偏差应很小。
因此,Kruskal—wallis检验定义的统计量可以建立在实际等级总和Rj与期望等级总和nj(N1)/2的偏差的基础上。计算公式为
2k[Rjnj(N1)/2]12 HN(N1)j1nj(0.9)
(4.9)式也可以写(4.8)式。 4.检验统计量
2kRj123(N1)~2(k1) 检验统计量为:HN(N1)j1nj5.确定P值
①小样本时,可以查附表K-W。 ②大样本时,可以查2分布表。
当样本数k、每个样本包含的观察值数目nj,不是很小时,检验统计量H渐近的抽样分布是自由度df=k—1的2分布。根据给定的显著性水平,自由度df=k一1,在附表中可以查找到H0为真时的临
222界值。若H<,表明H是一个较小的值,数据支持H0,k个样本之间无显著差异。若H>,反
映实际的秩次和分布与期望的分布之间不一致,数据拒绝H0,k个样本来自不同总体。通常情况下,当k=3和各个nj5时,渐近的P值无法由卡方分布表得到,而只能查找附表K-W附表。这个表是Kruskal.W.H和Wallis.W.A.于1952年在其合作的著作中发表的。
Note:在大样本时,还可以构造一个F统计量来作多个独立样本的检验。
F*i1knini(Rii1j1kN12)/(k1)2~F(k1,Nk) (0.10)
(RijRi)2/(Nk)统计量F*与H之间的关系为:F*(Nk)H/(k1)(N1H)
3.应用
【例4-8】续前例
分析:将样本观察值进行混合,然后进行评秩,结果见表4—9
表4-9 减肥效果评秩表 生活方式 一个月后 减少的重量 (单位500g)
1 3.7(3.5) 3.7(3.5) 3.0(2) 3.9(5)
2 7.3(12) 5.2(7) 5.3(8) 5.7(9)
第 12 页
3 9.0(14) 4.9(6) 7.1(11) 8.7(13)
秩和Ri 秩平均Ri 2.7(1) 15 3 6.5(10)
46 9.2 44 11 在该题中,n1=5,n2=5,n3=4,N=14。 依题意,可以提出如下的假设:
H0:M1M2M3
H1:Mj(j1,2,3)中至少有两个不相等
依表中的数据,可以计算检验统计量H的统计值为:H=9.4114。查K-W表,得到在1%的显著性水平下的临界值为7.8229,因此拒绝原假设。如果使用卡方分布作近似计算,可以查卡方分布表,得
20.01(2)9.21,结论同上。
Boxplot by GroupVariable: 减少的重量10987Kruskal-Wallis ANOVA by Ranks; 减少的重 量(例4-5.sta)6Independent (grouping) variable: 组变量5Kruskal-Wallis test: H ( 2, N= 14) =9.432159 p =.0090Depend.:Grp.1Grp.2Grp.3减少的重量Code123ValidN554Sum ofRanks15.0000046.0000044.0000043212组变量3 Median 25%-75% Min-Max 【例4-9】四种不同类型治疗的有效性是否有显著不同 对于精神错乱有4种不同的手段:电击、心理疗法,电击加心理疗法、无任何治疗。为检验这几种不同手段对精神错乱治疗的有效性是否不同,选取了40个病人。他们在智力、品德、心理等因素方面相差不多。随机地将40人分成4个组,每组10人。4个组分别接受不同方法的治疗。一个周期后,对每个病人相对改善程度进行测量,依改善高低程度给40人分等级,等级l是改善的最高水平,依次排序,直至等级40是改善最小的水平。评秩结果如表4—10。 表4-10 40名病人改善程度的等级 电击疗法组 22 19 29 24 37 27 28 25 心理疗法组 2 6 16 11 7 18 14 21 第 13 页 电击加心理疗法组 5 1 4 8 9 15 12 20 无治疗组 30 32 34 36 39 35 40 31 秩次和(Rj)
23 26 260
10 17 122
13 3 90
33 38 348
分析:对任何一种方法判定其有效的标志是病人分数的中位数,若4种方法效果差异不大,则各样本的中位数应相等。为检验4种方法有效性是否有差异,可以建立假设组为
H0:M1M2M3M4
H1:Mj(j1,,4)中至少有两个不相等
由于数据是定序尺度测量,有两个以上独立样本,因此可以来用Kruskal—Wallis检验;根据表4—5的数据,按(4—4)式计算检验统计量H。
2kRj1212260212229023842H3(N1)()3(401)31.89 N(N1)j1nj40(401)101010102在卡方分布表中,与df=k一1=3,显著性水平=0.05相对应的临界值显然H=31.897.82。2>数据在5%的显著性水平上拒绝H0,表明四种不同治疗方法对精神错乱的有效性存在显著差7.82。
异。
Boxplot by GroupVariable: rank454035Kruskal-Wallis ANOVA by Ranks; rank (例4-6.sta)30Independent (grouping) variable: group25Kruskal-Wallis test: H ( 3, N= 40) =31.89366 p =.000020Depend.:CodeValidSum of15rankNRanks10Grp.1110260.00005Grp.2210122.00000Grp.331090.0000-5Grp.4410348.0000rank12group34 Median 25%-75% Min-Max 4.同分的处理 在实际中,往往会出现评分相同的情况。如果在两个或两个以上的评分之间出现同分时,每一个评分的秩都记作这些同分秩的平均值。由于出现同分会对统计量H有影响,因而计算H值时,应进行校正。校正系数为 u3u 1NN3(0.11) 式中,u是相同评分的观察值数目,如学员考试成绩有2个62分,则u=2;还有4个78分,则u=4等等。计算H值时,利用(4—7)式除以H,得到的是校正的H值。经过校正以后H值比校正前要大。如果末校正时,计算结果就能拒绝H0,那么校正后将在更加苛刻的显著性水平上拒绝H0,因为与较大的H值相对应第 14 页 的概率P值将更小。在大多数情况下,这一校正常可忽略。根据Kruskal和Wallis在1952年的著作中证明,当同分的观察值数目占观察值总数目的比例不到25%时,校正后的概率仅仅改变百分之十几。一般情况,校正因子的大小取决于u值的大小,即同分的数目和同分观察值数目占观察值总数的百分比。
【例4-10】三种不同教学方法的有效性是否有显著差异
某大学制定三种不同的教学方法:大班讲授,小组讲授、小组讨论。为检验三种方法对学生掌握知识的有效性是否相同,进行了一次试验。选取二年级大学生50名,随机地分为三组,分别接受三种不同方法教学。由同一教师按不同方法分别讲授同一方面的知识,规定的内容讲授完后,对学生进行统一考试,成绩如表4—11所示。
表4-11 学生考试成绩 62
56 62 84 90 48 49 64 69 72 大班讲授组(Ⅰ) 78 79 89 98 92 52 54 84 82 69 56 48 64 72 78 84 86 92 98 62 小组讲授组(Ⅱ) 73 78 92 86 84 69 73 92 98 81 小组讨论组(Ⅲ) 84 86 98 72 69 79 86 84 70 90 分析:学生成绩为定距尺度测量,但为了避免作出某些假设,以使结论更具普遍性,所以不准备采用参数检验方法,而选用非参数检验。由于三种不同教学方法是独立的,故应采用6个独立样本的统计检验。对于三组学生成绩集中趋势的一个很好的度量指标是中位数,成绩可以由小到大排序给出等级,因此能够采用Kruskal—Wallis检验。建立假设组为
H0:M1M2M3
H1:Mj(j1,2,3)中至少有两个不相等
若用文字描述为
H0:接受不同教学方法的学生平均成绩没有显著差异 H1:接受不同教学方法的学生平均成绩不完全相同
为采用Kruskal—Wallis检验对假设作出判定,将表4—9中的所有学生成绩排序,最低分秩评为1,最高分秩评为50。由于50名学生中有不少是同分,采用相应秩的简单算术平均数作为同分的平均秩,得到表4—12。
第 15 页
表4-12 学生考试成绩的等级 大班讲授组(Ⅰ) 小组讲授组(Ⅱ) 小组讨论组(Ⅲ) 62(9) 78(22) 56(6.5) 73(22) 84(32.5) 56(6.5) 79(26.5) 48(1.5) 78(24.5) 86(37.5) 62(9) 89(40) 64(11.5) 92(44.5) 98(48.5) 84(32.5) 98(48.5) 72(19) 86(37.5) 72(19) 90(41.5) 92(44.5) 78(24.5) 84(32.5) 69(14.5) 48(1.5) 52(4) 84(32.5) 69(14.5) 79(26.5) 49(3) 54(5) 86(37.5) 73(22) 86(37.5) 64(11.5) 84(32.5) 92(44.5) 92(44.5) 84(32.5) 69(14.5) 82(29) 98(48.5) 98(48.5) 70(17) 72(19) 69(14.5) 62(9) 81(28) 90(41.5) 合计(Ri) 649.5 318.5 307
用表中数据,按H的计算公式计算得到
2kRj1212649.52318.529023072H3(N1)()3(501)5.2626 N(N1)j1nj50(501)30101010附表中,df=k一1=2,H=5.2626出现的概率P在0.05与0.10之间。若显著性水平=0.05,则数据不能拒绝H0;而显著性水平=0.10,则数据拒绝H0。由于学生成绩中同分较多,因而应采用校正的H。计算同分的观察值数目,即u和u3,计算过程列于表4—11中。由于u3u60143558,所以校正因子为
u3u113NN55850(5021)0.9955
校正后的统计量H为
H5.26265.2864 0.9955这一结果与校正前的H值相差不多。对于显著性水平=0.05,df=k一1=2,H0为真时的临界值为2=5.99。H=5.2864<2=5.99,数据在5%的显著性水平上不能拒绝H0,表明接受不同教学方法的学
生平均成绩没有显著差异。
表4-13 同分的观察值数目计算 同分的观察值 48 56 62 64 69 72 73 78 79 84
第 16 页
3 U 2 2 3 2 4 3 3 2 2 6 U8 8 27 8 64 27 27 8 8 216
86 90 92 98 合计
Boxplot by GroupVariable: grade1004 2 4 4 43 64 8 64 64 601 9080grade7060504012group3 Median 25%-75% Min-Max 书上的例子,详见笔记P25
二、 Jonkheere-Terpstra检验
设有k个样本X1,X2,,Xk,Xi~F(Xi),其中1,2,,k为位置参数。K-S检验主要用于双边假设检验,但在实践中,有可能需要我们判断样本的位置是否呈现出某种趋势(上升或下降趋势),则可检验H0:12k,H1:12k,我们可以使用Jonkheere-Terpstra检验。
记Uij#(XikXjl,i1,2,,ni;l1,2,,nj),表示样本i中观察值小于样本j中观察值的对数。 则Jonkheere-Terpstra检验的统计量4可以定义为:
JijUij (0Jninj)
ij(0.12)
由J的定义可知,J越大对H0越不利。因而尾概率为P(Jc),查表可求出临界值c。 Note:①如果有结出现,则Uij应作修正,检验统计量作相应的变动;笔记P26
②在大样本时,可以使用正态近似。笔记P26 【例4-11】续前例(教材P76)
分析:为了适用检验临界值表的需要,应该选择n1=4,n2=5,n3=5 提出假设H0:123,H1:123 记Uij#(XikXjl)
根据数据可以得到:U12=14,U23=25,U13=20 则JUij59
ij 4
由两人分别于1952年和1954年提出。
第 17 页
查表可得P值<0.00371<0.05= 拒绝H0,说明位置有下降的趋势。
第 18 页
§3 k个样本的卡方检验
两个独立样本的2检验可以直接推广到k个独立样本,用来检验k个样本之间差异的显著性。
一、基本方法
k个独立样本2检验与两个独立样本的基本方法类似。零假设是k个样本来自同一总体,或来自一些相同的总体。样本可以是k个频数或k个比例。每一样本都可以分成r组,因此数据可以排成一个k×r的表。若以fij表示第i行第j列的实际频数或比例,eij表示与其相应的理论频数或比例,那么,检验统计量Q为
Qrk(fijeij)2eij (0.13)
i1j1以fi表示第i行的频数和或比例和,k个样本观察值的数目分别为n1f1,„,nkfk,总数目Nn1n2nk,任一样本观察值数目记作nj(j1,2,,k),那么,理论频数eij可以由下式计算
eijnj(fi/N)
(0.14)
当H0为真时,Q统计量的抽样分布近似于自由度df=(k—1)(r一1)的2分布。根据给定的显著性水平,查相应的卡方分布表,即可以进行相应的检验
二、应用
【例4-12】收听体育广播兴趣不同的人,参加体育活动的情况是否也不相同
1990年秋的《亚运会》调查,在全国范围抽选12个省的2162人(原抽选2211人,其中49人未回答),按收听体育广播的兴趣程度分为:很不喜欢、不喜欢、无所谓、喜欢、非常喜欢五类,各类人员参加体育活动情况如表4—14所示
表4-14 各类人员参加体育活动情况的人数 很不喜欢 不参加 15 偶尔参加 3 经常参加 4 天天参加 3 合计 25 不喜欢 96 15 15 14 140 无所谓 644 218 105 119 1086 喜欢 290 204 113 108 715 非常喜欢 57 49 32 58 196 合计 1102 489 269 302 2162 资料来源:柯惠新等:《调查研究中的统计分析》P262.北京广播学院出版社,1992。 分析:按收听体育广播兴趣划分的五种类型是相互独立的,抽选的2162人随机地分为这五类,因此,k=5是独立样本,应采用k个独立样本的检验。数据是定类尺度测量的,所以适用2检验。建立的假设组为
H0:收听体育广播兴趣不同不影响参加体育活动的情况 H1:收听体育广播兴趣不同参加体育活动情况也不同
第 19 页
为对假设作出判定,需要计算Q统计量。必要的计算过程如表4—15。表中理论频数eij由(4.13)式计算得到。利用表中数据,按(4.12)式可以计算得到Q统计量。(fijeij)2eij的计算列于表4—16。
表4-15 Q统计量计算表Ⅰ 分 组 不参加 偶尔参加 经常参加 天天参加 合计
f1 f2 f3 f4 f5 f1 e1 e2 e3 e4 e5 15 3 4 3 25 96 15 15 14 140 644 218 105 119 1086 290 204 113 108 715 57 49 32 58 196 1102 12.74 71.35 553.55 364.44 489 5.66 31.67 245.63 161.72 269 3.11 17.42 135.12 88.96 302 3.49 19.56 151.70 99.88 2162 25 140 1086 715 99.90
44.33 24.39 27.38 196 表4-16 Q统计量计算表Ⅱ (f1e1)2e1 (f2e2)2e2 (f3e3)2e3 (f4e4)2e4 (f5e5)2e5 合 计 Qrk0.4009 1.2501 0.2547 0.0688 1.9745 8.5161 8.7745 0.3362 1.5804 19.2072 14.7795 3.1080 6.7141 7.0487 31.6503 15.2050 11.0537 6.4964 0.6601 33.4152 18.4225 0.4920 2.3744 34.2434 55.5323 (fijeij)2eij1.974519.207231.650333.415255.5323141.7795
i1j12若给定显著性水平=0.05,由df=(k一1)(r一1)=(5—1)(4一1)=12,查附表,临界值=21.03。
2因为Q=141.7795>=21.03,所以数据在5%的水平上拒绝H0,表明收听体育广播兴趣不同的人,参
加体育活动的情况也不同,即收听体育广播的兴趣对参加体育活动有影响。
三、k个比例相等性的检验
若所研究的k个独立样本是k个比例,那么,对k个独立样本是否来自同一总体,或是否来自k个相同总体的检验,实际是对k个比例相等性的检验。k个比例分别记作P1,P2,,Pk,则建立的假设组为
H0:P1P2Pk
H1:Pj(j1,2,,k)中至少有两个不等
为了对假设作出判定,所需要的数据是定类尺度测量的。k个样本的数据个数分别为n1,n2,,nk。k个样本的实际频数分别记作f1,f2,,fk,则k个样本的平均比例为
Pfjnj
(0.15)
由(4.14)式可以得到第j个样本的期望频数为njP。若H0为真,那么实际频数fj与相应的期望频数njP应该相等。所以实际频数fj与期望频数njP的偏差可以作为度量k个比例是否相等的一个指标。为检验k个比例是否相等定义的统计量为Q。其计算公式为
第 20 页
Qk(fjnjP)2njP(1P) (0.16)
j1(4.12)式也可以写成
1QP(1P)nj(j1kfjnjP)2
(0.17)
统计量Q的抽样分布近似于自由度df=k—l的2分布。检验的P-值可以查相应的卡方分布表的右尾概率。
【例4-13】三个区域房屋销售的比例是否有差异
某房地产公司准备在一地区购买房屋并出售,由于资金有限,不能在这一地区大量购买。决策者准备先从期望销售比例最大的区域开始,获得利润后再开辟别的区域。为检验这个地区的三个区域房屋销售比例是否有显著不同,随机地从每个区域拍选容量为100的样本调查。抽样框是已发出的付款通知书,即已被人认购的房屋。调查结果如下
表4-17 Q统计量计算表Ⅰ 区 域 已销售数目 发通知数目
分析:决策者要在三个区域中选择首先开始销售的区域,就是要确定三个区域的房屋销售比例是否相同,也就是检验三个区域已销售房屋数目占发通知书数目的比重是否有显著差异。若有差异,哪个区域的比例最高,应从哪个区域开始。若三个区域的房屋销售比例分别记作P1,P2,P3,建立的假设组为
H0:P1P2P3
Ⅰ 40 100 Ⅱ 25 100 Ⅲ 20 100 H1:P1,P2,P3 不完全相等
假定这三个区域相对于居住单位是均匀的,3个独立样本的比例是否相等的检验,可以来用2检验。由于调查数据为
f140 f225 f320
n3100 n1100 n2100根据公式有
Pfn(402520)3000.2833
于是三个样本的期望频数分别为
Ⅰ:n1P28.33 Ⅱ:n2P28.33 Ⅲ:n3P28.33
可以计算得到检验统计量为
第 21 页
Qk(fjnjP)2j1(4028.33)2(2528.33)2(2028.33)210.6681 28.330.716728.330.716728.330.7167njP(1P)根据给定的显著性水平=0.05,自由度df=k—1=2,在附表中查找相应的临界值2=5.99。因为Q=10.6681>2=5.99,表明数据在5%的显著性水平上拒绝兑,三个区域的销售比例显著不同。由于第1个区域的实际销售比例最高P1f1/n10.40,故应从第一个区域开始实施购房销售计划。
【本章思考题】
1.多样本的Cochran Q检验与Friedman检验的关系 2.Kruskal—Wallis检验的基本思想 3.Jonkheere-Terpstra检验的基本思想
第 22 页
附录:区组设计回顾 一、问题的提出
我们分别在不同的地块施不同的肥料,看看平均产量是否有显著提高。很多时候仅仅讨论肥料的影响,每种肥料得到一个样本,这一样本就称为处理。但在实践中,不仅肥料有影响,不同的土壤条件也构成了影响的另一因素,称为区组(Block)。
当存在区组时,代表处理的样本的独立性就不再成立,一些检验就会失效,需重新构建检验统计量。 例:在不同的城市对不同的人群进行血液中铅含量测试。设有A、B、C三个城市(汽车密度不同)代表三种不同的处理(k=3),对试验者按职业分组(b=4)取血(四个区组)。他们血液中铅含量如下:
表 不同城市居民血液铅含量 单位:g/100ml
城市 (处理) A B C 职业 (区组) Ⅰ 80 52 40 Ⅱ 100 76 52 Ⅲ 51 52 34 Ⅳ 65 53 35
二、区组设计的类型
每一个处理在每一个区组中出现并且仅出现一次,我们称为完全区组设计。有时,并不是能把每个处理都能分配到每一个区组中去,我们称为不完全区组设计。在不完全区组设计中最容易处理的是平衡的不完全区组设计,记为BIBD(k,b,r,t,)。
平衡的不完全区组设计满足:
1.每个处理在同一区组中最多出现一次; 2.tk;
3.每个处理都出现在相同多个(r)区组中; 4.每两个处理在一个区组中相遇次数一样(次)。 或者将这些参数记为满足:
1.krbt; 2.(k1)r(t1); 3.bk或rt。
如果tk,rb,BIBD(k,b,r,t,)则成为完全区组设计。
三、示例
比较四种材料(k4)在四个部位(b4)的磨损,数据可以记为下面两种形式:
第 23 页
表 不完全区组设计举例
部位 (区组) 材料
(处理) Ⅰ Ⅱ Ⅲ Ⅳ
A 34 28 36
B 36 30 45
C 40 48 60
D 44 54 59
从右边的表容易看出BIB设计的平衡性质,这里(k,b,r,t,)(4,4,3,3,2)。
表 不完全区组设计举例
部位 (区组)
Ⅰ 34(A) 36(B) 40(C)
Ⅱ 30(B) 28(A) 44(D)
Ⅲ 48(C) 54(D) 36(A)
Ⅳ 59(D) 60(C) 45(B)
四、使用的检验
1.完全区组设计时,使用:Friedman秩和检验;Cochran-Q检验;Page检验等 2.不完全区组设计时,使用Drubin检验等
第 24 页
因篇幅问题不能全部显示,请点此查看更多更全内容