两个多重相关变量组的统计分析_相关分析中的两个变量
两个多重相关变量组的统计分析由刀豆文库小编整理,希望给你工作、学习、生活带来方便,猜你可能喜欢“相关分析中的两个变量”。
两个多重相关变量组的统计分析
摘 要
本文介绍两组相关变量问的典型相关与典型冗余分析的统计分析方法,以及在SAS软件包中如何实现,文中给出了一个典型的例子。关键词:统计分析;典型相关;典型冗余分析
在实际问题中,经常遇到需要研究两组变量间的相关关系,而且每组变量中间常常存在多重相关性。比如工厂生产的产品质量指标与原材料、工艺指标间的相关关系;体育科研中运动员的体力测试指标与运动能力指标间的相关关系;经济领域中投资性变量与国民收入变量间的相关关系;教育学中学生高考各科成绩与高二年级各主科成绩间的相关关系;医学研究中患某种疾病病人的各种症状程度与用科学方法检查的一些指标间的相关关系等等。
研究两个变量组之间相关关系的常用方法是多元统计中的典型相关分析(参考[2]和 [3])。如果进一步研究这两组多重相关变量间的相互依赖关系,即考虑多对多的回归建模问题,除了最小二乘准则下的多对多回归分析、双重筛选逐步回归分析,以及提取自变量成分的主成分回归等方法外,还有近年发展起来的偏最小二乘(PLS)回归方法。关于多对多回归建模问题,我们将另文介绍。本文介绍典型相关与典型冗余分析,它是偏最小二乘回归的理论基础。
一 典型相关分析的基本思想与解法
第一组变量记为X=(X1Xp),第二组变量记为Y=(Y1Yq)(不妨设p≤q)。典型相关分析借助于主成分分析提取成分的思想,从第一组变量X提取典型成分V(V是X1,„,Xp的线性组合);再从第二组变量Y提取典型成分W(W是Y1,„,Yq的线性组合),并要求V和W 的相关程度达到最大。这时V和W 的相关程度可以大致反映两组变量X和Y的相关关系。
X11 12记p+q维随机向量Z=的协差阵∑=其中∑11一是X的协差阵,,21 22Y∑22:是Y的协差阵,∑l2=∑21是X,Y的协差阵。我们用X和Y的线性组合 V=aX和W=bY之问的相关来研究X和Y之间的相关。我们希望找到a和b,使ρ(V,W)最大。由相关系数的定义,ρ(V,W)=
Cov(V,W)Var(v)Var(w)
分析上式将发现:在使得V,W的相关达最大的同时,V和W的方差将达最小,这说明按此准则得到的典型成分V和W,对原变量组X和Y的代表性最差,它们无法更多地反映原变量组的变异信息。另方面因V,W任意线性组合的相关系数与 V,W 的相关系数相等,即使得相关系数最大的V=aX和W=bX并不唯一。故在典型相关分析解法中附加了约束条件:
Var(U)= a∑11a = 1 Var(V)= b∑22b = 1。
问题化为在约束条件Var(U)=1,Var(V)=1下,求a和b,使得ρ(U,V)= a∑l2b达最大。
X定义l 设X=(X1Xp),Y=(Y1Yq),p+q维随机向量Y的均值向量为
O,协差阵∑>O(不妨设p≤q)。如果存在a1 =(al1,„,alp)和b1 =(b1l,„,b1q)使得
ρ1=ρ(a1X,b lY)=
Var(,X)1,Var(,Y)1max(X,Y)
则称aX ,b Y是X,Y的第一对典型相关变量,它们之间的相关系数称为第一个典型相关系数。
如果存在ak(ak1,akp)和bk(bk1,akq)使得
①akX , b kY和前面 k-1对典型变量都不关;
②Var(akX)= l,Var(b kY)= 1;
③akX与b kY的相关系数 k最大,则称akX , b kY是X,Y的第k对典型相关变量,它们之间的相关系数k称为第k个典型相关系数(k2,,p)。
已知p+q维总体Z的n次中心化观测数据阵为:
x11x12x1px21x22x2pZn(pq)xn1xn2xnpy11yn1y12yn2y21y22y1qy2qXnpynqY nq若假定Z~Npq(0,),则协差阵∑的最大似然估计为
11XXSZZnnYXXYS11S12 YYS21S22下面我们将从样本协差阵S出发,来讨论两组变量问的相关关系。
令TS111/2SS121/222为p×q阵,则p×q阵和q×q阵TT的非零特征根相同,且非零特征根均为正的。若rk(T)=rk(S12)=r≤p(因p≤q),非零特征根依次为 1≥2≥„≥T >O(且λi>O,i=1,„,r)。记r阶对角阵D=diag(λi,„,λr)。利用p×q阵T的奇异值分解定理(参考[4])有 222T(a,,a)D(,,)
1r12pqrr其中口ai(i=l,„,r)为TT对应于i2的单位正交特征向量;i(i=1,„,r)为TT对应于i2的单位正交特征向量,且ai与i满足关系式:iai1/2S11i,容易验证与满足:biai(i1,r)1/2S22ibi1iTi。令
11/2aibiS111/2i(i1,r)
i1iS22i则ViaiX,WibiY为X,Y的第i对样本典型相关变量,i为第i个样本典型相关系数。
二 典型相关系数的显著性检验
总体z的两组变量X=(X1Xp)和Y=(Y1Yq)如果不相关,即Cov(X,Y)= ∑12=0,以上有关两组变量典型相关的讨论就毫无意义.故在讨论两组变量间的相关关系之前,应首先对假设H0:∑l2=0作统计检验,它等价于检验H0:ρl=0。
设总体Z~Npq(0,),用似然比方法可导出检验H0:∑l2=0的似然比统计量Λ,利用矩阵行列式及其分块行列式的关系,可得出
SS11||S222IpS11S12S22S21(11)
i111p其中p+q阶方阵s是∑的最大似然估计量,Sy分别是∑ij(i,j=1,2)的最大似然估计i2(i1,,p)是TT的特征值。
统计量Λ的精确分布已由Hotelting(1936年)等人给出,但表达式很复杂。由Λ统计量 出发可导出检验H0的近似检验方法,如 Willksλ统计量,Pillai的迹,Hotettintg-Lawley迹和Roy的极大根等(参阅[2])。
当否定H0时,表明X,Y相关,进而可得出至少第一个典型相关系数ρ1≠0。相应的第一 对典型相关变量V1,W1可能已经提取了两组变量相关关系的绝大部分信息。两组变量余下的部分可认为不相关,这时ρ1≈(i=2,„,p)。故在否定H0后,有必要检验H0:i(i2,,p)即第i个及以后的所有典型相关系数均为0。利用似然比方法可导出检验H0的似然比统计量,并给出该统计量的近似分布。从i=2开始逐个检验,直到某个i0,使H0相容时为止。这时说明第i0个及以后的所有典型相关系数均为0。假定经检验,前m个典型相关系数显著地不等于0(m≤p)。
(t)(t)(t)三 典型结构与典型冗余分析
1.典型结构
求出典型变量后,进一步可以来计算原始变量与典型变量之问的相关系数阵——典型结 构。
记A=(al,a2,„,ar)为P×r矩阵,B=(bl,b2,„,br)为q×r矩阵,典型随机向量V(V1,,Vr)(a1X,arX)AX;W(W1,Wr)(b1y,brY)BY;随机向量Z的11 12S11S12S协差阵为∑=>0,随机向量的协差阵为S21S22是∑的最大似然21 22然估计。则
Cov(X,V)=Cov(X,AX)=∑11A,Cov(X,W)=Cov(X,BY)=∑12B,Cov(Y,V)=Gov(Y,AX)= ∑12A,Cov(Y,W)=Coy(X,BY)=∑22B。
用Sij代替以上公式中的∑ij(i,j=1,2),即可计算出原始变量与典型变量之间的协差阵。由协差阵还可以计算原始变量与典型变量之间的相关系数阵。若假定原始变量均为标准化变量,则以上计算得到的原始变量与典型变量的协方差阵就是相关系数阵。
若计算这四个相关系数阵中各列(或各行)相关系数的平方和,还将得出下面一些有关的概念。2.几个概念 类似于主成分分析,把Vk看成是由第一组标准化变量X提取的成分,Wk看成是由第二组标准化变量Y提取的成分,由相关阵R(X,V)=S11A=[r(Xj,Vk)](p,r)和R(Y,W)=S11B=[r(Xj,Vk)](q,r)分别计算第k列的平方和。记
1p21p2Rd(X,Vk)r(Xj,Vk),Rd(Y,Wk)r(Yj,Vk)(k1,,r)
pj1qj1并称Rd(X,Vk))(或Rd(Y,Wk))为第k个典型变量 Vk(或Wk)解释本组变量X(或Y)总变差的百分比。记
1mp21mq2Rd(X;V1,,Vm)r(Xj,Vk),Rd(Y;W1,,Wm)r(Xj,Vk)
pk1j1qk1j1并称Rd(X;V1,,Vm)(或Rd(Y;W1,,Wm))为前m(m≤r)个典型变量V1,,Vm(W1,,Wm)解释本组变量X(或Y)总变差的累计百分比。
在典型相关分析中,从两组变量分别提取的两个典型成分首先要求相关程度最大,同时也希望每个典型成分解释各组变差的百分比也尽可能的大。百分比的多少反映由每组变量提取的用于典型相关分析的变差的多少。
类似于主成分分析,还可以引入前m个典型变量对本组第j个变量Xi(或Yj,)的贡献等概念(参考[1])。3.典型冗余分析
我们进一步来讨论典型变量解释另一组变量总变差百分比的问题。在典型相关分析中,因所提取的每对典型成分保证其相关程度达最大,故每个典型成分不仅解释了本组变量韵信息,还解释了另一组变量的信息。典型相关系数越大,典型成分解释对方变量组变差的信息也将越多。
类似可以定义Rd(X;Vk))(或Rd(Y;Wk))为Wk(或Vk)解释另一组总变差的百分比。以下给出利用典型变量解释本组变差的百分比来计算解释另一组变差百分比的公式:
Rd(X;Vk)1prj1p2(Xj,Vk)2,,r)kRd(X;Vk)(k12,Rd(Y;Vk)1qrj1p(Xj,Vk)2,,r)kRd(Y;Wk)(k1事实上,由典型变量的系数ak与bk之间的关系: ak1kS11S12bkkakS11S12bkkS11akS11S11S12bkS12bk以及典型111变量与原始变量(假定已标准化)的相关阵即得:r(Xj,Wk)= λk(Xj;Vk),故有Rd(X;Wk)=2kRd(X;Vk),类似可证明另一式。
Rd(X;Wk)表示第一组中典型变量解释的变差被第二组中典型变量重复解释的百分比,简称为第一组典型变量的冗余测度;Rd(X;Vk)表示第二组中典型变量解释的变差被第一组中典型变量重复解释的百分比,简称为第二组典型变量的冗余测度。
冗余测度的大小表示这对典型变量能够对另一组变差相互解释的程度大小。它将为进一步讨论多对多建模提供一些有用信息。
四 应用例子一康复俱乐20名成员测试数据的典型相关分析
康复俱乐部对20名中年人测量了三个生理指标:WEIGHT(体重),WAIST(腰围),PULSE(脉膊)和三个训练指标:CHINS(拉单杠次数),SITUPS(仰卧起坐次数),JUMPS(跳高)(数据见以下数据行)。试分析生理指标和训练指标这二组变量间的相关性。
解 使用SAS/STAT软件中的CANCORR过程来完成典型相关分析。首先把测试数据生成SAS数据集,SAS程序如下:
data da20x6;input weight waist pulse chins situps jumps@@;label wight =’体重’ waist=’腰围’ pulse=’脉搏’ chins=’单杠’
situps=’仰卧起坐’ jumps=’跳高’;
cards;191 36 50 5 162 60 189 37 52 2 110 60 193 38 58 12 101 101 162 35 62 12 105 37 189 35 46 13 155 58 182 36 56 4 101 42 211 38 56 8 101 38 167 34 60 6 125 40 176 31 74 15 200 40 154 33 56 17 251 250 169 34 50 17 120 38 166 33 52 13 210 115 154 34 64 14 215 105 247 46 50 1 50 50 193 36 46 6 70 31 202 37 62 12 210 120 156 33 54 15 225 73 138 33 68 2 110 43;run;proc cancorr data=da20x6 all vname=’生理指标’wname=’训练指标’;var weight waist pulse;with chins situps jumps;run;DATA步创建康复俱乐部测试数据的SAS数据集(名为DA20X6),它有20个观测,6个变量。
CANCORR过程用于对输入数据集DA20X6做典型相关分析。选项ALL要求输出所有可选择的计算结果;VNAIVIE=给出VAR语句中变量组的标签为生理指标 ;WNAIVIE=对WITH语句给出的第二组变量规定标签为训练指标。VAR语句列出第一组变量的名字,WITH列出第二组变量的名字。部分计算结果见输出1至输出5。
输出1 均值、标准差和两组变量问的相关系数
— 输出1列出6个变量的均值和标准差及生理指标和训练指标之间的相数。理指标和训练指标之间的相关性是中等的,其中WAIST和SITUPS 相关系数最大为-0.6456。
输出2 典型相关分析系数及显著性检验
— 输出2给出典型相关分析的一般结果。第一典型相关系数为07956,它比生理指标和训练指标两组间的任一个相关系数都大 检验总体中所有典型相关均为O的零假设时显著性概率为0.0635(即Pr>F的值),故在α=0.10的显著水平下,否定所有典型相关为0的假设。也就是至少有一个典型相关是显著的。从后面的检验结果可知,只有第一典型相关系数是显著不等于0的。因此,两组变量相关性的研究可转化为研究第一对典型相关变量的相关性。
输出3 标准化后典型变量的系数
— 输出结果中还给出原始变量和标准化变量的典型相关变量的系数。因六个变量没有用相同单位测量,我们来分析标准化后的系数(见输出3)。来自生理指标的第一典型变量V1为(右上角带“*”的变量表示标准化变量): V1=-0.7754WEIGHT* + 1.5793WAIST*1054SITUPS* + O.7164JUMPS*
它在SITUPS*上的系数最大 这一对典型变量主要是反映腰围(WAIST*)和仰卧起坐(SITUPS)的负相关关系。
输出4 典型结构—原始变量和典型变量的相关系数阵
—由输出4可看出来自生理指标的第一典型变量v1与腰围(WAIST)的相关系数为0.92,V与体重(WEIGHT)的相关为0.6206,它们都是正的。但典型变量V1在体重上的系数为负的(-0.7754),即体重在V1的系数和它与V1的相关反号。来自训练指标的第一典型变量Wl与三个训练指标的相关都是负值,其中跳高(JUMPS)在W1的系数(0.7164)和它与Wl的相关(-0.1622)也是反号。因此,体重和跳高在这两组变量中是一个校正(或抑制)变量。
一个变量同典型变量的相关与在典型变量上的系数符号相反似乎是矛盾的。下面以体重为例来说明这一现象,我们知道肥胖性同腰围和体重之间的关系很密切的。一般说来,有理由认为胖的人比瘦的人仰卧起坐的次数少。假定这组样本中没有身高非常高的人,因此体重和腰围之间的相关(0.8702)是很强的。· 腰围大的人倾向于比腰围小的人胖。因此腰围与仰卧起坐为负相关(-0.6456)。· 体重大的人倾向于比体重小的人胖。于是体重与仰卧起坐为负相关(-0.4931)。
考虑用多元回归方法由WAIST*(腰围)和WEIGHT*(体重)来预测SITUPS*(仰卧起坐),得到的回归式为:SITUPS* =0.2833 WEIGHT* – 0.8921 WAIST*,回归式中WEIGHT* 系数的符号为正似乎不合理,关于系数的符号可解释如下:
· 若固定体重的值,腰围大的人倾向于较强壮和较胖,故而仰卧起坐次数少,于是腰围的多元回归系数(-0.8921)应是负的。
· 若固定腰围的值,体重大的人倾向于比较高和比较瘦,故而仰卧起坐次数多;因此体重的多元回归系数(0.2833)应为正的。这里体重与仰卧起坐的相关同体重的回归系数符号相反。
因此,第一典型相关一般解释为以体重(WEIGHT)和跳高(JUMPS)作为校正(或抑制)变量来强化腰围(WAIST)和抑卧起坐(SITUPS)之间的负相关关系。
输出5 CANCORR过程产生的典型冗余分析结果
—输出5给出典型冗余分析的结果。我们来分析标准化的方差,第一典型变量vl可以解释45.08%组内变差,并解释25.84%的另一组(训练指标)的变差;而典型变量wl可以解释40.81%组内变差,并解释28.54%的另一组(生理指标)的变差。可见第一对典型变量V1和Wl都不能很好地全面地预测另一组变量。第二和第三对典型变量实际上都没有给出什么信息,三个典型变量解释另一组总变差的累计百分比分别为0.2969和0.2767。
输出5中第4张表格给出训练指标组中各个变量被生理指标变量组提取的前M个(M=1,2,3)典型变量V1,„,VM解释变差的累计百分比(即多重相关的平方和:r2(Y1,Vk)),可以看出只有CHINS(O.3351)和SITUPS(0.4233)可被对k1M方变量组的第一典型变量Vl预测,Vl对JUMPS(O.0167)几乎没有预测能力。从第3张表格类似可得出,而来自训练指标的第一典型变量Wl对WAIST(O.5421)有相当好的预测能力,对WEIGHT(0.2438)较差,而对PULSE(0.0701)几乎没有预测能力。
[参考文献]
[ 1]王惠文.偏最小二乘回归方法及其应用[M].北京:国肪工业出版社,2000. [2]高惠璇等.SAs系统SAS/STAT软件使用手册[M].北京:中国统计出版社,1998.[3] 高惠璇.实用统计方法与SAS系统[M]北京:北京大学出版社,2001. [4] 高惠璇.统计计算[M]北京:北京大学出版社,1995. [5]王学民.应用多元分析[M]上海:上海财经大学出版社,1999