最小二乘法小结_整式的乘法小结
最小二乘法小结由刀豆文库小编整理,希望给你工作、学习、生活带来方便,猜你可能喜欢“整式的乘法小结”。
最小二乘法原理
1.介绍部分
最小二乘法是获得物理参数唯一值的标准方法,具体是通过这些参数或者在已知数学模型中与这些参数相关的参数的多余观测值来求得。
最小二乘法最早是由高斯提出,用来估计行星运行轨道的。
1.1 数理统计和最小二乘法
物理量总是不能被精确测定。总是存在一个限定的测量精度,超过这个精度,相关的数学模型和测量仪器的分辨率这两者之一或者全部将会无能为力。超出这个精度,多余观测值之间会产生差异。
我们常常希望获得超过该限定精度的测量值,在不知道真值的情况下我们只能估计真值。一方面我们想要估计出唯一的值,另一方面,我们想要知道这个估计有多好。最小二乘法就是这样一个估计,它基于最小化差值的平方和。
最小二乘法相比其他传统的方法有三个优点。其一,它既可以应用在线性数学模型上也可以应用在非线性数学模型上;其二,它和统计量算术平均值有关;其三,最小二乘法在很多领域是通用的。
物理量的值的唯一统计估计称为点估计。无论频率函数是否知道,我们都可以作物理量的点估计并且可以衡量它与真值趋近程度。另外两种估计,区间估计以及假设检验,它们只能在相应的频率函数已经确定的情况下进行。
1.2 线性代数和最小二乘法
(nontrivial=nonzero,非平凡解就是指非零解)现有线性方程组
A X= L
(1-1)
X是未知数向量,L是常数向量,A是系数矩阵,[A:L]是增广矩阵。该方程组有唯一非零解仅当
L ≠ 0(非齐次方程组),(1-2a)r(A)= X的维数,(1-2b)r([A:L])= r(A)。
(1-2c)
当没有多余等式时,准则(1-2b)意味着A是方阵且非奇异,它的逆矩阵是存在的,这样方程组的解就表达成X = A L
(1-3)
当存在多余等式时,A将不是方阵,但是AA是方阵且非奇异,这样方程组的解就表达成X =(AA)
T-1T-1 A L。
(1-4)
TL的元素对应于物理量观测值,基于上述数学讨论,如果没有多余观测量(即没有多余的等式),则未知量将只有唯一的非零解。如果存在多余观测量,它们之间将互相不一致,因为观测存在误差。这样(1-2c)准则就无法满足,也就不存在唯一解。我们只能对结果做一个唯一的估计。从而引入了最小二乘准则。
因为观测误差的存在,使得方程组(1-1)左右矛盾,为此引入一个向量来抵消这个矛盾,从而使方程组成立。于是有
A X-L = V
(1-5)
V称为残差向量。引入X作为X的最优估值,这样最小二乘准则表达为 ^VV(AXL)(AXL)min
(1-6)
估值X称为最小二乘估值。由式(1-4)可得 ^^^T^T^X(ATA)1ATL,(1-7)
观测误差或残差的最优估值由下式得出 ^VAXL。
(1-8)
这些估值称为简单最小二乘估值,或者称为等权最小二乘估值。
组成L的物理量观测值不总是等精度的(比如采用了不同的观测仪器或者不同的观测条件),因此我们给每个观测量分配一个已知的权重,由这些元素构成的矩阵称为权阵P。这样,先前的最小二乘准则调整为 ^^VPVmin。
(1-9)
未知量估值调整为 ^T^X(ATPA)1ATPL
(1-10)^如果P作为观测值的估量协方差阵的逆阵,那么最小二乘估计就是最小方差估计;如果观测误差是正态分布,那么最小二乘方差估计就是最大似然估计。考虑更一般的情形,此时观测量未知参数的非线性方程相关
F(X)LV
(1-11)或者,观测量与未知参数的方程非线性相关
F(X,LV)0
(1-12)
1.3 数字计算机和最小二乘法
从实际出发,矩阵求逆以及矩阵乘法都要求海量的计算步骤。在大型快速计算机发明以前,除非绝对必要,一般是不会去做这样的尝试。然而测量网坐标的最小二乘估计就是这样的必要情况。以前的大地测量学家在简化步骤创新方法上做出很多努力,计算机发明之后这项工作显得没原来那么重要了。然而计算机也不能同时计算多达数千个方程,因此,如今大地测量学家把精力放在改进算法上,以便将一个大问题拆分成许多小问题,再逐一解决。
1.4 高斯和最小二乘法
以下是对高斯一段引文的翻译
“如果用于轨道计算的天文观测值和其他量是完全正确的,则轨道要素也是严格准确的,而无论是从三个或者四个观测值上推导出来(到目前为止轨道运动确实按照开普勒定律在进行),因此,如果使用其他观测值,则轨道要素可能被确定但不准确。但是,因为我们的所有测量值和观测值都只是真值的近似,那么依赖于它们的所有计算也一定是正确的,关于具体现象的所有计算的最高目标一定是近似与真值的,只要接近到可实用的程度。但这只能通过将多于确定未知量所必要的观测量进行适当组合来完成。这个问题只有当轨道的大概知识已经获得的情况下才能处理,这个大概的知识之后将得到改正以便以尽可能最精确的方式满足所有的观测值。”
从这段写于150年前的话可以总结出以下观点 a、数学模型可能不完整,b、物理测量值存在矛盾,c、从矛盾的物理测量值出发进行计算就是为了估计出真值,d、多余测量值将会减小测量值矛盾的影响,e、在最终估值前需要使用大概的初值,f、通过一种方法最小化测量值之间的矛盾值,从而改正初值(高斯所指的最小二乘法)。
2.统计学定义和概念
2.1 统计学术语
统计学,统计量,变量,连续变量,离散变量,常量。一般的测量结果都是连续变量,计算结果是离散变量。随机变量,包含一个值域(跟普通变量相同)和一个概率函数。
总体(population),个体(individual),样本,随机样本(通常样本指的都是随机样本)。样本空间,样本点和事件在使用中分别代替总体,个体和随机样本。分组(cla),分组界限,组距,组频率,相对频率。
*没有哪一个关于概率的定义是被所有统计学家所接受的。经典的定义是,等可能取自总体的一个个体落入组A的概率Pr(A)等于所有落入A的个体占总体的分数。这是一个间接定义,因为等可能实际上就是等概率,因此是用概率自己定义了自己。有两种办法来解决这个问题,但都不是完全令人满意的。第一种,定义概率Pr(A)为从总体中选择一个个体,在n次(当n趋于无穷)选择中,个体落入组A的相对频率。第二种,接受“概率”是一个不可定义的概念,仍然称适用于概率的规定为公理。
2.2 频率函数(概率密度函数)
累积频率函数(分布函数,累积分布函数,累积概率函数),频率分布(p26)。频率分布的两个重要特点:集中趋向,离中趋势(离散度)。频率分布两个次重要特点:偏斜度,峰度。
集中趋向的度量方法包括:算术平均值,中位数,众数(mode),几何平均数以及调和平均数。
离散度的度量方法包括:标准差,平均偏差以及极差(range)。期望值及其相关性质。
n阶原点矩,以及n阶平均值矩(我们习惯称为n阶中心矩)的期望,其中二阶中心矩称为方差。
随机变量X矩量母函数(moment generating function)定义
M(t)E[etx]etx(x)dx,(2-10a)
一个分布的任何矩都可以直接从矩量母函数中推导出来,例如,一阶原点矩
E[x]又如,方差(二阶中心矩)
2dM(t)dtt0M(0),(2-10b)
'2E[x2]2M''(0)[M'(0)],(2-10c)
2.3 多元随机变量频率函数(联合密度函数)
引入随机变量向量
x1xX2
xn多元随机变量频率函数定义
(X0)dx1dx2dxnPr(X0XX0dX),(2-11)
其中
x10dx10dxx22X0,dX 0dxnxn各个不等式同时成立。
多元变量累积频率函数(联合累积分布函数)定义
(X)(X)dx1dx2dxn。
(2-12)
00x10xn
Pr(XX)引入随机变量的统计独立。
0多元随机变量函数的期望,以及多元随机变量分布的均值都与一元情况类似。引入协方差阵X(也称方差-协方差阵),包括方差i及协方差ij的定义和计算方法。
2ij引入相关系数ij,若xi与xj统计独立,则它们的相关系数ij为0,因此协方差ij和相关系数是用来衡量两个随机变量是统计独立还是相关的。
2.4 协方差律
假定随机变量Y与随机变量X线性相关,即
YCX
则有
UYCUX,CYT
。CX上式即称为协方差律,或者协方差传播律。如果Y与X非线性相关,即
YF(X)
将其运用泰勒级数展开,使原函数线性化,依然可以得到上述结论,只是此时的系数C应该变成C FXX0。
2.5 点估计
引入统计量(期望,方差)。
引入总体统计量(用希腊字母表示),样本统计量(用拉丁字母表示)。
统计估计是统计学方法的一个分支,通过从总体中所取样本的认识来推及总体的性质。引入估计量(即点估计量),用样本统计量(即估计量)的值去推导总体统计量的值。最常用的估计量是样本均值x2112xs(xx)和样本方差。iinin1i样本统计量本身也是随机变量,存在一个对应的分布(称样本分布),因此从同一个总体中取出的不同样本的统计量的值通常是不等的。
2样本均值的期望等于总体均值,样本均值的方差等于。
n样本方差的期望等于,即等于总体的方差。
引入无偏估计量,表示该估计量的样本分布的均值等于它所估计的总体统计量,因此样本均值和样本方差都是无偏估计量。引入最小方差估计量和最大似然估计量。22.6 区间估计和假设检验
区间估计,若
Pr(e1e2)
称区间e1,e2为的100%置信区间,表示有100%的时候可以认为落在e1,e2内是正确的。
假设检验,即先对总体做出某种假设,然后通过样本值来检验,以决定接受或者拒绝该假设。引入显著性水平,即犯第一类错误(假设正确但是被拒绝)的概率。
引入检验功效(1-),其中是指犯第二类错误(假设错误但是被接受)的概率。//小结三种统计估计,点估计不需要假定总体分布,区间估计和假设检验则需要假定或者确定总体分布。
3.统计分布函数
引入一元随机变量,多元随机变量。
特殊的分布:正态分布(normal),卡方分布(chi-square),t分布,F分布。
3.1 正态分布
3.1.1 正态分布函数
累积分布函数,概率分布函数(略)。
3.1.2 矩量母函数
xab2t2bt)M(t)exp[at]
(推导过程关键令yb2由前章知
M'(0)a
2M''(0)[M'(0)]2b2
(文章缺失了P30-31)
n(0,1)分布的图像的一些特征:
1)关于纵轴x0对称,2)在x0处取得最大值3)x轴是水平渐近线,4)拐点在x处。
1,23.1.5 关于正态分布的计算
引入正态分布计算表
使用n(0,1)分布的表解来查找结果的基本公式
Pr(xc)N(cu)
Pr(c1xc2)N(c2u)N(c1u)
3.1.6 多元随机变量正态分布
m维多元随机变量正态概率密度函数 (X)Cexp[(XU)TX(XU)21]
其中X是随机变量向量,U是相应的均值向量,X是协方差阵。
常数
C[det(X)]1/2(2)m/21
3.2 卡方分布
3.2.1 分布函数
引入伽马函数
()y1eydy
0其中0。
(-1)!。当1时,(1)1,当1时,()(1)(1)上式令yx/,且0,则有
()()0x1x1exp()dx
从而
101x1xexp()dx
()上式满足累积分布函数的要求,对应的概率密度函数(p.d.f)为
(x)1x1xexp();(0x)()
0 其它
上式即为关于参数和的伽马分布的概率密度函数。当数为 2,且2,其中是正整数,此时该伽马分布就称为卡方分布,它的概率密度函(x)1()222x(1)2xexp();(0x)
0 其它
其中的称为自由度。
上述的服从卡方分布的连续随机变量缩写为2()。
3.2.2 矩量母函数
公式(推导过程略)
M(t)则有
1
(12t)2M'(0)
2M''(0)[M'(0)]22
3.2.3 卡方分布的图像
性质:
a)x0时,值为0,b)最大值在区间0x内,c)x轴正方向是一条渐近线,d)在最大值每边各有有一个拐点。
3.2.4 关于卡方分布的计算
引入卡方分布计算表。基本公式
Pr(x)2P2P1()2220x(1)2xexp()dx;(0x)
22222Pr(PxP)Pr(xP)Pr(xP)1221
3.3 t分布(学生氏分布)
3.3.1 分布函数
令随机变量服从标准正态分布n(0,1),以及随机变量服从卡方分布2(v),规定它们是相互独立的,则它们的联合概率密度函数为
12(,)exp()22
0 其它
令
1()222(1)2-exp(),
20t
引入变形等式
1/2(/)tu u引入雅各比式
u1/2t(u)1/2utu()J()1/2 210tu则新的概率密度函数为
(t,u)(,)J1(2)1/2()2/22u(1)2ut2u1/2exp[(1)]()2
t 0u
0
其它
将上式中的u积分掉,可得
(t)前提是令
1,(t)2(1)/2()1/2()(1t)2[(1)/2]t 1/2(/)可知t分布是由自由度唯一确定的。
3.3.2 t分布的图像
性质:
1)(t)在区间-t上有值,2)(t)在t0处取得最大值,3)t轴是它的水平渐近线,4)在最大值两侧分别有一个拐点。
3.3.3 关于t分布的计算
引入t分布计算表 基本公式
Pr(xtP)(t)dt
tP
3.4 F分布
3.4.1 分布函数
设有两个随机变量u和均服从卡方分布,自由度分别是1和2。则它们的联合概率分布函数为 (u,)1(12)(22u)2(12)/2(121)(221)0ue(u)/2
0
0 其它
令
f引入变形等式 u/1 /2u/1u/2 z引入雅各比式
uu1z1f()()1zfz2 J2201fz则新的概率密度函数为
(f,z)(u,)det(J)1(12)(22)2(121zf(21)(21)zfz()zexp[(11)]12222)/212
将z积分掉就能得到f的边缘概率密度函数
(f)[(12)/2](1/2)1/2(12)(22)f1/21,(0f)(12)/2(11f/2)
0 其它
随机变量fu/1服从F分布,简写为F(1,2)。/2值得注意的是
1FP(1,2)F1P(2,1)
3.4.2 F分布的图像
性质类似于卡方分布。
3.4.3 关于F分布的计算
引入F分布计算表 基本公式
Pr(xFP)(f)df
0FPPr(FP1xFP2)Pr(xFP2)Pr(xFP1)
1FP(1,2)
F1P(2,1)
4.随机变量函数的分布
统计量是含有一个或多个随机变量的函数,这些随机变量的参数都是已知的,前文提到的样本均值和样本方差都是统计量。
4.1 标准化的正态随机变量分布
给定随机样本X1,X2„„Xn,这里的Xi相互独立,且Xin(,),则有
d2X
n(0,1)
d4.2 样本均值的分布
给定随机样本X1,X2„„Xn,这里的Xi相互独立,且Xin(,),则有
d2Xn(,d2n)用矩量母函数证明。
4.3 标准正态化样本均值的分布
给定样本均值Xn(,d2n),则有
Xdn(0,1)/n
4.4 标准正态化随机变量平方的分布
给定Xn(,),则有 d2(X)2(1)
121/22d用累积密度函数证明,附带证明出()。
4.5 若干卡方随机变量和的分布
给定随机样本y1,y2„„yn,yi相互独立,且服从yi(i),则有
d2y(12n)i1nd2用矩量母函数进行证明。
4.6 若干标准正态化随机变量和的分布(p71)
给定随机样本x1,x2„„xn,xi相互独立,且服从xin(,),则有
d2(1nxi2d)2(n)
4.7 样本方差函数的分布
d(xix)22给定样本方差s,其中xin(,),则有
n112nn1s22证明的关键
1nxixd2n1
22xi1n2然后运用矩量母函数。
2n1s2nx
224.8 正态化样本均值比值的分布
已知
2a)xn,n,db)xdn0,1, /nc)
则有 n1s2d2n1.2xdtn1 s/n
4.9 来自同一总体的两个样本方差比值的分布
已知
a)n11s12d2n211
b)
则有 n21s22d2n221 s12dFn11,n21 2s2
4.10 多元随机变量标准二次型的分布
已知二次型XT1m1XmmXT,其中X是一个由m个零均值正态分布的随机变量组成的向量,m1Xmm是方差协方差阵。
则有
XT1m1XmmdXT2m m1(该证明过程有待琢磨)
4.11 随机变量函数分布总结
见表中(略)单变量区间估计和假设检验
5.1 介绍
(前章回顾)
关于区间估计,通常需要做估计的统计量是包含在关于它的(有时还包括其它一些)统计量的函数中,不过其它的统计量的值都是可以计算出来的,因此可以通过对不等式的运算得到关于要求统计量的估计区间。
关于假设检验,引入“零假设”和“备择假设”的概念,置信区间用以确定零假设是否应该被拒绝,如果假设被拒绝,那么就称为该检验的显著性水平;如果假设未被拒绝,那么就不能对该假设,假设检验以及显著性水平做出申明。
5.2 单一测量值Xi的检验(关于均值和方差)
d已知单一测量值Xi,且XinXc时,则X,,当Prc2ii的置信区间为
cXic
这个置信区间用来检验假设
H0:XiXH
5.3 均值的检验(关于一个观测值Xi和方差)
2考虑一个观测值Xi,且Xin区间为
dXc时,则的置信,,当Prc2iXicXic
这个置信区间用来检验假设
H0:H
25.4 均值的检验(关于一个样本均值X和方差/n)
当
X Prcc/n则的置信区间为
Xc1/2Xc1/2
nn这个置信区间用来检验假设
H0:H
25.5 样本均值X的检验(关于均值和方差/n)
当 XPrcc
/n则X的置信区间为
cXc1/21/2nn这个置信区间用来检验假设
H0:XXH
5.6 均值的检验(关于一个样本均值X和方差s)
2当
XPrtPtP
s/n则的置信区间为
XtXtPP1/21/2nn这个置信区间用来检验假设
H0:H
5.7 样本均值X的检验(关于均值和样本方差s)
2当
XPrttPs/nP 则X的置信区间为
tP1/2XtP1/2
nn这个置信区间用来检验假设 H0:XXH
5.8 方差的检验(关于均值和若干测量值X1,X2,„„Xn)2当
2n2X2PrP1iP2 1则的置信区间为 2n2Xi212P2这个置信区间用来检验假设
2Xi1n2P1
H0:22H
5.9 方差的检验(关于样本方差s)
当 222n1s22PrP2 2P1则的置信区间为 2n1s2n1s22 22P2P1这个置信区间用来检验假设
H0:22H
5.10 样本方差s的检验(关于方差)
当 222n1s22PrP2 2P1则s的置信区间为 222222sP2P1
n1n1这个置信区间用来检验假设
H0:s2s2H
5.11 两个方差比值2/1的检验(关于样本方差s1和s2)
2222当
s12/12PrFFP2 P1s2/222则22/12的置信区间为
222s22s2FFP22 P122ss111这个置信区间用来检验假设
22H0:2/122/1221H
5.12 两个样本方差比值s当
222/s212的检验(关于方差和)
s12/12PrFFP2 P1s2/222则s1/s2的置信区间为 2212s1212FP122FP22
22s2这个置信区间用来检验假设
22H0:s12/s2s12/s2H
5.13 两个方差比值22/12的检验(关于若干来自两个样本的测量值)
当
PrFP1则222Xi11n112n1X1n2i2222n2FP2
/12的置信区间为
nFP11n2Xi21n11n2222n2FP11n222Xi21n1n22Xi1
2Xi11这个置信区间用来检验假设
22H0:2/122/12H
5.14 单一变量置信区间的总结
见表中(略)最小二乘点估计:线性数学模型
线性数学模型
AXLV
其中,nL1称为观测向量,它是一个列向量,元素是观测值;nV1称为残差向量,它是一个列向量,元素未知的测量误差;uX1称为解向量,是我们想要作点估计的对象,它的元素是未知参数;nAu是已知的,称为设计矩阵。注意这里有n个观测值和u个未知量。只有当存在多余观测,即nu时,才能进行最小二乘估计。nu称为多余观测数,或者称为自由度。此外,每一个观测值L都有对应的权,这些权构成了权阵P。
6.1 X的最小二乘无偏估计
最小二乘准则
VPVmin
将VAXL带入,得到 ^^^T^^^AXLPAXLmin
求极值
T^2AXLPA0 ^X通过移项和分离得到 TAPAXATPL0
该式称为法方程。
如果APA,称为法方程矩阵,是非奇异的,那么X将会有一个唯一最小二乘估计值,即 T^TXATPA如果 ^1ATPL
^EXX 那么称X是X的无偏估计量。在这里,X是X的无偏估计量的条件是 ^^EV0
^(由EV0可证得ELAX,继而证得EXX)
6.2 权阵P的选择
易证得观测值L和观测误差真值V具有相同的协方差阵,但并不意味着
L^。V(L表示L的协方差阵,V^表示V的协方差阵)
^因为方差越大表示对应的观测精度越低,而我们希望这样的观测值权重越小,所以,权阵可以定义为
PL1
在进行最小二乘估计之前,必须先定权,由上式可知需要知道协方差阵中的各个对应的方差和协方差,这些值我们可以从采用的测量仪器和测量方法获知。但是我们常常只能得到一个相对值,所以协方差阵要带上一个比例因子,可令
Q
L20相对协方差阵势我们知道的,但是方差因子0不知道。因此,我们令
2PQ10L12
将上式带入XAPA^^T1ATPL中,可得
1L1XAATATLA
1由此未知量全部被消去。
6.3 X的最小化方差点估计
若存在XBL
则称X为X的一个线性估计。
^。^比X的X是X的最小化方差估计,它是一个线性无偏估计,其协方差阵为XX^^^任何其他线性无偏估计都要“小”。衡量矩阵的大小我们需要某种准则,为此引入矩阵“迹”的概念,它适用于方阵,是一个标量,是该方阵对角元素的和。这样,我们定义的最小化方差条件可以表示为
^)min Trace(X接下来我们将寻找满足该条件的方阵B。由前文知,当EV0时,X是无偏的,即有
^^EXX 由方程线性条件XBL可得 ^E[X]E[BL]BE[L]BAX
因此 ^BAI
则
所以问题变成T BBXL^^)TraceTrace(X(BLBT)min
在约束条件BAI0下,采用拉格朗日极值法,令
BLBT2(BAI)K
其中K为待定系数,然后有
Tr()0 B由矩阵迹的性质,我们可以得到
Tr()Tr(BLBT)2Tr(BAK)2Tr(k)
Tr(BLBT)B(LTL)2BL
BTr(BAK)KTAT
BTr(K)0 B因此有
Tr()2BL2KTAT0 B或者可以写成1BKTATL
进一步有
1BAIKTATLA
11KT(ATLA)11T1B(ATLA)AL
最后得到
ˆBL(AT1A)1AT1L XLL上式就是求解X的最小方差估计。
1对比前述,可知当PL时,最小二乘估计就是最小方差估计。
6.4 最大似然点估计
当V服从正态分布时,X的最大似然估计等价于最小二乘估计。
6.5 X的方差和协方差的无偏点估计
我们有 方差无偏估计
ˆTPVˆVˆ
nu202T1ˆˆ(APA) ˆ0X协方差无偏估计
T ˆˆˆEXXXXX的协方差阵为
Xˆˆ是一个无偏估计量,亦即E(Xˆ)X。当E(V)0时,X由前述知
ˆ(ATPA)1ATPL X由协方差传播律可得
TX)1ATPLPA(ATPA)1 ˆ(APA
(APA)AP0PPA(APA)
20(ATPA)1
T1T21T12ˆˆˆ0是0的无偏估计,则ˆ0因此,当且仅当(ATPA)1是Xˆ的无偏估计。X22从前述可知,只需证明
ˆTPVV1ˆTPV2 ˆ)EE(EV0nunu20已知法方程为
ˆATPL ATPAX变形可得
ˆL)0 ATP(AXˆL)TPA0(AX由法方程,又可得
ˆTATPA LTPAX根据以上关系,可得
ˆTPVˆ(XˆX)TATPA(XˆX)VTPVV其中
VAXL
ˆAXˆL V(注:证明
YTAYTrace(YYTA)
TTTT因为YAY是标量,所以Tr(YAY)YAY,所以Tr((YA)Y)Tr(Y(YA)),所以 TYTAYTrace(YYTA))
所以,ˆTPVˆTrace(VVT21)Trace((XˆX)(XˆX)T2ˆ1)V0V0X所以,ˆTPVˆ)2ETrace(VVT1)2ETrace((XˆX)(XˆX)Tˆ1)E(V0V0X
ˆX)(XˆX))Trace(EVV)Trace(E(X212ˆX)(XˆX)Tˆ1)0Trace(EVVTV)0Trace(E(XX20T1V20T1ˆX因此,如果有n个观测值和u个未知量,则有
ˆTPVˆ)2Trace(1)2Trace(ˆˆ1)E(V0VV0XX2 0(TraceInTraceIu)2 0(nu)
得证。
ˆˆ。ˆ0,以及X因此,本节我们分别定义了0的无偏估计ˆ的无偏估计X22最小二乘点估计:非线性数学模型
三个环节:线性化、法方程、最小二乘点估计。
7.1 非线性数学模型的线性化
数学模型的分类:参数法、条件法、组合法。泰勒级数展开。
7.2 线性化举例
两个例子:直线拟合(组合法)、测角三角形(参数加条件)。
7.3 导出法方程
组合法模型
ˆBVˆW0 AX运用拉格朗日乘数法导出法方程。
7.4 导出法方程解的显式
过程类似带参数的条件平差,不详述。7.5 导出协方差阵
过程类似带参数的条件平差,不详述。多变量区间估计和假设检验
8.1 介绍
多变量的区间估计是对单变量区间估计的一个推广,令常见的分布函数带有多个随机变量。多变量的假设检验将给出一些量的置信区间(假设观测量都服从正态分布)。
8.2 方差因子检验
在组合法模型中,自由度为ru;在参数法模型中,nu。则有
2ˆTPVˆˆ0VdˆT1Vˆ2V2()L200上述卡方随机变量的概率为
2ˆ02P(2P)
02P12则,关于0的置信区间为
22ˆ0ˆ02202
P1P22ˆTPVˆˆTPVˆVV220 2P1P2以上置信区间用于检验零假设
22H0:0(0)H
需要注意的是,拒绝零假设除了因为0的假设值不正确,还可能是由于: 1)数学模型缺陷;
2)残差向量中的随机变量不服从正态分布。
上述两条也可以作为零假设来进行检验,但要记住一次只能对一个量进行检验。
8.3 两个方差因子比值的检验
统计量为
2ˆ01()1()/1222ˆ0(0)1()1/(0)1dF(1,2)222ˆ0ˆ02()2()2/(0)2)/22(0)2其中1n1u或者1r1u,2n2u或者2r2u。则随机变量的概率
22ˆ0()1/(0)1P(FP12FP2) 2ˆ0)2/(0()222关于(0)2/(0)1的置信区间为
222(ˆ0ˆ0)2(0)2()2FFP2P1ˆ2 22ˆ(0)1(0)1(0)1被检验的零假设为
22(0)2(0)H0:222(0)1(0)1H
2ˆ的偏差 08.4 当方差因子已知时检验参数X与其估值X统计量为
d2ˆX)Tˆ1(XˆX)(X(u)X其中
2Xˆ0QXˆ
则随机变量的概率为
ˆX)Tˆ1(XˆX)2) P(0(XPX被检验的零假设为
H0:XXH
也就是当计算值 ˆX)Tˆ1(XˆX)2(XPX时,零假设被拒绝。
2ˆ的偏差 08.5 当方差因子未知时检验参数X与其估值X统计量为
ˆX)Tˆ1(XˆX)(X2(u)/uddX2F(u,)2ˆ0()/(2)/0
整理可得
ˆX)TˆX)ˆˆ1(X(XXu其中
2ˆˆˆQXˆ 0XdF(u,)
则随机变量的概率为
P(0相关的置信区间为
ˆX)TˆX)ˆˆ1(X(XXuFP)
ˆX)TˆX)ˆˆ1(X(XX0FPu
这个置信区间的范围由超椭球面方程给出
ˆX)TˆX)uF ˆˆ1(X(XPX其中,uFP为长椭球面方程常数。
ˆ描述的位置,则上述方程变为 将坐标系原点平移到向量Xˆˆ1XuF XTPX考虑二维情形,即u2,则有
ˆˆ1X2F XTPX或者 x1这是一个椭圆方程。类似的,在三维情形下
2x1ˆ12ˆ12x222FP 2xˆˆ21221ˆˆ1X3F XTPX或者
22x1ˆ12ˆ13ˆ12222x23FPˆ21ˆ2ˆ23x32 22xˆ31ˆ32ˆ331x1x2这是一个椭球方程。注意在上述两个例子中,方程中含有交叉乘积项,这是因为主对角元以
ˆˆ的一外的元素并不为零。可以通过将坐标系旋转角使得较差乘积项为零,这个角由X个特征向量的元素计算得到。这个特征向量给出了最大和最小方差的方向,后者就是特征值。例如,在二维情形下,经过上述旋转变换,可以得到椭圆方程
y1被检验的零假设为
20y1ˆmaxy22FP 2ˆymin201H0:XXH
也就是当计算值
ˆX)TˆX)2 ˆˆ1(X(XPX时,零假设被拒绝。分割数学模型
并非所有的最小二乘估计问题都能方便地用组合法模型来表达,需要对该模型做一些补充。这里仅介绍四种分割模型的策略。
本章在阐述四种补充的使用时考虑它们在卫星定位中的应用。我们假设观测值L已经通过某些手段从一个或者多个地面站获得。这些观测值跟地面站坐标以及卫星坐标都是相关的,它们共同构成了未知参数X。
9.1 剔除“麻烦”的参数
卫星的坐标某种程度上来说是一个“麻烦”的参数,我们希望将它们从解中分离出来,因此我们将X分割为地面站坐标,记为X1,以及卫星坐标,记为X2。则组合法模型变为
F(X1,X2,L)0
其中
X1X10X1
0X2X2X2
X1X10X1
观测值L的权阵为
21P0L
运用泰勒级数展开将其线性化,得到
WA1X1A2X2BV0
或者
WAXBV0
其中AA1XA2,X1。
X2在最小二乘原则下,导出法方程
ˆTPVˆ2KˆT(WAXˆˆˆV11A2X2BV)
ˆTP2KˆTB0 2VˆVˆBTKˆ0 PVˆTA0 2K1ˆX1ˆ0 A1TKXˆ2KˆTA20 2AT2Kˆ0
则法方程为
PBT00B0AVˆ02A1K0AT20ˆ0W0AT100Xˆ2Xˆ0 010用第七章的方法消去上述方程中的Vˆ,得 BP1BTA2A1ATKˆW200Xˆ020 AT100Xˆ10进一步消去方程中的Kˆ,得 AT2(BP1B)1A2ATBP1B)1AT12(1ˆ1AT1)11(BPBA2AT1B)1AXA(ˆ22BPB)WT1B)1W1(BP1X1A1(BP上式可以简化写作
N21ˆN22NNXU212ˆ2U0
11X11消去Xˆ2,可得 Xˆ1(N11N12N122N21)1(U1N12N122U2)将Xˆ1回代,可得 Xˆ2N122(N21Xˆ1U2)
进一步,可得
Kˆ(BP1BT)1(A2Xˆ2A1Xˆ1W)VˆP1BTKˆ 最终
Xˆ1X01Xˆ1 0 ˆX0Xˆ X222
9.2 附加观测值
假设有两组观测值,来自相同的地面站
F1(X,L1)0 F2(X,L2)0
其中
XX0X
L1L1V1 L2L2V2
且,观测值L1的权阵为P10L1,观测值L2的权阵为P20L2。将两个非线性函数线性化,效仿上一节,可得
2121W1A1XB1V10 W2A2XB2V20
合并
WAXBV0
其中
AA1
A2B1B0同上一节,法方程为
0 B2P10B1000P20B20B1T000A1T0TB200TA200A1A20ˆV01ˆ0V2ˆW10 K1ˆK2W2Xˆ0ˆ,可得 消去V1P20B2001TB1P1B10A1TTB200TA20A1A20ˆV02ˆK1W10 ˆKW22ˆ0Xˆ,可得 消去V21TB1P1B10TA10TB2P21B2TA2A1A20ˆKW11ˆK2W20 ˆX0ˆ,可得 消去K1TB2P21B2TA2ˆW2KA22ˆAT(BP1BT)1W0 T1T1A1(B1P111111B1)A1Xˆ,可得 最后消去K2ˆ(AT(BP1BT)1AAT(BP1BT)1A)1(AT(BP1BT)1WAT(BP1BT)1W)X***22222进一步,可解出
ˆ(BP1BT)1(AXˆW)K222222ˆ(BP1BT)1(AXˆW)K111111ˆP1BTKˆ V2222ˆP1BTKˆ V1111最后
ˆX0Xˆ X
9.3 未知参数间附加约束条件
数学模型
F(X,L)0
F(X)0
(附加约束条件)将上述模型线性化,可得
W1A1XBV0 W2A2X0
合并
WAXBV0
其中
AA1
A2B0 B00求解法方程,令
ˆTPVˆ2KˆT(WAXˆBVˆ)2KˆT(WAXˆV111222)
ˆ求导,并令其为零,可分别得到 ˆ和X分别对VˆBTKT0 PV1ˆATKˆ0 A1TK122则法方程为
PBTB00A1T000A10A200TA20ˆV0ˆWK110 ˆX0ˆKW22ˆ,可得 ˆ、Kˆ、X同前面的处理手法,依次消去V1ˆ(A(AT(BP1BT)1A)1AT)1(WA(AT(BP1BT)1A)1AT)BP1BT)1W)K22112221111ˆ(AT(BP1BT)1A)1(ATKˆAT(BP1BT)1W)X112211ˆ(BP1BT)1(AXˆW)K111ˆP1BTKˆ V1ˆX0Xˆ X
9.4 未知参数定权
数学模型
F(X,L)0
线性化可得
WAXBV0
这里与前文发生变化的是,残差向量变成VPX,权阵变成了V0其中
P21V0L
P21X0X0
X0是未知参数的先验协方差阵。
上述数学模型可以合并为
WBV0
其中
BBA
在VˆTPVVˆXˆTPXXˆmin 准则下,令
VˆTPVVˆXˆTPXXˆ2KˆT(WAXˆBVˆ)分别对Vˆ和Xˆ求导,并令其为零,可分别得到 PˆBTVVKT0 PXXˆATKT0 则法方程为
0P。X PV0B0PXABTAT0ˆV0ˆ00 XˆKWˆ,可得 ˆ、X同前文处理手法,依次消去Vˆ(BP1BTAP1AT)1W KVXˆP1ATKˆ XXˆP1BTKˆ VV需要注意的是,这样的结果并不令人满意,因为PX有可能退化成奇异矩阵,这样它的逆矩阵就不存在,上述解也就没法给出,所以要想办法消去解中的PX。令
1PVB0ˆ,可得 ˆ、K依次消去VBT0AT0APXˆV0ˆKW0 ˆX0ˆ(PAT(BP1BT)1A)1AT(BP1BT)1W XXVVˆ(BP1BT)1(AXˆW)KVˆP1BTKˆ VVˆX0Xˆ X
**10 逐次最小二乘估计
为了解决超大型方程组,考虑将其分解成若干个小的方程组,当然这样处理后得出的结果必须服从原方程组的解。引出逐步最小二乘法的概念。
10.1 序贯最小二乘表达
参数数学模型 F(X)L0
线性化,得到
AXVW0
应用最小二乘原则,得到法方程
PI0Vˆ0I0AKˆW0 0AT0Xˆ0 将其分解
Pk10I000PVˆk1k0I0VˆkI000Ak1Kˆ0I00Akk1ˆKk00ATk1ATk0Xˆ首先,令PkAkWk0,则有法方程
Pk1I0ˆV0I0Ak1Kˆk10ATk10Wk1k1Xk1ˆ0则有解
Xˆk1N1k1Uk1 Kˆk1Pk1(Ak1Xˆk1Wk1)Vˆk1Ak1Xˆk1Wk1
其中
N1T-1k1(Ak1Pk1Ak1)UTk1Ak1Pk1Wk1
重组法方程
00Wk1Wk0
00 Pk10I000Pk00II00TAk1000Ak10Ak0I0TAk0ˆV0k1ˆ0 VkˆWk10Kk1ˆ0XkKˆWkk消去Vˆk1和Vˆk,得 P1k1Ak10ATKˆWk1k10ATkXˆk100AkP1kKˆkkWk消去Kˆk1,得 NATk1kXˆUk1AkP1kKˆkkW0 k消去Xˆk,得 (P11TkAkNk1Ak)Kˆ1kWkAkNk1Uk10
又
Xˆk1N1k1Uk1 则
Kˆ(P1kkAkN1k1ATk)1(AkXˆk1Wk)
将Kˆk回代到法方程,得 XˆkXˆk1N1k1ATkKˆk VˆkP1kKˆk 接下来要给出协方差阵的序贯表达式,令
XˆXˆ1kC1C2k
Wk其中
CIN1T(P11T11k1AkkAkNk1Ak)Ak C1T11T12Nk1Ak(PkAkNk1Ak)
0由协方差传播律
NXC2ˆC11kk1Nk100C1TT 1PkC21T1T
C1Nk1C1C2PkC2
令
1Nk ˆ1Xk1Pk1Wk
乘开得到
11T11T11Nk1Nk1Nk1Ak(PkAkNk1Ak)AkNk1
且有
ˆTPVˆKˆTP1Kˆ Vkkkkkk
10.2 卡尔曼滤波方程
电气工程中的最优控制问题。不仅状态空间向量(相当于平差中的未知参数向量)的估值会因为新数据参与到最小二乘估计中而发生改变,这些向量本身的实际值也会随时间发生变化。因此,在最优控制问题中,存在两个随时间变化的因子,其一,状态空间向量的真值是连续变化的;其二,新观测的数据是连续积累的,且状态空间向量新值的新估值从这些新观测数据中获得。
状态向量的时间依赖性由下面的数学模型表达
xk1k1,kxkwk
其中,x是状态空间向量(即解向量),(即k1,k是第k次与第(k1)次状态之间的过渡函数对象模型)。wk是对象白噪声序列(残差向量)。将状态向量和观测数据之间的数学模型线性化,可得
zkHkxkvk
其中,zk是观测值向量(即闭合差向量),Hk是设计矩阵,vk是观测值白噪声序列(即残差向量)。wk与vk的协方差阵分别表示为Qk和Qk。则卡尔曼最小二乘估计问题可以描述为:采用所有数据z0,z1···zj对状态xi进行估计(不一定是最小二乘估计),估计量记为xi/j,则问题为
ˆk/k; a)使用所有数据包括当前数据zk求出当前状态xk的最小二乘估计xˆk1/k1相关; b)将该估计仅表达成与当前观测值zk以及前一个最优估计xc)确保这个解跟同时处理所有数据z0,z1···zj获得的解一样严密。
当缺少新数据时,预测估计可以表示为
ˆk/k1k,k1xˆk1/k1 x卡尔曼方程可以表述为
ˆk/kk,k1xˆk1/k1KkzkHkk,k1xˆk1/k1 xTTKkPk/k1Hk(HkPk/k1HkRk)1
Pk/k1k,k1Pk1/k1kT,k1Qk1 Pk/kPk/k1KkHkPk/k1
ˆk/k1误差的协方差阵,Pk/k为最小二乘估计xˆk/k其中,Kk为增益矩阵,Pk/k1为预测估计x误差的协方差阵。
忽略状态向量的时间,并做一些符号转换
则前述方程可以重新表述为
ˆXˆK(WAXˆXkk1kkkk1)
1T1T11KkNk1Ak(AkNk1AkPk)
11Nk1Nk1KkAkNk1
可以看出,这些表达式跟前一节的表达式是完全等价的,尽管Kk的定义并不相同。