最小二乘法小结_整式的乘法小结

2020-02-27 其他工作总结下载本文

最小二乘法小结由刀豆文库小编整理，希望给你工作、学习、生活带来方便，猜你可能喜欢“整式的乘法小结”。

最小二乘法原理

1.介绍部分

最小二乘法是获得物理参数唯一值的标准方法，具体是通过这些参数或者在已知数学模型中与这些参数相关的参数的多余观测值来求得。

最小二乘法最早是由高斯提出，用来估计行星运行轨道的。

1.1 数理统计和最小二乘法

物理量总是不能被精确测定。总是存在一个限定的测量精度，超过这个精度，相关的数学模型和测量仪器的分辨率这两者之一或者全部将会无能为力。超出这个精度，多余观测值之间会产生差异。

我们常常希望获得超过该限定精度的测量值，在不知道真值的情况下我们只能估计真值。一方面我们想要估计出唯一的值，另一方面，我们想要知道这个估计有多好。最小二乘法就是这样一个估计，它基于最小化差值的平方和。

最小二乘法相比其他传统的方法有三个优点。其一，它既可以应用在线性数学模型上也可以应用在非线性数学模型上；其二，它和统计量算术平均值有关；其三，最小二乘法在很多领域是通用的。

物理量的值的唯一统计估计称为点估计。无论频率函数是否知道，我们都可以作物理量的点估计并且可以衡量它与真值趋近程度。另外两种估计，区间估计以及假设检验，它们只能在相应的频率函数已经确定的情况下进行。

1.2 线性代数和最小二乘法

（nontrivial=nonzero，非平凡解就是指非零解）现有线性方程组

A X= L

（1-1）

X是未知数向量，L是常数向量，A是系数矩阵，[A:L]是增广矩阵。该方程组有唯一非零解仅当

L ≠ 0（非齐次方程组），（1-2a）r(A)= X的维数，（1-2b）r([A:L])= r(A)。

（1-2c）

当没有多余等式时，准则（1-2b）意味着A是方阵且非奇异，它的逆矩阵是存在的，这样方程组的解就表达成X = A L

（1-3）

当存在多余等式时，A将不是方阵，但是AA是方阵且非奇异，这样方程组的解就表达成X =(AA)

T-1T-1 A L。

（1-4）

TL的元素对应于物理量观测值，基于上述数学讨论，如果没有多余观测量（即没有多余的等式），则未知量将只有唯一的非零解。如果存在多余观测量，它们之间将互相不一致，因为观测存在误差。这样（1-2c）准则就无法满足，也就不存在唯一解。我们只能对结果做一个唯一的估计。从而引入了最小二乘准则。

因为观测误差的存在，使得方程组（1-1）左右矛盾，为此引入一个向量来抵消这个矛盾，从而使方程组成立。于是有

A X-L = V

（1-5）

V称为残差向量。引入X作为X的最优估值，这样最小二乘准则表达为 ^VV(AXL)(AXL)min

（1-6）

估值X称为最小二乘估值。由式（1-4）可得 ^^^T^T^X(ATA)1ATL，（1-7）

观测误差或残差的最优估值由下式得出 ^VAXL。

（1-8）

这些估值称为简单最小二乘估值，或者称为等权最小二乘估值。

组成L的物理量观测值不总是等精度的（比如采用了不同的观测仪器或者不同的观测条件），因此我们给每个观测量分配一个已知的权重，由这些元素构成的矩阵称为权阵P。这样，先前的最小二乘准则调整为 ^^VPVmin。

（1-9）

未知量估值调整为 ^T^X(ATPA)1ATPL

(1-10)^如果P作为观测值的估量协方差阵的逆阵，那么最小二乘估计就是最小方差估计；如果观测误差是正态分布，那么最小二乘方差估计就是最大似然估计。考虑更一般的情形，此时观测量未知参数的非线性方程相关

F(X)LV

(1-11)或者，观测量与未知参数的方程非线性相关

F(X,LV)0

(1-12)

1.3 数字计算机和最小二乘法

从实际出发，矩阵求逆以及矩阵乘法都要求海量的计算步骤。在大型快速计算机发明以前，除非绝对必要，一般是不会去做这样的尝试。然而测量网坐标的最小二乘估计就是这样的必要情况。以前的大地测量学家在简化步骤创新方法上做出很多努力，计算机发明之后这项工作显得没原来那么重要了。然而计算机也不能同时计算多达数千个方程，因此，如今大地测量学家把精力放在改进算法上，以便将一个大问题拆分成许多小问题，再逐一解决。

1.4 高斯和最小二乘法

以下是对高斯一段引文的翻译

“如果用于轨道计算的天文观测值和其他量是完全正确的，则轨道要素也是严格准确的，而无论是从三个或者四个观测值上推导出来（到目前为止轨道运动确实按照开普勒定律在进行），因此，如果使用其他观测值，则轨道要素可能被确定但不准确。但是，因为我们的所有测量值和观测值都只是真值的近似，那么依赖于它们的所有计算也一定是正确的，关于具体现象的所有计算的最高目标一定是近似与真值的，只要接近到可实用的程度。但这只能通过将多于确定未知量所必要的观测量进行适当组合来完成。这个问题只有当轨道的大概知识已经获得的情况下才能处理，这个大概的知识之后将得到改正以便以尽可能最精确的方式满足所有的观测值。”

从这段写于150年前的话可以总结出以下观点 a、数学模型可能不完整，b、物理测量值存在矛盾，c、从矛盾的物理测量值出发进行计算就是为了估计出真值，d、多余测量值将会减小测量值矛盾的影响，e、在最终估值前需要使用大概的初值，f、通过一种方法最小化测量值之间的矛盾值，从而改正初值（高斯所指的最小二乘法）。

2.统计学定义和概念

2.1 统计学术语

统计学，统计量，变量，连续变量，离散变量，常量。一般的测量结果都是连续变量，计算结果是离散变量。随机变量，包含一个值域（跟普通变量相同）和一个概率函数。

总体（population），个体（individual），样本，随机样本（通常样本指的都是随机样本）。样本空间，样本点和事件在使用中分别代替总体，个体和随机样本。分组（cla），分组界限，组距，组频率，相对频率。

*没有哪一个关于概率的定义是被所有统计学家所接受的。经典的定义是，等可能取自总体的一个个体落入组A的概率Pr(A)等于所有落入A的个体占总体的分数。这是一个间接定义，因为等可能实际上就是等概率，因此是用概率自己定义了自己。有两种办法来解决这个问题，但都不是完全令人满意的。第一种，定义概率Pr(A)为从总体中选择一个个体，在n次（当n趋于无穷）选择中，个体落入组A的相对频率。第二种，接受“概率”是一个不可定义的概念，仍然称适用于概率的规定为公理。

2.2 频率函数（概率密度函数）

累积频率函数（分布函数，累积分布函数，累积概率函数），频率分布（p26）。频率分布的两个重要特点：集中趋向，离中趋势（离散度）。频率分布两个次重要特点：偏斜度，峰度。

集中趋向的度量方法包括：算术平均值，中位数，众数（mode），几何平均数以及调和平均数。

离散度的度量方法包括：标准差，平均偏差以及极差（range）。期望值及其相关性质。

n阶原点矩，以及n阶平均值矩（我们习惯称为n阶中心矩）的期望，其中二阶中心矩称为方差。

随机变量X矩量母函数（moment generating function）定义

M(t)E[etx]etx(x)dx，（2-10a）

一个分布的任何矩都可以直接从矩量母函数中推导出来，例如，一阶原点矩

E[x]又如，方差（二阶中心矩）

2dM(t)dtt0M(0)，（2-10b）

'2E[x2]2M''(0)[M'(0)]，（2-10c）

2.3 多元随机变量频率函数（联合密度函数）

引入随机变量向量

x1xX2

xn多元随机变量频率函数定义

(X0)dx1dx2dxnPr(X0XX0dX)，（2-11）

其中

x10dx10dxx22X0，dX 0dxnxn各个不等式同时成立。

多元变量累积频率函数（联合累积分布函数）定义

(X)(X)dx1dx2dxn。

（2-12）

00x10xn

Pr(XX)引入随机变量的统计独立。

0多元随机变量函数的期望，以及多元随机变量分布的均值都与一元情况类似。引入协方差阵X（也称方差-协方差阵），包括方差i及协方差ij的定义和计算方法。

2ij引入相关系数ij，若xi与xj统计独立，则它们的相关系数ij为0，因此协方差ij和相关系数是用来衡量两个随机变量是统计独立还是相关的。

2.4 协方差律

假定随机变量Y与随机变量X线性相关，即

YCX

则有

UYCUX，CYT

。CX上式即称为协方差律，或者协方差传播律。如果Y与X非线性相关，即

YF(X)

将其运用泰勒级数展开，使原函数线性化，依然可以得到上述结论，只是此时的系数C应该变成C FXX0。

2.5 点估计

引入统计量（期望，方差）。

引入总体统计量（用希腊字母表示），样本统计量（用拉丁字母表示）。

统计估计是统计学方法的一个分支，通过从总体中所取样本的认识来推及总体的性质。引入估计量（即点估计量），用样本统计量（即估计量）的值去推导总体统计量的值。最常用的估计量是样本均值x2112xs(xx)和样本方差。iinin1i样本统计量本身也是随机变量，存在一个对应的分布（称样本分布），因此从同一个总体中取出的不同样本的统计量的值通常是不等的。

2样本均值的期望等于总体均值，样本均值的方差等于。

n样本方差的期望等于，即等于总体的方差。

引入无偏估计量，表示该估计量的样本分布的均值等于它所估计的总体统计量，因此样本均值和样本方差都是无偏估计量。引入最小方差估计量和最大似然估计量。22.6 区间估计和假设检验

区间估计，若

Pr(e1e2)

称区间e1,e2为的100%置信区间，表示有100%的时候可以认为落在e1,e2内是正确的。

假设检验，即先对总体做出某种假设，然后通过样本值来检验，以决定接受或者拒绝该假设。引入显著性水平，即犯第一类错误（假设正确但是被拒绝）的概率。

引入检验功效(1-)，其中是指犯第二类错误（假设错误但是被接受）的概率。//小结三种统计估计，点估计不需要假定总体分布，区间估计和假设检验则需要假定或者确定总体分布。

3.统计分布函数

引入一元随机变量，多元随机变量。

特殊的分布：正态分布（normal），卡方分布（chi-square），t分布，F分布。

3.1 正态分布

3.1.1 正态分布函数

累积分布函数，概率分布函数（略）。

3.1.2 矩量母函数

xab2t2bt）M(t)exp[at]

（推导过程关键令yb2由前章知

M'(0)a

2M''(0)[M'(0)]2b2

（文章缺失了P30-31）

n(0,1)分布的图像的一些特征：

1）关于纵轴x0对称，2）在x0处取得最大值3）x轴是水平渐近线，4）拐点在x处。

1，23.1.5 关于正态分布的计算

引入正态分布计算表

使用n(0,1)分布的表解来查找结果的基本公式

Pr(xc)N(cu)

Pr(c1xc2)N（c2u)N(c1u)

3.1.6 多元随机变量正态分布

m维多元随机变量正态概率密度函数 (X)Cexp[(XU)TX(XU)21]

其中X是随机变量向量，U是相应的均值向量，X是协方差阵。

常数

C[det(X)]1/2(2)m/21

3.2 卡方分布

3.2.1 分布函数

引入伽马函数

()y1eydy

0其中0。

（-1）!。当1时，(1)1，当1时，()(1)(1)上式令yx/，且0，则有

()()0x1x1exp()dx

从而

101x1xexp()dx

()上式满足累积分布函数的要求，对应的概率密度函数（p.d.f）为

(x)1x1xexp();(0x)()

0 其它

上式即为关于参数和的伽马分布的概率密度函数。当数为 2，且2，其中是正整数，此时该伽马分布就称为卡方分布，它的概率密度函(x)1()222x(1)2xexp();(0x)

0 其它

其中的称为自由度。

上述的服从卡方分布的连续随机变量缩写为2()。

3.2.2 矩量母函数

公式（推导过程略）

M(t)则有

1

(12t)2M'(0)

2M''(0)[M'(0)]22

3.2.3 卡方分布的图像

性质：

a）x0时，值为0，b）最大值在区间0x内，c）x轴正方向是一条渐近线，d）在最大值每边各有有一个拐点。

3.2.4 关于卡方分布的计算

引入卡方分布计算表。基本公式

Pr(x)2P2P1()2220x(1)2xexp()dx;(0x)

22222Pr(PxP)Pr(xP)Pr(xP)1221

3.3 t分布（学生氏分布）

3.3.1 分布函数

令随机变量服从标准正态分布n(0,1)，以及随机变量服从卡方分布2(v)，规定它们是相互独立的，则它们的联合概率密度函数为

12(,)exp()22

0 其它

令

1()222(1)2-exp()，

20t

引入变形等式

 1/2(/)tu u引入雅各比式

u1/2t(u)1/2utu()J()1/2 210tu则新的概率密度函数为

(t,u)(,)J1(2)1/2()2/22u(1)2ut2u1/2exp[(1)]()2

t 0u

0

其它

将上式中的u积分掉，可得

(t)前提是令

1,(t)2(1)/2()1/2()(1t)2[(1)/2]t 1/2(/)可知t分布是由自由度唯一确定的。

3.3.2 t分布的图像

性质：

1）(t)在区间-t上有值，2）(t)在t0处取得最大值，3）t轴是它的水平渐近线，4）在最大值两侧分别有一个拐点。

3.3.3 关于t分布的计算

引入t分布计算表基本公式

Pr(xtP)(t)dt

tP

3.4 F分布

3.4.1 分布函数

设有两个随机变量u和均服从卡方分布，自由度分别是1和2。则它们的联合概率分布函数为 (u,)1(12)(22u)2(12)/2(121)(221)0ue(u)/2 

0

0 其它

令

f引入变形等式 u/1 /2u/1u/2 z引入雅各比式

uu1z1f()()1zfz2 J2201fz则新的概率密度函数为

(f,z)(u,)det(J)1(12)(22)2(121zf(21)(21)zfz()zexp[(11)]12222)/212

将z积分掉就能得到f的边缘概率密度函数

(f)[(12)/2](1/2)1/2(12)(22)f1/21,(0f)(12)/2(11f/2)

0 其它

随机变量fu/1服从F分布，简写为F(1,2)。/2值得注意的是

1FP(1,2)F1P(2,1)

3.4.2 F分布的图像

性质类似于卡方分布。

3.4.3 关于F分布的计算

引入F分布计算表基本公式

Pr(xFP)(f)df

0FPPr(FP1xFP2)Pr(xFP2)Pr(xFP1)

1FP(1,2)

F1P(2,1)

4.随机变量函数的分布

统计量是含有一个或多个随机变量的函数，这些随机变量的参数都是已知的，前文提到的样本均值和样本方差都是统计量。

4.1 标准化的正态随机变量分布

给定随机样本X1，X2„„Xn，这里的Xi相互独立，且Xin(,)，则有

d2X

n(0,1)

d4.2 样本均值的分布

给定随机样本X1，X2„„Xn，这里的Xi相互独立，且Xin(,)，则有

d2Xn(,d2n)用矩量母函数证明。

4.3 标准正态化样本均值的分布

给定样本均值Xn(,d2n)，则有

Xdn(0,1)/n

4.4 标准正态化随机变量平方的分布

给定Xn(,)，则有 d2(X)2(1)

121/22d用累积密度函数证明，附带证明出()。

4.5 若干卡方随机变量和的分布

给定随机样本y1，y2„„yn，yi相互独立，且服从yi(i)，则有

d2y(12n)i1nd2用矩量母函数进行证明。

4.6 若干标准正态化随机变量和的分布（p71）

给定随机样本x1，x2„„xn，xi相互独立，且服从xin(,)，则有

d2(1nxi2d)2(n)



4.7 样本方差函数的分布

d(xix)22给定样本方差s，其中xin(,)，则有

n112nn1s22证明的关键

1nxixd2n1

22xi1n2然后运用矩量母函数。

2n1s2nx

224.8 正态化样本均值比值的分布

已知

2a)xn,n,db)xdn0,1, /nc)

则有 n1s2d2n1.2xdtn1 s/n

4.9 来自同一总体的两个样本方差比值的分布

已知

a)n11s12d2n211

则有 n21s22d2n221 s12dFn11,n21 2s2

4.10 多元随机变量标准二次型的分布

已知二次型XT1m1XmmXT，其中X是一个由m个零均值正态分布的随机变量组成的向量，m1Xmm是方差协方差阵。

则有

XT1m1XmmdXT2m m1（该证明过程有待琢磨）

4.11 随机变量函数分布总结

见表中（略）单变量区间估计和假设检验

5.1 介绍

（前章回顾）

关于区间估计，通常需要做估计的统计量是包含在关于它的（有时还包括其它一些）统计量的函数中，不过其它的统计量的值都是可以计算出来的，因此可以通过对不等式的运算得到关于要求统计量的估计区间。

关于假设检验，引入“零假设”和“备择假设”的概念，置信区间用以确定零假设是否应该被拒绝，如果假设被拒绝，那么就称为该检验的显著性水平；如果假设未被拒绝，那么就不能对该假设，假设检验以及显著性水平做出申明。

5.2 单一测量值Xi的检验（关于均值和方差）

d已知单一测量值Xi，且XinXc时，则X,，当Prc2ii的置信区间为

cXic

这个置信区间用来检验假设

H0:XiXH

5.3 均值的检验（关于一个观测值Xi和方差）

2考虑一个观测值Xi，且Xin区间为

dXc时，则的置信,，当Prc2iXicXic

这个置信区间用来检验假设

H0:H

25.4 均值的检验（关于一个样本均值X和方差/n）

当

X Prcc/n则的置信区间为

Xc1/2Xc1/2

nn这个置信区间用来检验假设

H0:H

25.5 样本均值X的检验（关于均值和方差/n）

当 XPrcc

/n则X的置信区间为

 cXc1/21/2nn这个置信区间用来检验假设

H0:XXH

5.6 均值的检验（关于一个样本均值X和方差s）

2当

XPrtPtP

s/n则的置信区间为

 XtXtPP1/21/2nn这个置信区间用来检验假设

H0:H

5.7 样本均值X的检验（关于均值和样本方差s）

2当

XPrttPs/nP 则X的置信区间为

tP1/2XtP1/2

nn这个置信区间用来检验假设 H0:XXH

5.8 方差的检验（关于均值和若干测量值X1,X2,„„Xn）2当

2n2X2PrP1iP2 1则的置信区间为 2n2Xi212P2这个置信区间用来检验假设

2Xi1n2P1

H0:22H

5.9 方差的检验（关于样本方差s）

当 222n1s22PrP2 2P1则的置信区间为 2n1s2n1s22 22P2P1这个置信区间用来检验假设

H0:22H

5.10 样本方差s的检验（关于方差）

当 222n1s22PrP2 2P1则s的置信区间为 222222sP2P1

n1n1这个置信区间用来检验假设

H0:s2s2H

5.11 两个方差比值2/1的检验（关于样本方差s1和s2）

2222当

s12/12PrFFP2 P1s2/222则22/12的置信区间为

222s22s2FFP22 P122ss111这个置信区间用来检验假设

22H0:2/122/1221H

5.12 两个样本方差比值s当

222/s212的检验（关于方差和）

s12/12PrFFP2 P1s2/222则s1/s2的置信区间为 2212s1212FP122FP22

22s2这个置信区间用来检验假设

22H0:s12/s2s12/s2H

5.13 两个方差比值22/12的检验（关于若干来自两个样本的测量值）

当

PrFP1则222Xi11n112n1X1n2i2222n2FP2

/12的置信区间为

nFP11n2Xi21n11n2222n2FP11n222Xi21n1n22Xi1

2Xi11这个置信区间用来检验假设

22H0:2/122/12H

5.14 单一变量置信区间的总结

见表中（略）最小二乘点估计：线性数学模型

线性数学模型

AXLV

其中，nL1称为观测向量，它是一个列向量，元素是观测值；nV1称为残差向量，它是一个列向量，元素未知的测量误差；uX1称为解向量，是我们想要作点估计的对象，它的元素是未知参数；nAu是已知的，称为设计矩阵。注意这里有n个观测值和u个未知量。只有当存在多余观测，即nu时，才能进行最小二乘估计。nu称为多余观测数，或者称为自由度。此外，每一个观测值L都有对应的权，这些权构成了权阵P。

6.1 X的最小二乘无偏估计

最小二乘准则

VPVmin

将VAXL带入，得到 ^^^T^^^AXLPAXLmin

求极值

T^2AXLPA0 ^X通过移项和分离得到 TAPAXATPL0

该式称为法方程。

如果APA，称为法方程矩阵，是非奇异的，那么X将会有一个唯一最小二乘估计值，即 T^TXATPA如果 ^1ATPL

^EXX 那么称X是X的无偏估计量。在这里，X是X的无偏估计量的条件是 ^^EV0

^（由EV0可证得ELAX，继而证得EXX）



6.2 权阵P的选择

易证得观测值L和观测误差真值V具有相同的协方差阵，但并不意味着

L^。V(L表示L的协方差阵，V^表示V的协方差阵)

^因为方差越大表示对应的观测精度越低，而我们希望这样的观测值权重越小，所以，权阵可以定义为

PL1

在进行最小二乘估计之前，必须先定权，由上式可知需要知道协方差阵中的各个对应的方差和协方差，这些值我们可以从采用的测量仪器和测量方法获知。但是我们常常只能得到一个相对值，所以协方差阵要带上一个比例因子，可令

Q

L20相对协方差阵势我们知道的，但是方差因子0不知道。因此，我们令

2PQ10L12

将上式带入XAPA^^T1ATPL中，可得

1L1XAATATLA

1由此未知量全部被消去。

6.3 X的最小化方差点估计

若存在XBL

则称X为X的一个线性估计。

^。^比X的X是X的最小化方差估计，它是一个线性无偏估计，其协方差阵为XX^^^任何其他线性无偏估计都要“小”。衡量矩阵的大小我们需要某种准则，为此引入矩阵“迹”的概念，它适用于方阵，是一个标量，是该方阵对角元素的和。这样，我们定义的最小化方差条件可以表示为

^)min Trace(X接下来我们将寻找满足该条件的方阵B。由前文知，当EV0时，X是无偏的，即有

^^EXX 由方程线性条件XBL可得 ^E[X]E[BL]BE[L]BAX

因此 ^BAI

则

所以问题变成T BBXL^^)TraceTrace(X(BLBT)min

在约束条件BAI0下，采用拉格朗日极值法，令

BLBT2(BAI)K

其中K为待定系数，然后有

Tr()0 B由矩阵迹的性质，我们可以得到

Tr()Tr(BLBT)2Tr(BAK)2Tr(k)

Tr(BLBT)B(LTL)2BL

BTr(BAK)KTAT

BTr(K)0 B因此有

Tr()2BL2KTAT0 B或者可以写成1BKTATL

进一步有

1BAIKTATLA

11KT(ATLA)11T1B(ATLA)AL

最后得到

ˆBL(AT1A)1AT1L XLL上式就是求解X的最小方差估计。

1对比前述，可知当PL时，最小二乘估计就是最小方差估计。

6.4 最大似然点估计

当V服从正态分布时，X的最大似然估计等价于最小二乘估计。

6.5 X的方差和协方差的无偏点估计

我们有方差无偏估计

ˆTPVˆVˆ 

nu202T1ˆˆ(APA) ˆ0X协方差无偏估计

T ˆˆˆEXXXXX的协方差阵为

Xˆˆ是一个无偏估计量，亦即E(Xˆ)X。当E(V)0时，X由前述知

ˆ(ATPA)1ATPL X由协方差传播律可得

TX)1ATPLPA(ATPA)1 ˆ(APA

(APA)AP0PPA(APA)

20(ATPA)1

T1T21T12ˆˆˆ0是0的无偏估计，则ˆ0因此，当且仅当(ATPA)1是Xˆ的无偏估计。X22从前述可知，只需证明

ˆTPVV1ˆTPV2 ˆ)EE(EV0nunu20已知法方程为

ˆATPL ATPAX变形可得

ˆL)0 ATP(AXˆL)TPA0(AX由法方程，又可得

ˆTATPA LTPAX根据以上关系，可得

ˆTPVˆ(XˆX)TATPA(XˆX)VTPVV其中

VAXL

ˆAXˆL V（注：证明

YTAYTrace(YYTA)

TTTT因为YAY是标量，所以Tr(YAY)YAY,所以Tr((YA)Y)Tr(Y(YA))，所以 TYTAYTrace(YYTA)）

所以，ˆTPVˆTrace(VVT21)Trace((XˆX)(XˆX)T2ˆ1)V0V0X所以，ˆTPVˆ)2ETrace(VVT1)2ETrace((XˆX)(XˆX)Tˆ1)E(V0V0X

ˆX)(XˆX))Trace(EVV)Trace(E(X212ˆX)(XˆX)Tˆ1)0Trace(EVVTV)0Trace(E(XX20T1V20T1ˆX因此，如果有n个观测值和u个未知量，则有

ˆTPVˆ)2Trace(1)2Trace(ˆˆ1)E(V0VV0XX2 0(TraceInTraceIu)2 0(nu)

得证。

ˆˆ。ˆ0，以及X因此，本节我们分别定义了0的无偏估计ˆ的无偏估计X22最小二乘点估计：非线性数学模型

三个环节：线性化、法方程、最小二乘点估计。

7.1 非线性数学模型的线性化

数学模型的分类：参数法、条件法、组合法。泰勒级数展开。

7.2 线性化举例

两个例子：直线拟合（组合法）、测角三角形（参数加条件）。

7.3 导出法方程

组合法模型

ˆBVˆW0 AX运用拉格朗日乘数法导出法方程。

7.4 导出法方程解的显式

过程类似带参数的条件平差，不详述。7.5 导出协方差阵

过程类似带参数的条件平差，不详述。多变量区间估计和假设检验

8.1 介绍

多变量的区间估计是对单变量区间估计的一个推广，令常见的分布函数带有多个随机变量。多变量的假设检验将给出一些量的置信区间（假设观测量都服从正态分布）。

8.2 方差因子检验

在组合法模型中，自由度为ru；在参数法模型中，nu。则有

2ˆTPVˆˆ0VdˆT1Vˆ2V2()L200上述卡方随机变量的概率为

2ˆ02P(2P)

02P12则，关于0的置信区间为

22ˆ0ˆ02202

P1P22ˆTPVˆˆTPVˆVV220 2P1P2以上置信区间用于检验零假设

22H0:0(0)H

需要注意的是，拒绝零假设除了因为0的假设值不正确，还可能是由于： 1）数学模型缺陷；

2）残差向量中的随机变量不服从正态分布。

上述两条也可以作为零假设来进行检验，但要记住一次只能对一个量进行检验。

8.3 两个方差因子比值的检验

统计量为

2ˆ01()1()/1222ˆ0(0)1()1/(0)1dF(1,2)222ˆ0ˆ02()2()2/(0)2)/22(0)2其中1n1u或者1r1u，2n2u或者2r2u。则随机变量的概率

22ˆ0()1/(0)1P(FP12FP2) 2ˆ0)2/(0()222关于(0)2/(0)1的置信区间为

222(ˆ0ˆ0)2(0)2()2FFP2P1ˆ2 22ˆ(0)1(0)1(0)1被检验的零假设为

22(0)2(0)H0:222(0)1(0)1H

2ˆ的偏差 08.4 当方差因子已知时检验参数X与其估值X统计量为

d2ˆX)Tˆ1(XˆX)(X(u)X其中

2Xˆ0QXˆ

则随机变量的概率为

ˆX)Tˆ1(XˆX)2) P(0(XPX被检验的零假设为

H0:XXH

也就是当计算值 ˆX)Tˆ1(XˆX)2(XPX时，零假设被拒绝。

2ˆ的偏差 08.5 当方差因子未知时检验参数X与其估值X统计量为

ˆX)Tˆ1(XˆX)(X2(u)/uddX2F(u,)2ˆ0()/(2)/0

整理可得

ˆX)TˆX)ˆˆ1(X(XXu其中

2ˆˆˆQXˆ 0XdF(u,)

则随机变量的概率为

P(0相关的置信区间为

ˆX)TˆX)ˆˆ1(X(XXuFP)

ˆX)TˆX)ˆˆ1(X(XX0FPu

这个置信区间的范围由超椭球面方程给出

ˆX)TˆX)uF ˆˆ1(X(XPX其中，uFP为长椭球面方程常数。

ˆ描述的位置，则上述方程变为将坐标系原点平移到向量Xˆˆ1XuF XTPX考虑二维情形，即u2，则有

ˆˆ1X2F XTPX或者 x1这是一个椭圆方程。类似的，在三维情形下

2x1ˆ12ˆ12x222FP 2xˆˆ21221ˆˆ1X3F XTPX或者

22x1ˆ12ˆ13ˆ12222x23FPˆ21ˆ2ˆ23x32 22xˆ31ˆ32ˆ331x1x2这是一个椭球方程。注意在上述两个例子中，方程中含有交叉乘积项，这是因为主对角元以

ˆˆ的一外的元素并不为零。可以通过将坐标系旋转角使得较差乘积项为零，这个角由X个特征向量的元素计算得到。这个特征向量给出了最大和最小方差的方向，后者就是特征值。例如，在二维情形下，经过上述旋转变换，可以得到椭圆方程

y1被检验的零假设为

20y1ˆmaxy22FP 2ˆymin201H0:XXH

也就是当计算值

ˆX)TˆX)2 ˆˆ1(X(XPX时，零假设被拒绝。分割数学模型

并非所有的最小二乘估计问题都能方便地用组合法模型来表达，需要对该模型做一些补充。这里仅介绍四种分割模型的策略。

本章在阐述四种补充的使用时考虑它们在卫星定位中的应用。我们假设观测值L已经通过某些手段从一个或者多个地面站获得。这些观测值跟地面站坐标以及卫星坐标都是相关的，它们共同构成了未知参数X。

9.1 剔除“麻烦”的参数

卫星的坐标某种程度上来说是一个“麻烦”的参数，我们希望将它们从解中分离出来，因此我们将X分割为地面站坐标，记为X1，以及卫星坐标，记为X2。则组合法模型变为

F(X1,X2,L)0

其中

X1X10X1

0X2X2X2

X1X10X1

观测值L的权阵为

21P0L

运用泰勒级数展开将其线性化，得到

WA1X1A2X2BV0

或者

WAXBV0

其中AA1XA2，X1。

X2在最小二乘原则下，导出法方程

ˆTPVˆ2KˆT(WAXˆˆˆV11A2X2BV)

ˆTP2KˆTB0 2VˆVˆBTKˆ0 PVˆTA0 2K1ˆX1ˆ0 A1TKXˆ2KˆTA20 2AT2Kˆ0

则法方程为

PBT00B0AVˆ02A1K0AT20ˆ0W0AT100Xˆ2Xˆ0 010用第七章的方法消去上述方程中的Vˆ，得 BP1BTA2A1ATKˆW200Xˆ020 AT100Xˆ10进一步消去方程中的Kˆ，得 AT2(BP1B)1A2ATBP1B)1AT12(1ˆ1AT1)11(BPBA2AT1B)1AXA(ˆ22BPB)WT1B)1W1(BP1X1A1(BP上式可以简化写作

N21ˆN22NNXU212ˆ2U0

11X11消去Xˆ2，可得 Xˆ1(N11N12N122N21)1(U1N12N122U2)将Xˆ1回代，可得 Xˆ2N122(N21Xˆ1U2)

进一步，可得

Kˆ(BP1BT)1(A2Xˆ2A1Xˆ1W)VˆP1BTKˆ 最终

Xˆ1X01Xˆ1 0 ˆX0Xˆ X222

9.2 附加观测值

假设有两组观测值，来自相同的地面站

F1(X,L1)0 F2(X,L2)0

其中

XX0X

L1L1V1 L2L2V2

且，观测值L1的权阵为P10L1，观测值L2的权阵为P20L2。将两个非线性函数线性化，效仿上一节，可得

2121W1A1XB1V10 W2A2XB2V20

合并

WAXBV0

其中

AA1

A2B1B0同上一节，法方程为

0 B2P10B1000P20B20B1T000A1T0TB200TA200A1A20ˆV01ˆ0V2ˆW10 K1ˆK2W2Xˆ0ˆ，可得消去V1P20B2001TB1P1B10A1TTB200TA20A1A20ˆV02ˆK1W10 ˆKW22ˆ0Xˆ，可得消去V21TB1P1B10TA10TB2P21B2TA2A1A20ˆKW11ˆK2W20 ˆX0ˆ，可得消去K1TB2P21B2TA2ˆW2KA22ˆAT(BP1BT)1W0 T1T1A1(B1P111111B1)A1Xˆ，可得最后消去K2ˆ(AT(BP1BT)1AAT(BP1BT)1A)1(AT(BP1BT)1WAT(BP1BT)1W)X***22222进一步，可解出

ˆ(BP1BT)1(AXˆW)K222222ˆ(BP1BT)1(AXˆW)K111111ˆP1BTKˆ V2222ˆP1BTKˆ V1111最后

ˆX0Xˆ X

9.3 未知参数间附加约束条件

数学模型

F(X,L)0

F(X)0

（附加约束条件）将上述模型线性化，可得

W1A1XBV0 W2A2X0

合并

WAXBV0

其中

AA1

A2B0 B00求解法方程，令

ˆTPVˆ2KˆT(WAXˆBVˆ)2KˆT(WAXˆV111222)

ˆ求导，并令其为零，可分别得到 ˆ和X分别对VˆBTKT0 PV1ˆATKˆ0 A1TK122则法方程为

PBTB00A1T000A10A200TA20ˆV0ˆWK110 ˆX0ˆKW22ˆ，可得 ˆ、Kˆ、X同前面的处理手法，依次消去V1ˆ(A(AT(BP1BT)1A)1AT)1(WA(AT(BP1BT)1A)1AT)BP1BT)1W)K22112221111ˆ(AT(BP1BT)1A)1(ATKˆAT(BP1BT)1W)X112211ˆ(BP1BT)1(AXˆW)K111ˆP1BTKˆ V1ˆX0Xˆ X

9.4 未知参数定权

数学模型

F(X,L)0

线性化可得

WAXBV0

这里与前文发生变化的是，残差向量变成VPX，权阵变成了V0其中

P21V0L

P21X0X0

X0是未知参数的先验协方差阵。

上述数学模型可以合并为

WBV0

其中

BBA

在VˆTPVVˆXˆTPXXˆmin 准则下，令

VˆTPVVˆXˆTPXXˆ2KˆT(WAXˆBVˆ)分别对Vˆ和Xˆ求导，并令其为零，可分别得到 PˆBTVVKT0 PXXˆATKT0 则法方程为

0P。X PV0B0PXABTAT0ˆV0ˆ00 XˆKWˆ，可得 ˆ、X同前文处理手法，依次消去Vˆ(BP1BTAP1AT)1W KVXˆP1ATKˆ XXˆP1BTKˆ VV需要注意的是，这样的结果并不令人满意，因为PX有可能退化成奇异矩阵，这样它的逆矩阵就不存在，上述解也就没法给出，所以要想办法消去解中的PX。令

1PVB0ˆ，可得 ˆ、K依次消去VBT0AT0APXˆV0ˆKW0 ˆX0ˆ(PAT(BP1BT)1A)1AT(BP1BT)1W XXVVˆ(BP1BT)1(AXˆW)KVˆP1BTKˆ VVˆX0Xˆ X

**10 逐次最小二乘估计

为了解决超大型方程组，考虑将其分解成若干个小的方程组，当然这样处理后得出的结果必须服从原方程组的解。引出逐步最小二乘法的概念。

10.1 序贯最小二乘表达

参数数学模型 F(X)L0

线性化，得到

AXVW0

应用最小二乘原则，得到法方程

PI0Vˆ0I0AKˆW0 0AT0Xˆ0 将其分解

Pk10I000PVˆk1k0I0VˆkI000Ak1Kˆ0I00Akk1ˆKk00ATk1ATk0Xˆ首先，令PkAkWk0，则有法方程

Pk1I0ˆV0I0Ak1Kˆk10ATk10Wk1k1Xk1ˆ0则有解

Xˆk1N1k1Uk1 Kˆk1Pk1(Ak1Xˆk1Wk1)Vˆk1Ak1Xˆk1Wk1

其中

N1T-1k1(Ak1Pk1Ak1)UTk1Ak1Pk1Wk1

重组法方程

00Wk1Wk0

00 Pk10I000Pk00II00TAk1000Ak10Ak0I0TAk0ˆV0k1ˆ0 VkˆWk10Kk1ˆ0XkKˆWkk消去Vˆk1和Vˆk，得 P1k1Ak10ATKˆWk1k10ATkXˆk100AkP1kKˆkkWk消去Kˆk1，得 NATk1kXˆUk1AkP1kKˆkkW0 k消去Xˆk，得 (P11TkAkNk1Ak)Kˆ1kWkAkNk1Uk10

又

Xˆk1N1k1Uk1 则

Kˆ(P1kkAkN1k1ATk)1(AkXˆk1Wk)

将Kˆk回代到法方程，得 XˆkXˆk1N1k1ATkKˆk VˆkP1kKˆk 接下来要给出协方差阵的序贯表达式，令

XˆXˆ1kC1C2k

Wk其中

CIN1T(P11T11k1AkkAkNk1Ak)Ak C1T11T12Nk1Ak(PkAkNk1Ak)

0由协方差传播律

NXC2ˆC11kk1Nk100C1TT 1PkC21T1T

C1Nk1C1C2PkC2

令

1Nk ˆ1Xk1Pk1Wk

乘开得到

11T11T11Nk1Nk1Nk1Ak(PkAkNk1Ak)AkNk1

且有

ˆTPVˆKˆTP1Kˆ Vkkkkkk

10.2 卡尔曼滤波方程

电气工程中的最优控制问题。不仅状态空间向量（相当于平差中的未知参数向量）的估值会因为新数据参与到最小二乘估计中而发生改变，这些向量本身的实际值也会随时间发生变化。因此，在最优控制问题中，存在两个随时间变化的因子，其一，状态空间向量的真值是连续变化的；其二，新观测的数据是连续积累的，且状态空间向量新值的新估值从这些新观测数据中获得。

状态向量的时间依赖性由下面的数学模型表达

xk1k1,kxkwk

其中，x是状态空间向量（即解向量），（即k1,k是第k次与第(k1)次状态之间的过渡函数对象模型）。wk是对象白噪声序列（残差向量）。将状态向量和观测数据之间的数学模型线性化，可得

zkHkxkvk

其中，zk是观测值向量（即闭合差向量），Hk是设计矩阵，vk是观测值白噪声序列（即残差向量）。wk与vk的协方差阵分别表示为Qk和Qk。则卡尔曼最小二乘估计问题可以描述为：采用所有数据z0，z1···zj对状态xi进行估计（不一定是最小二乘估计），估计量记为xi/j，则问题为

ˆk/k； a)使用所有数据包括当前数据zk求出当前状态xk的最小二乘估计xˆk1/k1相关； b)将该估计仅表达成与当前观测值zk以及前一个最优估计xc)确保这个解跟同时处理所有数据z0，z1···zj获得的解一样严密。

当缺少新数据时，预测估计可以表示为

ˆk/k1k,k1xˆk1/k1 x卡尔曼方程可以表述为

ˆk/kk,k1xˆk1/k1KkzkHkk,k1xˆk1/k1 xTTKkPk/k1Hk(HkPk/k1HkRk)1

Pk/k1k,k1Pk1/k1kT,k1Qk1 Pk/kPk/k1KkHkPk/k1

ˆk/k1误差的协方差阵，Pk/k为最小二乘估计xˆk/k其中，Kk为增益矩阵，Pk/k1为预测估计x误差的协方差阵。

忽略状态向量的时间，并做一些符号转换