您好,欢迎来到抵帆知识网。
搜索
您的当前位置:首页逐步回归分析(教材)

逐步回归分析(教材)

来源:抵帆知识网
第6节 逐步回归分析

逐步回归分析实质上就是建立最优的多元线性回归方程,显然既实用而应用又最广泛。

6.1逐步回归分析概述 1 概念

逐步回归模型是以已知地理数据序列为基础,根据多元回归分析法和求解求逆紧凑变换法及双检验法而建立的能够反映地理要素之间变化关系的最优回归模型。

逐步回归分析是指在多元线性回归分析中,利用求解求逆紧奏变换法和双检验法,来研究和建立最优回归方程的并用于地理分析和地理决策的多元线性回归分析。它实质上就是多元线性回归分析的基础上派生出一种研究和建立最优多元线性回归方程的算法技巧。主要含义如下: 1)逐步回归分析的理论基础是多元线性回归分析法; 2)逐步回归分析的算法技巧是求解求逆紧奏变换法;

3)逐步回归分析的方法技巧是双检验法,即引进和剔除检验法; 4)逐步回归分析的核心任务是建立最优回归方程; 5)逐步回归分析的主要作用是降维。

主要用途:主要用于因果关系分析、聚类分析、区域规划、综合评价等等。

2 最优回归模型

1)概念

最优回归模型是指仅包含对因变量有显著影响的自变量的回归方程。逐步回归分析就是解决如何建立最优回归方程的问题。 2)最优回归模型的含义 最优回归模型的含义有两点: (1)自变量个数

自变量个数要尽可能多,因为通过筛选自变量的办法,选取自变量的个数越多,回归平方和越大,剩余平方和越小,则回归分析效果就越好,这也是提高回归模型分析效果的重要条件。 (2)自变量显著性

自变量对因变量y有显著影响,建立最优回归模型的目的主要是用于预测和分析,自然要求自变量个数尽可能少,且对因变量y有显著影响。若自变量个数越多,一方面预测计算量大,另一方面因n固定,所以

QSQ增大,即造成剩余标准差增大,故要求自变量个数要适

nk1中。且引入和剔除自变量时都要进行显著性检验,使之达到最优化状态,所以此回归方程又称为优化模型。 3 最优回归模型的选择方法

最优回归模型的选择方法是一种经验性发展方法,主要有以下四种:

(1)组合优选法

组合优选法是指从变量组合而建立的所有回归方程中选取最优着。其具体过程是:

(1)建立变量组合的所有回归方程 (2)优选回归方程

首先对每一个方程及自变量均作显著性检验,优选原则:自变量全部显著,剩余标准差较小,既可选得最优回归方程。 2)剔除优选法

剔除优选法适指从包含全部自变量的回归方程中逐个剔除不显著自变量而求得最优回归方程的优选方法。其具体过程是: (1)建立多元回归方程 (2)优选回归方程

剔除自变量的原则是先求取偏回归平方和最小者并作显著性检验,若不显著则剔除。终止原则是直至不显著自变量剔除完为至,而仅保留对因变量y有显著影响的自变量。 3)引入优选法

引入优选法是指将所有自变量经显著性检验而逐个引入对因变量有显著影响的自变量的优选方法。其具体过程是: (1)建立一元回归方程 (2)优选回归方程

引入原则是偏相关系数绝对值最大者,引入后并进行显著性检验,若显著则继续引进自变量,直至再无显著自变量引进为止。 4)逐步回归分析法

逐步回归分析法是指运用回归分析原理采用双检验原则,逐步引入和剔除自变量而建立最优回归方程的优选方法。具体含义是:

(1)每步有二个过程 即引进变量和剔除变量,且引进变量和剔除变量均需作F检验后方可继续进行,故又称为双重检验回归分析法。 (2)引入变量 引入变量的原则是未引进变量中偏回归平方和最大者并经F显著性检验,若显著则引进,否则终止。

(3)剔除变量 剔除原则是在引进的自变量中偏回归平方和最小者,并经F检验不显著,则剔除。

(4)终止条件 即最优条件,再无显著自变量引进,也没有不显著自变量可以剔除,这也是最优回归方程的实质。

由此可知,它并没新的理论,只是多元回归分析基础上派生出的一种算法技巧。现在就来介绍逐步回归分析的具体建模原理和方法步骤。

6.2逐步回归分析的数学模型

逐步回归分析的数学模型是指仅包含对因变量Y有显著影响自变量的多元线性回归方程。为了利于变换求算和上机计算,将对其变量进行重新编号并对原始数据进行标准化处理。

6.2.1 变量重新编号 1 新编号数学模型

令yxk,自变量个数为k-1,则其数学模型为:

xk01x12x23x3...k1xk1

式中,α=1,2,3,… ,n n:样本个数 其中:

S(xkxk)2

ˆkxk)2 SU(xˆk)2 SQSSU(xkx xj的偏回归平方和为:

 SUbjcjj

xk:为xk的算术平均值 bj:xj的偏回归系数

cjj:为逆矩阵L1对角线对应元素 2 回归数学模型

新编号的回归数学模型为:

ˆkb0b1x1b2x2b3x3...bk1xk1 x 6.2.2 标准化数学模型

标准化回归数学模型是指将原始数据进行标准化处理后而建立的回归数学模型,即实质上是每个原始数据减去平均值后再除以离差平方和的方根。

1 标准化回归数学模型 令 zjxjxjSj j=1,2,3,„ ,k

1n 其中: xjxj

n1 Sjljj(xjxj)2 !为离差平方和的方根

注意:ljj,ljj,S2j,Sj它们之间的区别,即离差平方和,离差平方

和的方根,方差,标准差。 则回归数学模型为:

1z12z23z3...k1zk1 ˆk0 z 2 标准化回归数学模型的正规方程组

标准化回归数学模型正规方程组的一般形式为:

z11z22z33...zk1k1zkn02zz1011z1z22z1z33...z1zk1k1z1zk2z1z21zz2022z2z33...z2zk1k1z2zk2z1z31z2z32zz3033...z3zk1k1z3zk...............................................................................................................................................2zzzzzzz...zk101k112k123k13k1k1zk1zk 因为,zj(xjx)Sj0 ,

zij(xixi)(xjxj)SiSjrij

所以上述正规方程组可变为:

000...00n00rrr...rr1111221331k1k11k0r211r222r233...r2k1k1r2kr333...r3k1k1r3k0r311r322..............................................................rk133...rk1k1k1rk1k0rk111rk122

这样,数据标准化处理后的估计值0,并令,则可得数据标准化处理后的回归方程数学模型的正规方程组的一般形式为:

r133...r1k1k1r1kr111r122r233...r2k1k1r2kr211r222 r333...r3k1k1r3kr311r322............................................................rk111rk122rk133...rk1k1k1rk1k

这样,数据标准化后0的估计值应为0,并jdj令,则可得:

r11d1r12d2r13d3...r1k1dk1r1kr21d1r22d2r23d3...r2k1dk1r2k r31d1r32d2r33d3...r3k1dk1r3k............................................................rk11d1rk12d2rk13d3...rk1k1dk1rk1k

其中:

r11r21 R...rk11r1222......rk12r1k1...r2k1 称为相关系数矩

.........rk1k1阵。

r1kr B2k

rk1k解此方程组,即可求出d1,d2,d3,,dk1,故可得标准化后的回归模型为:

ˆkd1z1d2z2...dk1zk1 z标准化的回归模型的矩阵形式:

x11x11S1x21x11S1 Xx31x11S1x1n1x1S1x12x2S2x22x2S2x32x2S2xn2x2S2x1k1xk1Sk1x2k1xk1Sk1x3k1xk1

Sk1xnk1xk1Sk1

x1kxkSkxxk2kSk Yx3kxk

SkxxnkkSk0n0r11AXX0r210rk110r12r22rk120nr1k1r2k10rk1k10R 6.2.3 标准化前后回归模型的关系 1标准化前后的回归模型 1)标准化前后回归模型为:

ˆkb0b1x1b2x2b3x3...bk1xk1 x 2)标准化后回归模型为:

ˆkd1z1d2z2...dk1zk1 z 2 标准化前后的偏回归系数

标准化前后偏回归系数的关系可从变化过程反演得知: 令zjxjxjSj代入标准化前的回归模型可得:

ˆkxkxxxk1xx1xx2d1.1d2.2dk1.k1 SkS1S2Sk1 整理后得:

ˆk(xkxSkSSd1x1kd2x2kdk1xk1)S1S2Sk1SkSSd1x1kd2x2kdk1xk1S1S2Sk1

ˆkb0b1x1b2x2b3x3...bk1xk1 x将上式与标准化前的回归模型作比较,由待定系数法可知标准化前后回归模型的偏回归系数的关系为:

bjSkdjSjk1j1 j=1,2,3,„k-1

b0xkbjxj 于是,只要求出dj,即可求出bj,今后仅讨论标准化后的回归模型。

3标准化后的各种离差平方和

S SuSQ1Sk12Sk1Su2Sk1SQSk2

6.3 求解求逆紧凑变换法

逐步回归分析每引进和剔除一个变量都要用到求解求逆紧奏变换法进行矩阵变换,最后求出方程组的解和逆矩阵。现介绍其变换原理和方法步骤。

6.3.1 求解求逆紧奏变换法的基本公式 由上述介绍可知,标准化后的正规方程组为:

r11d1r12d2r13d3...r1k1dk1r1kr21d1r22d2r23d3...r2k1dk1r2k r31d1r32d2r33d3...r3k1dk1r3k............................................................rk11d1rk12d2rk13d3...rk1k1dk1rk1k

可得增广矩阵R(0),由(R(0)E)经高斯消元法变换为(ER1),既可

求出解和相应的逆矩阵。 故

r12...r1k1r1k1r11...r2k1r2k0r2122 (R(0)E)rk11rk12...rk1k1rk1k0rrk2rkk1rkk0k10010 0001 经高斯消元法变换为:

10(ER1)=0001000r1(kl)0r2(kl)l)0rk(1k1rk(lk)l)r1(k1(l)r2k1l)rk(1k1rk(lk)1l)r1(k2(l)r2k2l)rk(1k2rk(lk)2l)r1(2k1r2(l2)k1

l)rk(12k1rk(l2)k1   D R1

其变换公式为:

(l)(l1)(l1)j1,2,3,,2k1(1)rkjrkj/rkk  (l)(l1)(l1)(l1)(l1)ik(2)rijrijrik.rkj/rkk 说明:公式(1)是好理解的;

公式(2)是指求算非主行和非主列的元素,实质上就是该元素减去其对应的主行与主列元素相乘并除以主元素。 举例,解下列方程组:

10x17x24x34 7x17x23x34

4x3x4x3231解:利用上述高斯消元法的(1)(2)公式,解上述方程组的求解求逆变换过程如下:

由上述方程组可得高斯求解求逆变换法矩阵形式A(0): A(0)107441007734010 4343001 当k=1,主元素为:a11,根据高斯求解求逆变换法原理和方法,可得A(1):

A(1)10.70.40.40.10002.10.21.20.710 00.22.41.40.401 当k=2,主元素为:a22,根据高斯求解求逆变换法原理和方法,可得A(2): A(2)00.3330.3330100.333010.0950.5710.3330.4760 002.3811.2860.3330.0951 当k=3,主元素为:a33,根据高斯求解求逆变换法原理和方法,可得A(3): A(3)1000.1810.3800.3200.1410100.5190.3200.4800.040

0.4230010.10.1410.040   X A1

提出问题:由上述高斯削元法变换可知,单位矩阵只是从后k逐列移至前k列,而只是起到形式作用。这样,若利用计算机程序求解求逆就要多占用k * k个单元,试想能否节省k * k个单元呢?从以上变换可知,如果能将后k列经过变换后放置前k列去,这样k * k个单元即可节省。如何做呢?这要找出后k列变换前后的关系。

若R(0)经过(l-1)次变换得到R(l1),则第k+1+l列除了第l个元素为1,其余均为0,即,第k+1+l列各元素值为:

(l1)rk,k1k1 (l1)ri,k1k0ik 若再对R(l1)变换一次得R(l),则第k+1+l列各元素可由高斯消元法的公式(1)(2)变换为为:

(l)(l1)(l1)(l1)(3)rk,k1krk,k1k/rk,k1/rk,k(l)(l1)(l1)(l1)(l1)(l1)(l1)(4)rrr.r/rr/ri,k1ki,k1ki,kk,k1kk,ki,kk,kik

这就相当于第k+1+l列的第k个元素1除以主元素,其余的元素都除以主元素并变号,于是可将第k+1+l列放到对应的前l列中,这样单位矩阵就节省了,上述整个过程就称为矩阵的求解求逆紧奏变换法。

将上述公式合并即得求解求逆紧奏变换法的公式:

(l)(l1)(l1)j1,2,3,,2k1(1)rkjrkj/rkk  (l)(l1)(l1)(l1)(l1)ik(2)rijrijrik.rkj/rkk(l)(l1)(l1)(l1)(3)rk,k1krk,k1k/rk,k1/rk,k(l)(l1)(l1)(l1)(l1)(l1)(l1)(4)rrr.r/rr/ri,k1ki,k1ki,kk,k1kk,ki,kk,kik

说明:(1)式为求主行各元素;

(2)式为求非主行非主列的各元素;

用公式(2)求非主行所有元素,如:a21,a22,a34,a35,a36 。

(0)a21:k1,i2,j1(1)(1)(1)(1)(1) a21ai(1)(0)j)(0)(0)(0)(0)(0)(0)ai(0aaaaaakkjkk21211211

7710100(0)a22:k1,i2,j2(1)(0)j)(0)(0)(0)(0)(0)(0)ai(0a11 kakjakka22a21a12 a22ai777102.1(0)a34:k1,i3,j4 a34ai(1)(0)j)(0)(0)(0)(0)(0)(0) ai(0a11kakjakka34a31a14344101.4(0)a35:k1,i3,j5(1)(0)j)(0)(0)(0)(0)(0)(0)ai(0a11 kakjakka35a31a15 a35ai041100.4(0)a36:k1,i3,j6(1)(0)j)(0)(0)(0)(0)(0)(0)ai(0aaaaaakkjkk36311611

a36ai040100

 (3)式为求主元素; (4)式为求主列个各元素。

举例:利用求解求逆紧奏变换法解上述方程组: 解:

A(0)107447734 4343 当k=1,主元素为:a11,根据求解求逆紧凑变换法原理和方法,可得A(1):

A(1)0.10.70.40.40.72.10.21.2 0.40.22.41.4当k=2,主元素为:a22,根据求解求逆紧凑变换法原理和方法,可得A(2):

A(2)00.3330.3330.3330.3330.4760.0950.571 0.3330.0952.3811.286当k=3,主元素为:a33,根据求解求逆紧凑变换法原理和方法,可得A(3):

A(3)0.3800.3200.1410.1810.3200.4800.0400.519 0.10.1410.0400.423   A1 X

由两种方法比较可知,其结果一样,故求解求逆紧奏变换法可节 省K*K个存储单元。 6.3.2 基本性质

1 每作一次变换,就求得一组解和相应的逆矩阵;

2 对R(0)作变换得R(l),同变换次序无关,即与哪个作主元素无关;

3 当lkR(l1)R(l),lkR(l)R(l1)R(l1),即,同一主元素作两次变换可还原;

4 在矩阵中,具有下列对称性: ri(jl)(l)r变换时ji当zi,zj均作了变换或者均未作 rji当zi,zj仅一个过消除变换时 6.3.3 求解求逆紧奏变换法与回归分析的关系

由上述分析可知,逐步回归分析要求解的正规方程组为:

r11d1r12d2r13d3...r1k1dk1r1kr21d1r22d2r23d3...r2k1dk1r2k r31d1r32d2r33d3...r3k1dk1r3k............................................................rk11d1rk12d2rk13d3...rk1k1dk1rk1k

则逐步回归分析中的求解求逆紧奏变换法的增广矩阵是:

r11r R21...rk11r1222......rk12r1k1...r2k1

.........rk1k1 在逐步回归分析中,每引进一个变量或者剔除一个变量,都要对R进行一次求解求逆紧奏变换法变换,最后求得d1,d2,d3,dk1,再恒等变换为b0,b1,b2,b3,bk1,所以求解求逆紧奏变换法在逐步回归分析中十分有用。

6.4 逐步回归分析的步骤

根据逐步回归分析的原理和方法,现介绍其具体步骤。以表6 –3(P125)中地理数据为例。

地理数据4--5

台风编号 x1 x2 x3 x4 x5 x6 x7 y 7503 14.51 27.0 8.8 2.0 - 0.5 8.0 248.0 900

6509 7.57 27.7 10.8 7.0 0.8 5.0 81.0 3 6003 1.94 28.3 13.6 13.0 - 0.2 1.7 124.8 566 6521 3.04 27.3 12.1 13.0 0.2 1.5 314.6 521 7301 8.07 28.5 5.7 - 2.0 - 0.6 2.7 110.4 333 6122 4. 28.5 15.8 14.0 1.4 2.0 109.6 359 7412 3.02 27.4 5.4 0.0 0.6 4.6 110.0 5 6213 6.20 28.2 12.0 12.0 0.0 2.5 378.0 416 6615 2.69 29.0 12.7 6.0 1.3 15.7 87.8 2 6005 2.85 27.5 5.0 12.0 0.0 6.8 152.2 2 6126 1.02 27.0 20.7 1.0 1.0 10.0 148.5 209 6208 1.62 27.5 7.0 4.0 1.5 6.0 48.0 428 6513 7.02 27.3 5.8 - 17.0 1.8 10.0 230.0 673 6312 2.09 27.3 14.5 - 11.0 0.0 8.5 110.5 395 5904 0.83 28.7 11.8 - 13.0 2.3 4.0 125.0 327 6007 4.56 27.0 7.0 - 4.0 - 0.3 4.0 240.0 829 6306 5.43 29.0 7.2 - 4.0 - 1.5 4.0 157.2 266 7504 4.05 26.9 4.2 - 1.0 - 0.3 2.8 80.0 653 5901 3.78 28.0 11.6 8.0 - 1.0 12.2 97.0 187 6102 1.11 29.0 13.6 - 3.0 - 0.5 14.0 144.0 178 7207 7.17 27.0 11.0 2.0 - 1.0 10.6 157.3 160

7123 5.00 26.0 33.6 - 27.0 2.7 23.3 206.4 280

7010 5612 5622 6214

3.88 0.74 3.05 0.30

27.0 26.5 27.8 28.0

16.0 - 7.0 1.0 9.5 134.0 234 - 1.2 6.0 - 2.0 9.0 368.0 2 13.4 - 7.0 - 1.7 2.7 165.2 216 11.0 - 7.0 - 0.7 8.0 144.2 294

6911 3.44 28.0 8.0 - 4.0 - 0.2 11.7 256.0 268 6001 5.94 25.0 10.0 1.0 - 2.7 5.2 201.6 185 6906 3.12 27.2 9.1 6.0 1.0 17.3 173.0 246 x 4.092 27.57 10.90 0.00 0.083 7.7 169.04 374.9 si 15.5 4.814 32.760 50.851 6.768 27.870 439.19 1039.3

第一步 求初始相关系数矩阵R0

由表6 -- 3中地理数据可求得初始相关系数矩阵为:

1.00000.18190.06880.00200.10610.07840.17330.42080.18191.00000.09120.190.14990.18240.28730.10030.06880.00200.10610.09120.190.14991.00000.35840.470.35841.00000.26800.470.26801.00000.45140.40430.31530.11570.05840.25110.27330.00150.1528

R(0)0.07840.18240.45140.40430.31531.00000.00570.35340.17330.42080.28730.10030.11570.27330.05840.00150.25110.15280.00570.35341.00000.16700.16701.0000

第二步 逐步优选变量

该步是指逐步优选变量以建立最优回归方程。 1 选择第一个变量

首先,引入第一个变量以建立一元回归模型:

ˆkdj(1)zj zj1,2,3,,k1

1)确定F1=F2=5(本例最好为2.5),即引进与剔除变量的F检验值。

2)引进变量的原则与方法 如何确定先引入哪一个变量呢?

(1)选择原则

引入原则为偏回归平方和最大者,也称为方差贡献最大者。由前述可知,回归平方和越大,回归方程的效果就越好。 (2)选择方法

如何选择偏回归平方和最大者呢?方法有两钟,即:一般方法和直接方法。 一般方法:

一般方法是指从建立后的回归方程求得,公式为:ujdjljk 这样看来,工作量相当大,设想一下,能否从R(0)中直接求得各偏回归平方和再从中选择最大者呢?回答是肯定的!因为R(1)是从R(0)中变换得来的,所以,它们之间有数量联系。 直接方法:

直接方法是指从R(0)中直接求得偏回归平方和最大者。如何从R(0)中直接求呢?这就要从求解求逆紧凑变换法中找出R(0)R(1)中的关系。

由上述变换可知:

dj(1)(1)rjk(1)(1)rjk(0)/rjj(0)(0)(0)cjjrjj1/rjj1/cjj

于是,zj中的偏回归平方和可得:

uj(1)[dj]2cjj[rjk[rjk(0)(0)2(1)(0)[dj]2/cjj(0)(1)(1)

/rjj]2/[1/rjj]]/rjj(0)(0)

此式表明,uj(1)完全可以从R(0)中直接求得。于是可拓展到:

ujuj(2)(3)R(1)R(2) uj(4)R(3)

ujk1R(k2) 3)引进变量

(1)确定引进变量,即:求uj0便可确定。

运用直接方法即可求算所有偏回归平方和uj0,并选取maxuj0者。 由于的对角元素均为:

r11(0)r22(0)r33(0)rk1k1(0)1

所以,最后一列绝对值最大者便为偏回归平方和最大者。本例为

z1,即:

u10=r1k0r1l00.4208210.1771

2 由此可知maxu100.0.1771,故引入的第一个变量为:z1 ,即:

ˆkd1(1)z1 zj1

(2)引进变量检验

方法为F检验法,首先,应经验性确定临界值F(f,f),其大小主

12要与信度和自由度有关,所以,不宜太大,否则,引进变量较少,不实用。本例K=7,若试选4个变量,则n29,f14,f2nk124,即:

F(f,f)F0.05(4,24)2.78,选2.5为宜。

120u1f10.177110.1771 F11u10f210.17712710.1771275.81

因为F3=5.81>F1=2.5,所以引进的第一个变量为z1。

(3)求算R1

00.18190.06808.00200.10610.07804.17330.4201.00080.18190.96680.10307.19680.13060.19670.25580.02370.06880.10307.99520.35803.44740.44600.10380.24450.19680.35803.99990.26850.40401.05800.0000.00206R1=50.10610.13060.44730.26805.98870.30700.23207.19740.19607.44600.40401.30700.99380.00770.32040.0780.173310.25580.10308.05800.23207.00770.96990.0940.420880.02370.24403.00060.19750.32004.09410.822R0经求解求逆紧凑变换法可求得R1为:

4) 剔除变量

由于刚引进第一个变量,故略。

2 选择第二个变量 1) 引进变量

(1)确定引进变量,求算uj1,并求取maxuj1,j=2,3,4,5,6,7

2211r22r2k0.02307.96608.000 58 u22 同理可求得:

22222 u30.0601,u40.0395,u60.1033,u70.0091 0.0000,u51 由此可知maxu60.1033

(2)引进变量检验

2u60.1033263.75 F112n3rkku60.340.1033 因为F3=3.75 > F2=2.5,所以应引进变量z6,并对R(0)进行求解求逆紧凑变换得R(1),如表 所示。

1.00610.19740.03370.0298R2=0.08190.07880.17390.39550.19740.92790.010.11680.19140.19790.220.08710.06670.010.79500.17690.30960.44880.10730.10050.02980.08190.07880.17390.11680.19140.19790.220.17690.30960.44880.10730.83560.14360.40660.06120.14360.380.300.23510.40660.301.00610.00780.06120.23510.00780.96980.12960.29650.32240.09660.39550.08710.10050.1296 0.29650.32240.09660.7195 2)剔除变量

由于z6变量刚刚引进,现只需对z1作检验。

(1)确定剔除变量,求算u(j2),并求取minuj2,j=1,6

220.39551.00610.155 4 u12r1k2r112 (2)剔除检验

u12f1u0.15F2(2)1(2)(n3)265.622

0.7195rkkf2rkk(2) 因为,所以不应剔除,继续引进变量。 3 选择第三个变量

(1)确定引进变量,求算uj3,并求取maxuj3,j=2,3,4,5,7

2322r22r2k0.08710.92790.0082 u22 同理可求得:

3333 u30.0127,u40.0984,u70.0096 0.0201,u53 由此可知maxu50.00984

(2)引进变量检验

3u50.0984253.958 8 F113n4rkku50.340.0984因为F33.9588F12.5,所以,应引进变量z5,并对R(2)进行求解求逆紧凑变换得R(3),如表 所示。

R(3)1.01360.17990.00530.04290.09160.05050.15240.42270.17990.88690.08170.14750.21410.210.20390.15070.00530.08170.68770.12710.34630.34180.02580.20320.04290.14750.12710.81250.16070.35690.02340.08190.09160.05050.15240.42270.21410.210.20390.15070.34630.34180.02580.20320.16070.35690.02340.08191.11870.34560.26300.33170.34561.11290.010.42490.26300.010.90800.17460.33170.42490.17460.6211 2)剔除变量

由于z5变量刚刚引进,现只需对z1,z6作剔除检验。 (1)确定剔除变量,求算u(j3),并求取minuj3,j=1,6

230.42271.01360.1763 u13r1k3r112230.42491.11290.1622 u63r6k3r6623 由此可知,u60.1622为最小,故对z6做剔除检验。

(2)剔除检验

3u6fu0.1622F3(3)16(3)(n4)256.52870.6211rkkf2rkk(3)

因为,F36.5287F22.5所以不应剔除,继续引进变量。 说明:有两钟情况,即:

F3F2时,不应剔除变量z6,并继续引进新的变量;

F3F2时,应剔除变量z6,并对lR(3)R(4)做变换,这时,还要对变量z1作剔除检验,若F3F2时,则终止剔除检验,继续引进新的变量;如F3F2时,则继续做剔除检验,直到没有不显著变量存在为止。

4 选择第四个变量 1) 引进变量

(1)确定引进变量,求算uj4,并求取maxuj4,j=2,3,4,7

2433r22 u2r2k0.15070.88690.0256

2 同理可求得:

444 u30.0600,u40.0336 0.0083,u74 由此可知maxu30.0600

(2)引进变量检验

4u30.0600 F334n5242.56 rkku30.62110.0600 因为F32.56F12.5,所以,应引进变量z3,并对R(3)进行求解求逆紧凑变换得R(4),即:lR(3)R(4),如表 所示。

1.01360.18050.00770.04390.080.04790.15220.42110.18050.00770.87720.11880.11881.410.13240.18480.25520.50360.22350.49700.20700.03750.17480.29550.04390.080.04790.15220.42110.13240.25520.22350.20700.17480.18480.50360.49700.03750.29550.700.09670.29370.01860.11950.09671.29310.17350.25000.43400.29370.17351.28280.10190.32390.01860.25000.10190.90700.16700.11950.43400.32390.16700.5611R(4) 2)剔除变量

由于z3变量刚刚引进,现只需对z1,z5,z6作检验。

(1)确定剔除变量,求算u(j4),并求取minuj4,j=1,3,5,6 。

240.42111.01360.1749 u14r1k4r112 u5(4)0.1457 ,u6(4)0.0818

由此可知,u6(4)0.0818为最小,则先对z6作剔除检验。 (2)剔除检验

4u6fu0.0818F2(4)16(4)(n5)243.499

0.5611r66f2r66(4) 因为,所以不应剔除变量z6,继续引进新的变量。 5 选择第五个变量 1) 引进变量

(1)确定引进变量,求算uj4,并求取maxuj4,j=2,4,7

2544r22r2k0.17480.87702.034 u2 82 同理可求得:

55 u40.0307 0.01,8u175 由此可知maxu20.0348 为最大,故确定引进变量z2 。

(2)引进变量检验

5u20.0348 F145n6231.52 08rkku20.56110.0348 因为F3=1.5208<F2=2.5,所以不应引进变量z2,同时表明再无显著变量可以引进,则应终止,并即可求出最优回归模型。 第三步 建立回归方程,即最优回归方程。 1、求算dj,j=1,3,5,6

根据求解求逆紧凑变换法的基本原理和方法步骤,由R4可知:

d10.4211

d0.2955

3

d0.43405d60.3239

2、求算bj,j=1,3,5,6 。 (1)求有关项

k7 1 3 5 61x7x721039.3 n12xx1115.5 n1x3x3232.76 n12xx556.768 n12xx6627.87 n x14.092,x310.9,x50.083,x67.7,x7374.9 (2)求b1 b1 b3b571039.3d10.421128.0742 115.571039.3d3(0.2955)9.3746 332.7671039.3d50.434066. 56.768b671039.3d6(0.3239)12.0786 627.87 (3)求算bo

b0yb1x1b3x3b5x5b6x6374.928.07424.072(9.374610.9)66.0.083(12.07867.7)449.6772

故求得逐步回归分析的最优回归方程为:

ˆ449.677228.0742x19.3746x366.x512.07x86 6 y 第五步 显著性检验 1、求有关项

LkkLyyyy21039.321080144.49 L1yyyx1x1 L3yyyx3x3

L5yyyx5x5 L6yyyx6x6

USk2(1rkk(4))10.329(10.56)14174.4017 65 QSk2rkk(4)1039.320.5611606069.0733 或者

QLyyU1080144.49474.4017656706.0076 39 2、求F F1Uk474075.4167/44.69 33Qnk1606069.0733242 3、求Ff,f 查表可得:

,24f1,f2FF0.42.78 05,24因为F=4.6933>F0.42.78,所以该回归方程显著,可以应用于05地理分析。

例2

根据逐步回归分析的原理和方法,现介绍其具体步骤。以表4.9

中地理数据为例。

表4.9 地理数据

序 号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 x1 x2 x3 x4 y 40 43 28 41 28 56 40 47 32 42 57 31 67 34 51 47 16 18 18 18 18 23 20 19 18 19 22 19 20 21 19 23 51 53 66 51 66 42 44 62 56 35 53 32 62 31 58 28 40 39 53 43 53 53 50 43 58 52 55 67 32 66 47 73 230 231.1 231.3 231.8 235.1 235.3 235.5 236 236.1 237.2 238 239.2 239.9 240.3 241.4 249.9 第一步 求初始相关系数矩阵R0

由表4.9中地理数据可求得初始相关系数矩阵为:

10.50860.05510.41530.30040.508610.49160.48330.6757R0=0.05510.491610.65630.4966 10.58650.41530.48330.65630.67570.49660.586510.3004

第二步 选择第一个变量

1、确定F1=F2=5,即引进与剔除变量的F检验值。

2、引进变量

(1)求uj0,即求算所有偏回归平方和uj0,并选取maxuj0者。

10.090 u10=r1k0r110r1(50)r1(10)0.30024 222 同理可求得:

0u200.45,66u30.2466,u400.3440

由此可知maxu200.4566 (2)引进变量检验

u20f10.45166F31.176 80011u2f210.456 因为F3=11.7680>F1=5,所以引进的第一个变量为z2。 (3)求算R1

R0经求解求逆紧凑变换法可求得R1为:

0.74130.50860.30510.66110.043310.49160.48330.67570.5086R1=0.30510.49160.75830.41870.14 0.25990.66110.48330.41870.760.34-0.04330.67570.140.2599 2、剔除变量

由于刚引进第一个变量,故略。 第三步 选择第二个变量 1、引进变量

(1)求算uj1,并求取maxuj1,j=1,3,4

21(1)(1)rrr0.04330.741.3002 u11r11 5k11151122 同理可求得:

u130.0356,u140.0881

由此可知maxu140.0881 (2)引进变量检验

Fu140.0883r11n31132.kku40.30.4088151 55 因为F3=2.5155<F2=5,所以再无显著变量引进,故引进变工作结束。

2、剔除变量

由于未引进变量,剔除工作也结束。 第四步 建立回归方程,即最优回归方程。 1、求算dj,j=2 由R1可知:

d20.6757

2、求算bj,j=2 (1)求有关项 1k5nx5x524.7690 12nx2x221.9029 x219.4375,x5236.7563

(2)求b2

b25d4.769020.67571.6934 21.9029 (3)求算bo

b0x5b2x2236.75631.693419.4375

203.8408

故求得逐步回归分析的最优回归方程为:

ˆ203.84081.6934x2 y 第五步 显著性检验 1、求有关项

L55x5x52363.94 L25x2x2x5x598.10 63 Ub2L251.693498.106136.163 3 QL55U36.8399146.1633129.776 6 2、求F FUk166.133211.7606

Qnk1197.76621412 3、求Ff,f 查表可得:

f1,f2,14FF01.018.86

,14 因为F=11.7606>F01.018.86,所以该回归方程显著,可以应用于

地理分析。

为了全面掌握逐步回归分析的步骤,若设F1F22.5时,则第三步选择第二个变量的引进变量检验中,因为F3=2.5155>F1=2.5,所以引进的第二个变量为z4。这样就须继续进行。

求R2

由R1经求解求逆紧凑变换法可求得R2为:

0.17100.92551.30480.92550.05610.22760.86260.63060.18090.51180.18090.22760.63060.51180.52960.630.0224 0.631.30480.33910.02240.33910.45530.05610.8626 R2 现已引进z2、z4两个变量,由于z4刚引进,故只须对z2作剔除检验,具体步骤如下: (1)求u22

ru2222522r2220.51181.30480.2008

(2)求F3

u220.2008F32n3135.73 190.4553r55 因为F3=5.7319>F2=2.5,所以z2是显著变量,不应剔除。 继续选择第三个变量,若还有显著变量引进则继续进行,具体步骤同上述,若再无有显著变量引进,则结束,即可建立回归方程,具体步骤如下: (1)求dj,j=2,4 由R2可知

d20.5118 d0.33914 (2)求算bj,j=2,4 ①求有关项

5=4.7690

21.9029 410.6360

x219.4375,x451.5,x5236.7563 ②求算bj,j=2,4

b2.7690d20.51181.2827 21.9029 b4 ③求b0

.7690d40.33910.1520 410.6360 b0x5b2x2b4x4236.75631.282719.4375 0.152051.5203.9958 故求得逐步回归分析的最优回归方程为:

ˆ203.99581.2827x20.1520x4 y 对回归方程进行显著性检验,具体步骤如下: (1)求有关项 L5536.839 9 L2598.1063 L45475.95

Ub2L25b4L451.282798.10630.1520475.9519.188 59149.1885146.751 4 QL55U36.839 (2)求F F1Uk198.18211.93 50Qnk1165.714016212 (3)求Ff,f

查表可得:

f1,f2,13FF0.2016.70

,13因为F=11.9350>F0.2016.70,所以该回归方程显著,可以应用于

地理分析。

6.5 逐步回归分析的实习指导

6.5.1 实习目的

1、巩固逐步回归分析的基本原理及方法步骤。 2、掌握逐步回归分析程序的使用方法及技巧。 3、求取最优回归方程并应用于预测等。 4、掌握逐步回归分析程序的变换应用方法。

6.5.2 实习内容

1、标识符说明 N M F1、F2 Q

样本个数 自变量数 F检验的临界值

存放选入l个自变量以后的剩余平方和

Q2存放y的剩余标准差估计值 L X(N, M+1) R(M+1, M+1) B(M) T(M)

选入自变量的个数

存放变量Xα1, Xα2, Xα3, „, Xαm+1=y的数据(α=1, 2, 3, „, N) 存放相关系数

存放回归系数b0, b1, b2, „, bl

临时存贮单元,开始时用以标记自变量是否选上,当xi未选入时T(I)=0,一旦xi选入,则T(I)存放R-1对角线元素。

Z(I) A(M+1) V(M+1)

存放回归系数显著性检验的t统计量 存放自变量xi和y的平均数 存放离差平方和的均方根SiLii1N(xixi)2(i=1, 2, 3,„,

m+1)。

U(M1) F Sa yi pyi Er Er% 2、程序

S存放各自变量和y的离差平方和均方根之比m1i=1, 2, 3, „, m。

SiF检验值 剩余标准差 原始y值 预测y值 预测误差 相对预测误差

5 REM逐步回归分析程序

10 INPUT“样本数N,自变量数M, F检验数F1, F2=”;N, M, F1, F2 15 Y=M+1

20 DIM X(N, Y), A(Y), R(Y, Y), V(Y), U(Y), T(M), Z(M), B(M), E(N) 25 FOR I=1 TO N 30 FOR J=1 TO Y 35 READ X(I, J) 40 PRINT X(I, J); 45 NEXT J 50 PRINT 55 NEXT I

57 REM 形成相关系数矩阵 60 FOR J=1 TO Y 65 T=0 70 D=0

75 FOR I=1 TO N 80 T=T+X(I, J) 85 D=D+X(I, J)*X(I, J) 90 NEXT I 95 T=T/N 100 A(J)=T

105 D=SQR(D-N*T*T) 110 V(J)=D 115 NEXT J 120 FOR I=2 TO Y 125 FOR J=1 TO I-1 130 G1=0

135 FOR K=1 TO N

140 G1=G1+(X(K, I)-A(I))*(X(K, J)-A(J)) 145 NEXT K

150 G1=G1/(V(I)*V(J)) 155 R(I, J)=G1 160 R(J, I)=G1 165 NEXT J 170 NEXT I 175 FOR I=1 TO Y 180 R(I, I)=1 185 U(I)=V(Y)/V(I) 190 NEXT I

195 PRINT“R Matrix” 200 FOR I =1 TO Y 202 FOR J=1 TO I 205 PRINT R(I, J), 208 NEXT J 209 PRINT 210 NEXT I

213 REM选因子和剔除因子的过程 215 T1=0 220 L=0 225 Q=1 230 T1=T1+1 235 V1=0 240 V2=10 245 FOR I=1 TO M 250 T(I)=0 255 D=R(I, I)

260 IF D<1E-08 THEN 315 265 W=(R(Y, I)/D)*R(I,Y) 270 IF W>0 THEN 300 275 T(I)=D

280 IF-W>=V2 THEN 315 285 V2=-W 290 I2=I 295 GOTO 315

300 IF W<=V1 THEN 315

305 V1=W 310 I1=I 315 NEXT I

320 IF T1<=2 THEN 360 325 F3=(N-L-1)*V2/Q 330 IF F3>F2 THEN 360 335 L=L-1 340 K=I2 345 K1=-K

350 PRINT“Imin=”;K1,“L=”;L 355 GOTO 390

360 IF L>=M THEN 475 362 F3=(N-L-2)*V1/(Q-V1) 365 IF F3385 PRINT“Imax=”;K1,“L=”;L 387 REM求解求逆紧凑变换 390 FOR I=1 TO Y 395 FOR J=1 TO Y 400 IF I=K THEN 420 405 IF J=K THEN 415

410 R(I, J)=R(I, J) –R(I, K)*R(K,J)/R(K, K) 415 NEXT J 420 NEXT I 425 FOR I=1 TO Y 430 IF I=K THEN 445 435 R(K, I)=R(K, I)/R(K, K) 440 R(I, K)=-R(I, K)/R(K, K) 445 NEXT I

450 R(K, K)=1/R(K, K)

ˆ 453 REM求S剩,F比, 455 Q=R(Y, Y)

460 F=(N-L-1)*(1-Q)/(L*Q) 465 Q2=SQR(Q/(N-L-1))*V(Y)

(1) 470 GOTO 230

475 PRINT“* * * * * * * * * * * * * * * * * * * * *” 480 IF L=0 THEN 500

485 PRINT“L=”;L,“F=”;F,“Sigma=”;Q2 490 GOSUB 510 495 GOTO 505

500 PRINT“Y is Independent With X” 505 END

507 REM求回归系数b0和bi 510 D=0

515 FOR I=1 TO M 520 IF T(I)<>0 THEN 0 525 B(I)=0 530 Z(I)=0 535 GOTO 560 0 D1=R(I, Y) 5 B(I)=U(I)*D1 550 D=D+B(I)*A(I)

555 Z(I)=D1/SQR(T(I)*Q/(N-L-1)) 560 NEXT I 565 B(0)=A(Y)-D 570 PRINT“b0=”,B(0) 575 PRINT“I”,“bi”,“Ti” 580 FOR I=1 TO M 585 PRINT I, B(I), Z(I) 590 NEXT I 595 E1=0 600 K2=0

605 PRINT“I”,“Yi”,“Pyi”,“Er”,“Er%” 610 FOR K=1 TO N 615 D=B(0) 620 FOR I=1 TO M 625 IF B(I)=0 THEN 635 630 D=D+B(I)*X(K, I) 635 NEXT I

0 E(K)=X(K, Y)-D 5 D1=E(K)*100/X(K, Y)

650 PRINT K, X(K, Y), D, E(K), D1 655 IF ABS(E(K))<=ABS(E1) THEN 670 660 E1=E(K) 665 K2=K 670 NEXT K

675 PRINT“Kmax=”;K2,“Ermax”;E1 680 RETURN

710 DATA 40, 16, 51, 40, 230, 43, 18, 53, 39, 231.1, 28, 18, 66, 53,231.3 720 DATA 41, 18, 51, 43, 231.8, 28, 18, 66, 53, 235.1, 56, 23,42,53,235.3, 40, 20, 44, 50, 235.5, 47, 19, 62, 43, 236

730 DATA 32, 18, 56, 58, 236.1, 42, 19, 35, 52, 237.2, 57, 22, 53, 55, 238 740 DATA 31, 19, 32, 67, 239.2, 67, 20, 62, 32, 239.9, 34, 21,31, 66,240.3 750 DATA 51, 19, 58, 47, 241.4, 47, 23,28, 73, 249.9

6.5.3 实习过程

首先进入QBASIC状态,然后输入逐步回归分析程序;接着运行程序。

运行命令操作后,屏幕显示:

样本数N,自变量数M,检验临界值F1, F2=? 于“?”后输入16, 4, 5, 5↙,即显示运行结果如下 R Matrix 1

.5084 1

.055125 -.491639 1

-.415311 .483276 -.656259 1 .300428 .675679 -.496614 .587 Imax=2 L=1

*** *** ***

L=1 F=11.761 Sigma=3.75833 b0=203.843

I bi Ti 1 0 0 2 1.69331 3.42943 3 0 4 0

I yi Pyi Er Er% 1 230 230.936 -.9386 -.406738 (以下略)

6.5.4 程序变换应用 1、准备数据

表4.10 某地相关统计数据

年份 货运量y 农业总产值x1 工业总产值x2 (万吨) (亿元) (亿元) 基建投资x3 (亿元) 1971 1972 1973 1974 1975 780.4 861.2 873.6 786.5 841.9 19.8 20.4 21.1 23.6 24.9 20.5 21.2 22.8 18.2 20.3 0.51 0.53 0. 0.45 0.63 1976 1977 1978 1979 1980 3.7 1043.3 11.1 1385.4 1578.8 26.7 28.9 31.3 35.8 38.2 21.8 25.2 30.7 36.1 44.3 0.76 0.83 1.00 1.05 1.24 2、编辑程序

(1)样本数N,自变量M,检验临界值F1、F2的值 N=10, M=3 (2)DATA语句

将DATA语句中数据均删除,重新输入所需表3.4数据,DATA语句的格式如:

710 DATA 19.8,20.5,0.51,780.4,20.4,21.2,0.53,861.2,21.1,22.8,0.,873.6 720 DATA 23.6,18.2,0.45,786.5,24.9,20.3,0.63,841.9,26.7,21.8,0.76,3.7 730 DATA 740 DATA

750 DATA

3、运行程序

运行程序,观察运行结果,并将两次运行结果作以比较。

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- dfix.cn 版权所有 湘ICP备2024080961号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务