讲义编号: 组长签字: 签字日期:
学员编号: 年 级: 高二 课时数:3 学员姓名: 辅导科目: 数学 学科教师:闫建斌 课 题 线性回归方程 2014-2-11 18:00-20:00精品文档,你值得期待 授课日期及时段 教学目标 重点、难点 线性回归方程基础 教 学 内 容 1、本周错题讲解 2、知识点梳理 1.线性回归方程 ①变量之间的两类关系:函数关系与相关关系 ②制作散点图,判断线性相关关系 ③线性回归方程:ybxa(最小二乘法) 最小二乘法:求回归直线,使得样本数据的点到它的距离的平方最小的方法 nxiyinxyi1bn2 注意:线性回归直线经过定点(x,y) 2xnxii1aybx2.相关系数(判定两个变量线性相关性):r(xi1nix)(yiy)n(xi1n ix)2(yiy)2i1注:⑴r>0时,变量x,y正相关;r <0时,变量x,y负相关; ⑵①|r| 越接近于1,两个变量的线性相关性越强; ②|r| 接近于0时,两个变量之间几乎不存在线性相关关系。 3.线形回归模型: ⑴随机误差e:我们把线性回归模型ybxae,其中a,b为模型的未知参数,e称为随机误差。 随机误差eiyibxia ˆxaˆbˆ中的yˆ估计bxa,随机误差ey(bxa),所以eˆyyˆ是e的估计量,ˆ:我们用回归方程y⑵残差eˆxaˆiyiyˆiyibˆ,eˆ称为相应于点(xi,yi)的残差。 故ei⑶回归效果判定-----相关指数(解释变量对于预报变量的贡献率) R12ˆ)(yyiin2(yy)iii1i1n 2(R的表达式中(yiy)确定) 2i1n2注:①R得知越大,说明残差平方和越小,则模型拟合效果越好; ②R越接近于1,,则回归效果越好。 4.性检验(分类变量关系): (1)分类变量:这种变量的不同“值”表示个体所属的不同类别的变量。 (2)列联表:列出两个分类变量的频数表,称为列联表。 22n(adbc)2(3)对于22列联表:K的观测值k。 (ab)(cd)(ac)(bd)2(4)临界值k0表: P(k2k0) k0 如果kk0,就推断“X,Y有关系”,这种推断犯错误的概率不超过;否则,在样本数据中没有发现足够证据支持结论“X,Y有关系”。 (5)反证法与性检验原理的比较: 反证法原理 在假设H0下,如果推出矛盾,就证明了H0不成立。 性检 验原理 在假设H0下,如果出现一个与H0相矛盾的小概率事件,就推断H0不成立,且该推断犯错误的概率不超过这个小概率。 典型例题 1.(2011·山东)某产品的广告费用x与销售额y的统计数据如下表: 广告费用x/万元 销售额y/万元 4 49 2 26 3 39 5 ^^^^根据上表可得回归方程y=bx+a中的b为,据此模型预报广告费用为6万元时销售额为 ( ). A.万元 B.万元 C.万元 D.万元 -4+2+3+57-49+26+39+解析 ∵x==,y==42, 4247^^^--^^又y=bx+a必过(x,y),∴42=×+a,∴a=. 2^∴线性回归方程为y=+. ^∴当x=6时,y=×6+=(万元). 答案 B 2.(2011·江西)为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下: 父亲身高x/cm 儿子身高y/cm 174 175 176 175 176 176 176 177 178 177 则y对x的线性回归方程为 ( ). =x-1 =x+1 1=88+x =176 2-174+176+176+176+178解析 因为x==176, 5-y=175+175+176+177+177=176, 5--又y对x的线性回归方程表示的直线恒过点(x,y), 所以将(176,176)代入A、B、C、D中检验知选C. 答案 C 3.(2011·陕西)设(x1,y1),(x2,y2),…,(xn,yn)是变量x和y的是由这些样本点通过最小二乘法得到的线性回归直线(如图),以( ). A.x和y的相关系数为直线l的斜率 B.x和y的相关系数在0到1之间 C.当n为偶数时,分布在l两侧的样本点的个数一定相同 --D.直线l过点(x,y) 解析 因为相关系数是表示两个变量是否具有线性相关关系的一个值,它的 绝对值越接近1,两个变量的线性相关程度越强,所以A、B错误.C中n 为偶数时,分布在l两侧的样本点的个数可以不相同,所以C错误.根据回 归直线方程一定经过样本中心点可知D正确,所以选D. 答案 D 4.(2011·广东)为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:小时)与当天投篮命中率y之间的关系: 时间x 命中率y 1 2 3 4 5 n个样本点,直线l下结论中正确的是小李这5天的平均投篮命中率为________;用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为________. 解析 小李这5天的平均投篮命中率 -y=错误!=, -^^可求得小李这5天的平均打篮球时间x=3.根据表中数据可求得b=,a= ^,故回归直线方程为y=+,将x=6代入得6号打6小时篮球的 投篮命中率约为. 答案 5.(2011·辽宁)调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:y=+.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元. 解析 由题意知[(x+1)+]-+=. 答案 6.(2011·安徽)某地最近十年粮食需求量逐年上升,下表是部分统计数据: 年份 需求量(万吨) 2002 236 2004 246 2006 257 2008 276 2010 286 ^^^^(1)利用所给数据求年需求量与年份之间的回归直线方程y=bx+a; (2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量. 解 (1)由所给数据看出,年需求量与年份之间是近似直线上升的,下面求回归直线方程.为此对数据预处理如下: 年份-2006 需求量-257 -4 -21 -2 -11 0 0 2 19 4 29 --对预处理后的数据,容易算得x=0,y=. ^b==-4×-21+-2×-11+2×19+4×29-5×0× 22222-4+-2+2+4-5×0260^--=,a=y-bx=3. 40由上述计算结果,知所求回归直线方程为 ^y-257=b(x-2 006)+a=(x-2 006)+, ^即y=(x-2 006)+. ① ^^(2)利用直线方程①,可预测2012年的粮食需求量为 6.5×(2012-2006)+=×6+=(万吨). 课堂练习 1.实验测得四组(x,y)的值为(1,2),(2,3),(3,4),(4,5),则y与x之间的回归直线方程为( ) =x+1 =x+2 =2x+1 =x-1 2.在比较两个模型的拟合效果时,甲、乙两个模型的相关指数R2的值分别约为和,则拟合效果好的模型是( ) A.甲 B.乙 C.甲、乙相同 D.不确定 3.某化工厂为预测产品的回收率y,需要研究它和原料有效成分含量x之间的相关关系,现取8对88828观测值,计算,得∑i xi=52,∑i yi=228,∑i xi=478,∑i xiyi=1849,则其线性回归方程为( ) =1=1=1=1=+ =-+ =+ =- 4.下表是某厂1~4月份用水量(单位:百吨)的一组数据: 月份x 用水量y 1 2 4 3 3 4 ^由散点图可知,用水量y与月份x之间有较好的线性相关关系,其线性回归直线方程是y=-+a,则a等于______. 5.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下: 零件的个数x(个) 加工的时间y(小时) (1)在给定的坐标系中画出表中数据的散点图; 2 3 3 4 4 5 ^ (2)求出y关于x的线性回归方程y=bx+a,并在坐标系中画出回归直线; (3)试预测加工10个零件需要多少小时 课后练习 一、选择题 1.实验测得四组(x,y)的值为(1,2),(2,3),(3,4),(4,5),则y与x之间的回归直线方程为( ) =x+1 =x+2 =2x+1 =x-1 答案 A ^解析 画出散点图,四点都在直线y=x+1. 2.下列有关样本相关系数的说法不正确的是( ) A.相关系数用来衡量变量x与y之间的线性相关程度 B.|r|≤1,且|r|越接近于1,相关程度越大 C.|r|≤1,且|r|越接近0,相关程度越小 D.|r|≥1,且|r|越接近1,相关程度越小 答案 D ^3.由一组样本(x1,y1),(x2,y2),…,(xn,yn)得到的回归直线方程y=a+bx,下面有四种关于回归直线方程的论述: ^(1)直线y=a+bx 至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点; n^(2)直线y=a+bx的斜率是∑i xiyi-n x y=1n; ∑i xi-nx=1^22(3)直线y=a+bx必过(x,y)点; 2(4)直线y=a+bx和各点(x1,y1),(x2,y2),…,(xn,yn)的偏差∑i (yi-a-bxi)是该坐标=1^n平面上所有的直线与这些点的偏差中最小的直线. 其中正确的论述有( ) A.0个 B.1个 C.2个 D.3个 答案 D 解析 线性回归直线不一定过点(x1,y1),(x2,y2),…,(xn,yn)中的任何一点;b=n∑i xiyi-n x y=1n就是线性回归直线的斜率,也就是回归系数;线性回归直线过点(x,y);线∑i xi-n x=1222性回归直线是平面上所有直线中偏差∑i (yi-a-bxi)取得最小的那一条.故有三种论述是正确=1n的,选D. 4.设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的斜率是b,纵截距是a,那么必有( ) A.b与r的符号相同 B.a与r的符号相同 C.b与r的符号相反 D.a与r的符号相反 答案 A 5.在比较两个模型的拟合效果时,甲、乙两个模型的相关指数R的值分别约为和,则拟合效果好的模型是( ) A.甲 B.乙 C.甲、乙相同 D.不确定 答案 A 6.某化工厂为预测产品的回收率y,需要研究它和原料有效成分含量x之间的相关关系,现取2888288对观测值,计算,得∑i xi=52,∑i yi=228,∑i xi=478,∑i xiyi=1849,则其线性回归方=1=1=1=1程为( ) =+ =-+ =+ =- 答案 A ^解析 利用回归系数公式计算可得a=,b=,故y=+. 二、填空题 7.下表是某厂1~4月份用水量(单位:百吨)的一组数据: 月份x 用水量y 1 2 4 3 3 4 ^由散点图可知,用水量y与月份x之间有较好的线性相关关系,其线性回归直线方程是y=-+a,则a等于______. 解析 x=,y=,∵回归直线方程过定点(x,y),∴=-×+a. ∴a=. 8.某服装商场为了了解毛衣的月销售量y(件)与月平均气温x(℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表: 月平均气温x(℃) 月销售量y(件) ^17 24 13 33 8 40 2 55 由表中数据算出线性回归方程y=bx+a中的b≈-2,气象部门预测下个月的平均气温约为6℃,据此估计,该商场下个月毛衣的销售量约为________件. nxiyi-n x yi=1(参考公式:b=n,a=y-b x) xi-n x22i=1答案 46 解析 由所提供数据可计算得出x=10,y=38,又b≈-2代入公式a=y-b x可得a=^58,即线性回归方程y=-2x+58,将x=6代入可得. 9.对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示: 又发作过 心脏搭桥手术 血管清障手术 合计 试根据上述数据计算K2=________. 比较这两种手术对病人又发作心脏病的影响有没有差别.________. 392×39×167-29×157答案 68×324×196×1962未发作过 合计 心脏病 157 167 324 196 196 392 心脏病 39 29 68 ≈ 不能作出这两种手术对病人又发作心脏病的影响有差别的结论 解析 提出假设H0:两种手术对病人又发作心脏病的影响没有差别. 392×39×167-29×157根据列联表中的数据,可以求得K=68×324×196×19622≈. 当H0成立时K2≈,而K2<的概率为.所以,不能否定假设H0.也就是不能作出这两种手术对病人又发作心脏病的影响有差别的结论. 三、解答题 10.某农科所对冬季昼夜温差大小与某反季大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了2010年12月1日至12月5日的每天昼夜温差与实验室每天每100颗种子中的发芽数,得到如下表: 日期 温差x(℃) 发芽数y(颗) 12月1日 12月2日 12月3日 12月4日 12月5日 10 23 11 25 13 30 12 26 8 16 该农科所确定的研究方案是:先从这五组数据中选取2组,用剩下的3组数据求线性回归方程,再对被选取的2组数据进行检验. (1)求选取的2组数据恰好是不相邻的2天数据的概率; (2)若选取的是12月1日与12月5日的两组数据,请根据12月2日至12月4日的数据,求^出y关于x的线性回归方程y=bx+a; (3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得到的线性回归方程是否可靠 解析 (1)设抽到不相邻的两组数据为事件A,因为从5组数据中选取2组数据共有10种情况:(1,2),(1,3),(1,4),(1,5),(2,3),(2,4),(2,5),(3,4),(3,5),(4,5)其中数据为12月份的日期数. 每种情况都是可能出现的,事件A包括的基本事件有6种: 所以P(A)=633=.所以选取的2组数据恰好是不相邻2天数据的概率是. 1055(2)由数据,求得x=12,y=27. 5由公式,求得b=,a=y-b x=-3. 25所以y关于x的线性回归方程为y=x-3. 2^5(3)当x=10,y=×10-3=22,|22-23|<2; 2^5同样,当x=8时,y=×8-3=17,|17-16|<2; 2^所以,该研究所得到的回归方程是可靠的. 11.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下: 零件的个数x(个) 加工的时间y(小时) (1)在给定的坐标系中画出表中数据的散点图; 2 3 3 4 4 5 ^ (2)求出y关于x的线性回归方程y=bx+a,并在坐标系中画出回归直线; (3)试预测加工10个零件需要多少小时 n∑i xiyi-n x y=1(注:b=n,a=y-b x) 22∑i xi-n x=1解析 (1)散点图如图. 4 (2)由表中数据得:∑i xiyi=, =142x=,y=,∑i xi=, =1∴b=, ∴a=, ^ ∴y=+. 回归直线如图所示. ^(3)将x=10代入回归直线方程,得y=×10+=(小时 ). ∴预测加工10个零件需要小时. 12.(2010·辽宁卷)为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B. 下表1和表2分别是注射药物A和B后的试验结果.(疱疹面积单位:mm2) 表1:注射药物A后皮肤疱疹面积的频数分布表 疱疹面积 频数 [60,65) 30 [65,70) 40 [70,75) 20 [75,80) 10 表2:注射药物B后皮肤疱疹面积的频数分布表 疱疹面积 频数 [60,65) 10 [65,70) 25 [70,75) 20 [75,80) 30 [80,85) 15 (ⅰ)完成下面频率分布直方图,并比较注射两种药物后疱疹面积的中位数大小; (ⅱ)完成下面2×2列联表,并回答能否有% 的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”. 表3: 于70 mm2 于70 mm2 注射药物A 注射药物B 合计n= 附:K=2疱疹面积小 疱疹面积不小 合计 a= c= b= d= a+bnad-bc2c+da+cb+d 解析 (ⅰ) 可以看出注射药物A后的疱疹面积的中位数在65至70之间,而注射药物B后的疱疹面积的中位数在70至75之间,,所以注射药物A后疱疹面积的中位数小于注射药物B后疱疹面积的中位数. (ⅱ)表3: 于70 mm2 于70 mm2 注射药物A 注射药物B 合计 200×70×65-35×30K2=100×100×105×952疱疹面积小 疱疹面积不小 合计 100 100 a=70 c=35 105 b=30 d=65 95 n=200 ≈. 由于K2>,所以有%的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”. X
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- dfix.cn 版权所有 湘ICP备2024080961号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务