篇一:相关与回归分析实验报告心得感悟
《应用回归分析》自相关性的诊断及处理实验报告
实验名称:
自相关性的诊断及处理
实验目的:
1.
掌握自相关产生的原因以及给模型带来的影响
2.
掌握自相关性的诊断及处理方法
3.
掌握SPSS软件的操作方法
实验设备与环境:计算机,SPSS22.0等。
一、实验内容:
某乐队经理研究其乐队CD光盘的销售额(y),两个有关的影响变量是每周演出次数x1和乐队网站的周点击率x2,数据见xt4.14。
1.用普通最小二乘法建立y与x1和x2的回归方程,用残差图和DW检验诊断序列的自相关性;
2.用迭代法处理序列相关,并建立回归方程;
3.用一阶差分法处理序列相关,并建立回归方程;
4.比较以上两种方法所建立的回归方程的优良性。
二、实验步骤:(只需关键步骤)
1、第一步:依次选择【分析】——【回归】——【线性】命令
第二步:点击【保存】——点击残差下的未标准化
第三步:【图形】——【旧对话框】——【散点】
—
1—
第四步:
以残差为y轴周次为x轴
画散点图
2、—
2—
以新变量yy为因变量,x12,x11为自变量
3、第一步:计算差分
第二步:过原点的最小二乘回归
—
3—
三、实验结果分析:(提供关键结果截图和分析)
1.用普通最小二乘法建立y与x1和x2的回归方程,用残差图和DW检验诊断序列的自相关性;
—
4—
由图可知回归方程为y=190.098x1+2.045x2-574.062、从残差图可以看到残差有自相关趋势
从输出结果中可以看到DW=0.745,查DW表,n=52,k=3,显著性水平α=0.05得DL=1.46,Du=1.63.由DW<1.26,也说明残差序列存在正的自相关。自相关系ρ=1-1/2DW=1-1/2x0.745=0.6275,也说明误差项存在高度的自相关性。
—
5—
2.用迭代法处理序列相关,并建立回归方程;
从结果中看到新回归残差的DW=1.716,查DW表,n=51,k=3,显著性水平α=0.05,得dL=1.46,dU=1.63由此可知dU 则新的回归方程为yy=211.110xx1+1.436xx2-178.775修正后DW=1.716,所以误差之间没有自相关性 3.用一阶差分法处理序列相关,并建立回归方程; — 6— 从结果中看到新回归残差的DW=040,查DW表,n=51,k=3,且α=0.01得dL=1.28,dU=1.45,由此可得dU 新的方程为y1=210.15△x1y2=1.397△x2修正后DW=2.047,DW落入无自相关性区域,说明残差序列无自相关性 4.比较以上两种方法所建立的回归方程的优良性。 一阶差分法适合处理=1的情况,用差分法而不选用迭代法的原因为: 迭代法需要根据样本估计,结果的估计误差会影响效率而差分法更简单。 差分法都是上下互减的形式,只不过以各自变量的增量替代原有变量y和变量x,进行回归模拟。 四、实验总结:(包括心得体会、问题回答及实验改进意见,可附页) 这次实验我们学习到了用迭代法和一阶差分法来了解方程的自相关性。并且了解到这两种方法的差别和优缺点,什么样的题目用什么样的方法会提高结果的精确度,减小误差。 — 7— 《应用回归分析 》---多元线性回归分析实验报告 实验名称: 多元线性回归分析 实验目的: 1. 掌握多元线性回归分析的基本思想 2. 掌握多元线性回归分析的SPSS操作 3. 读懂分析结果,并写出回归方程 4. 对回归方程进行方差分析、显著性检验等各种统计检验 实验设备与环境:计算机,SPSS22.0等。 一、实验内容: 为研究体重和体内脂肪比重对腰围的影响,随机收集了20个观测数据,具体数据为“腰围和体重.sav”,利用一般线性回归分析方法进行研究,完成以下任务: 1.计算出增广的样本相关矩阵; 2.给出回归方程; 3.对所得回归方程做拟合优度检验; 4.对回归方程做显著性检验; 5.对回归系数做显著性检验; 6.结合回归方程对该问题做一些基本分析. 二、实验步骤: 1、计算出增广的样本相关矩阵 2、给出回归方程 Y=-65.074+2.689*腰围+(-0.078*体重) 3、对所得回归方程做拟合优度检验 4、对回归方程做显著性检验 5、对回归系数做显著性检验 三、实验结果分析: 1、计算出增广的样本相关矩阵 相关矩阵 2、给出回归方程 回归方程:Y=-65.074+2.689*腰围+(-0.078*体重) 3、对所得回归方程做拟合优度检验 由表可知x与y的决定性系数为r2=0.800,说明模型的你和效果一般,x与y线性相关系数为R=0.894,说明x与y有较显著的线性关系,当F=33.931,显著性Sig.p=0.000,说明回归方程显著 4、对回归方程做显著性检验 5、对回归系数做显著性检验 Beta的t检验统计量t=-6.254,对应p的值接近0,说明体重和体内脂肪比重对腰围数据有显著影响 6、结合回归方程对该问题做一些基本分析 从上面的分析过程中可以看出腰围和脂肪比重以及腰围和体重的相关性都是很大的,通过检验可以看出回归方程、回归系数也很显著。其次可以观察到腰围、脂肪比重、体重的数据都是服从正态分布的。 四、实验总结: 通过这次实验,我对SPSS这个软件有了更多的了解,对数据的分析有了更多方面的分析。因此在实验过程中我受易非浅:它让我深刻体会了对数据分析步骤的重要性。在这次实验中,我学到很多东西,加强了我的动手潜质,并且培养了我的独立思考潜质。在做实验报告时,正因在做数据处理时出现很多问题,如果不解决的话,将会很难的继续下去。还有动手这次实验,使应用回归这门课的一-些理论知识与实践相结合,更加深刻了我对测试技术这门]课的认识,巩固了我的理论知识。篇二:相关与回归分析实验报告心得感悟
篇三:相关与回归分析实验报告心得感悟
中国计量学院现代科技学院
实验报告
实验课程:应用统计学实验名称:回归分析
班级:学号:
姓名:实验日期:
实验成绩:指导教师签名:仅供个人学习参考
一.实验目的一元线性回归简单地说是涉及一个自变量的回归分析,主要功能是处理两个变量之间的线性关系,建立线性数学模型并进行评价预测。本实验要求掌握一元线性回归的求解和多元线性回归理论与方法。
二.实验环境
中国计量学院现代科技学院机房310三.实验步骤与内容
1打开应用统计学实验指导书,新建excel表
供水管全年供道长度水总量(公里)
(万平方米)
北京
15896128823天津
682264537河北
10771.2160132山西
5669.377525内蒙古
5635.559276辽宁
21999280510吉林
6384.9159570黑龙江
9065.9153387上海
22098.8308309江苏
36632.4380395浙江
24126.9235535安徽
7389.4204128福建
6270.4118512江西
5094.7143240山东
26073.9259782河南
11405.6185092湖北
15668.6257787湖南
9341.8262691广东
35728.8568949广西
6923.1134412海南
1726.720241重庆
6082.771077四川
12251.3165632贵州
3275.345198云南
5208.552742西藏
364.95363仅供个人学习参考
地区
陕西
甘肃
青海
宁夏
新疆
427073580501062127893143901538.2229213670.2766852.打开SPSS,将数据导入
3.打开分析,选择回归分析再选择线性
因变量选全年供水总量,自变量选供水管道长度
统计里回归系数选估计,再选择模型拟合
按继续再按确定会出来分析的结果
对以上结果进行分析:
(1)回归方程为:y=28484.712+11.610X(X是自变量供水管道长度,Y是因变量全年供水总量)
(2)检验
1)拟合效果检验
根据表2可知,R2=0.819,即拟合效果好,线性成立。
2)回归方程检验
根据表三可知,Sig=0.000<0.005,所以回归方程显着
3)系数
Sig=0.000<0.005,所以通过。
综上所述,该回归方程成立。
四.实验体会:
通过本次实验,我学会了如何使用SPSS对数据进行回归分析,以及知道如何对实验结果进行分析。R是自变量与因变量的相关系数。R2就是回归分析的决定系数,说明自变量和因变量形成的散点与回归曲线的接近程度,数值介于0和1之间,这个数值越大说明回归的越好。Sig值是回归关系的显着性系数,当他<=0.05的时候,说明回归关系具有统计学支持。如果它>0.05,说明二者之间用当前模型进行回归没有统计学支持,应该换一个模型来进行回归。我觉得相对于Excel而言,SPSS更具专业性,对数据的分析更准确。以后应更习惯使用SPSS来分析各种数据。仅供个人学习参考
仅供个人学习参考
仅供个人学习参考
篇四:相关与回归分析实验报告心得感悟
线性回归分析实验报告总结
实验名称
线性回归分析
实验目的1、通过实验掌握线性回归模型拟合及参数估计
2、获得处理统计推断与预测的能力
3、学会残差分析、掌握Box-Cox变换的方法
4、学会最优回归方程的选取
5、进一步熟悉SAS的应用
二、用文字或图表记录实验过程和结果
解:
sas程序为:
datatwo_4;
inputyx1x2;
CARDS;
......(省略了数据)
;
RUN;
PROCREGDATA=two_4;
modely=x1x2/I;
OUTPUTOUT=aP=PREDICTEDR=RESIDUALH=HSTUDENT=STUDENT;
RUN;
PROCCAPABILITYDATA=aGRAPHICS;
QQPLOT;
RUN;
PROCGPLOTDATA=a;
PLOTRESIDUAL*PREDICTEDRESIDUAL*x1RESIDUAL*x2;
SYMBOLVALUE=DOTI=NONE;
RUN;
PROCIML;
N=15;
USEtwo_4;
READALLVAR{yx1x2}INTOM;
X=M[,2]#M[,3];
X2=M[,3];
Y=M[,1];
P=Y||X||X2;
CREATERESOLVEVAR{YXX2};
APPENDFROMP;
QUIT;
PROCREGDATA=RESOLVE;
MODELY=XX2;
RUN;
PROCPRINT;
RUN;(1)<表一>参数估计的sas输出结果为:
ParameterEstimates
Parameter
Standard
Variable
DF
Estimate
Error
tValue
Pr>|t|
Intercept
x1<.0001x2<.0001分析:参数?0、?1、?2的估计值为、、误差方差?的估计值?=MSE=,2?由此输出结果得到回归方程为:Y=++从参数估计的sas输出结果中的最后一列p值可知,该城市中适合使用该化妆品的人数X1以及他们的与收入X2对化妆品在该城市的月销售量Y有显著影响,当适合使用该化妆品人的收入X2固定时,该城市中适合使用该化妆品的人数X1每增加一人,此化妆品的月销售量将增加个单位;同理当该城市中适合使用该化妆品的人数X1固定时,他们的收入X2增加一单位时,月销售量增加个单位;
(2)<表二>插入方差分析表:
AnalysisofVariance
Sumof
Mean
Source
DF
Squares
Square
FValue
Pr>F
Model
5384526922<.0001Error
12CorrectedTotal
1453902分析:线性回归关系显著性检验:统计量的观测值F0=检验的p值p0=PH0(F>=F0)<。并且在方差分析表中,还输出了R2,即R2=SSR/SST=53845/53902=其中R2值接近于1.,这些结果说明了Y与X1,X2之间的线性回归关系是显著的。
(3)?=,由于t1??(n-p)=(12)=,利用<表一>中参数估计值可求得2??0、?1、?2的置信度为95%的置信区间为分别为:
?0:+*即,?1:+*即(,)
?2:+*即(,)
(4)
参数估计的sas输出结果为:
ParameterEstimates
Parameter
Standard
Variable
DF
Estimate
Error
tValue
Pr>|t|
Intercept
x1<.0001x2<.0001分析:从表中的数据可知P01以及P02的值均小于,所以拒绝H0,接受H1,就是说,X1X2对Y变化的影响都是显著的。
为检验交叉X1X2交叉项对Y的综合影响,我们设计全模型为:Y??0??1X1??2X2??3X1X2,通过SAS程序以及观测数据可以得到对于全模型的方差分析表为:
AnalysisofVariance
Sumof
Mean
Source
DF
Squares
Square
FValue
Pr>F
Model
522942614<.0001Error
12CorrectedTotal
1453902由表中的数据可知:SSE(F)=;fF=15-4=11,而从第(1)问可知SSE(R)=;fR=15-3=12;所以检验统计量观测值F0=[()/1]/[11]=
(5)对于给定的X1、X2的值为(X01,X02)=(220,2500),由回归方程Y=++得到销售量Y的预测值为
从procreg过程得到矩阵(XTX)-1为:
令X0=(220,2500)T,因为MSE=,利用sas系统中prociml过程计算可得
X0inv(XTX)X0为;所以有:
TT-1MSE[1+x(0xx)x0]=?4.74030[1+1.1419E23]=所以y0的置信度为95%的置信区间为:
TT-1y0+(12)*MSE[1+x(xx)x0]=即(,135.)其中IML过程为:
0?DATAEAX;
PROCIML;
X0={1,220,2500};
X={
,
,
};
A=inv(X`*X);
BETA=X0`*A*X0;
RUN;
PRINTBETA;
(6)通过procreg过程输出了学生化残差,并且同时输出了因变量
Y的拟合值Yi,残差?和杠杆量h。结果如下:
<表三>
Obs
y
x1x2PREDICTED
RESIDUAL
STUDENT
H
16227424512183254223375380213120528368623416265378281930019233245116195213555325611252434021223237244213144236266141031520815212372605分析:
正态性的频率检验:通过表中显示的数据,可知学生化残差(STUDENT列)中有落入(-1,1)区间的有9/15=即60%;落入(,)区间的有13/15=即%;落入()区间内的有15/15=1即100%。所以,学生化残差落在上述各区间内的频率与标准正态分布的相应概率相差不大,因此,模型误差项符合服从正态分布的假定。
正态QQ图检验:通过SAS系统中capacity过程可以直接做出正态QQ图,对于<表三>中求得的学生化残差,其正态QQ图如图所示:
2Stude1ntizedResid-1ual-2-2.0-1.5-1.0-0.50.0NormalQuantiles0.51.01.52.由图可知,图中的点大致在一条直线上,因此说明题中线性回归模型中误差项正态分布的假定是合理的。
残差图分析:通过SAS系统的precgplot过程分别输出了残差与Y拟合值、残差与自变量X1,残差与自变量X1的残差图,如下图:
Residual43210-1-2-3-40100PredictedValueofy20030Residual43210-1-2-3-40100200x130040050Residual43210-1-2-3-420003000x24000500由图可知:(1)在以因变量y为横坐标的残差图中,图中个点大致在一个水平的带状区域内,而且,没有呈现出明显的趋势,说明了因变量拟合值向量与残差向量不相关,也就是说Y与?相互独立,此时,认为假设是合理的;(2)在以自变量X1、X1量为横坐标的残差图中,残差没有随自变量变化而变化的趋势,说明了假设是合理的。
2.6解:
SAS源程序为:
DATAtwo_6;
INPUTx1x2y@@;
CARDS;
......
;
PROCREGDATA=two_6;
MODELy=x1x2;
OUTPUTOUT=bP=PREDICTEDR=RESIDUALH=HSTUDENT=STUDENT;
PROCCAPABILITYDATA=bGRAPHICS;
QQPLOT;
RUN;
PROCGPLOTDATA=b;
PLOTRESIDUAL*PREDICTEDRESIDUAL*x1RESIDUAL*x2;
SYMBOLV=DOTI=NONE;
RUN;
PROCIML;
N=31;PI=1;
USEtwo_6;
READALLVAR{x1x2y}INTOM;
Y=M[,3];
X=J(N,1,1)||M[,1:2];
A=X*INV(X`*X)*X`;
DOI=1toN;
PI=PI#M[I,3];
END;
TEMP=PI##(1/N);
DOLAMDA=to
by;
Z=(Y##LAMDA-J(N,1,1))/(LAMDA#(TEMP##(LAMDA-1)));
SSE=Z`*(I(N)-A)*Z;
LAS=LAS3Stud2enti1zed
R0esidu-1al-2-3-2-10NormalQuantiles123Residual876543210-1-2-3-4-5-6-7010203040506070PredictedValueofyResidual876543210-1-2-3-4-5-6-7891011121314x115161718192021Residual876543210-1-2-3-4-5-6-76070x28090?,z??z???z?z??
32Studentized
Residual10-1-2-3-2-10NormalQuantiles123Residual0.40.30.20.10.0-0.1-0.2-0.3-0.4-0.5345678910PredictedValueofZ
Residual0.40.30.20.10.0-0.1-0.2-0.3-0.4-0.5891011121314X115161718192021Residual0.40.30.20.10.0-0.1-0.2-0.3-0.4-0.56070X28090?....(省略了数据)
?;
PROCIML;
N=31;
USEtwo_6;
READALLVAR{x1x2y}INTOM;
X1=M[,1]#M[,1];
X2=M[,2];
Y=M[,3];
P=X1||X2||Y;
CREATERESOLVEVAR{X1X2Y};
APPENDFROMP;
QUIT;
PROCREGDATA=RESOLVE;
MODELY=X1X2;
OUTPUTOUT=bP=PREDICTEDR=RESIDUALH=HSTUDENT=STUDENT;
RUN;
PROCCAPABILITYDATA=bGRAPHICS;
QQPLOT;
RUN;
PROCGPLOTDATA=b;
PLOTRESIDUAL*PREDICTEDRESIDUAL*X1RESIDUAL*X2;
SYMBOLV=DOTI=NONE;
RUN;
PROCPRINT;
RUN;
通过SAS输出有关残差的结果如下:
Obs
X1X2Y
PREDICTED
RESIDUAL
STUDENT
H
7656372818366758751171276137614615751674185186171264217228237424722572681282282838318分析:
正态性的频率检验:
1、通过表中显示的数据,可知学生化残差(STUDENT列)中有落入(-1,1)区间的有18/31=即%;落入(,)区间的有28/31=即%;落入()区间内的有31/31=1=100%。所以,学生化残差落在上述各区间内的频率与标准正态分布的相应概率相近,因此,从正态性频率检验可以知道模型误差项符合服从正态分布的假定。
2、与上一题未作变换钱相比较落入(-1,1)区间的数据个数没有改变,但落入(,)区间以及()区间内的数据个数有了明显的改善,由此可知,此模型拟合的更好。
正态QQ图检验:通过SAS系统中capacity过程可以直接做出正态QQ图,对于<表三>中求得的学生化残差,其正态QQ图如图所示:
1.51.0Studentized
Residual0.50.0-0.5-1.0-1.5-2.0-3-2-10NormalQuantiles123由学生化残差的正态QQ图可知,图中的线性关系并不是很好,有一些点偏离了直线,由此说明题中线性回归模型中误差项正态分布的假定是基本上是合理的。
残差图分析:通过SAS系统的precgplot过程分别输出了残差与Y拟合值、残差与自变量X1,残差与自变量X1的残差图,如下图:
Residual43210-1-2-3-4-5010203040PredictedValueofY5060708Residual43210-1-2-3-4-50100200X130040050Residual43210-1-2-3-4-56070X2809由图可知:
1、(1)在以因变量y为横坐标的残差图中,图形大致形成了一个U型,但并不是很明显,说明回归函数是非线性的,可能需要引进某个或者某些自变量的二次项或者交叉乘积;(2)在以自变量X1、X2量为横坐标的残差图中,根据图形的显示,说明了回归函数关于基本X2基本上呈现线性,但是图像中显示的残差与X1可能不是线性的,有可能要引进X1的平方项或者交叉项,由此说明了此模型拟合的效果是不错的。
2、与上题对比可知:在本题中拟合的模型的效果要由于上题变换前的模型效果。
解:
SAS源程序为:
DATAtwo_9;
INPUTX1X2X3Y@@;
CARDS;
......
;
PROCREGDATA=two_9;
MODELY=X1X2X3;
OUTPUTOUT=bP=PREDICTEDR=RESIDUALH=HSTUDENT=STUDENT;
PROCCAPABILITYDATA=bGRAPHICS;
QQPLOT;
RUN;
PROCGPLOTDATA=b;
PLOTRESIDUAL*PREDICTEDRESIDUAL*X1RESIDUAL*X2RESIDUAL*X3;
SYMBOLV=DOTI=NONE;
RUN;
PROCREGDATA=two_9;
MODELY=X1X2X3/SELECTION=ADJRSQ;
RUN;
PROCREGDATA=two_9;
MODELY=X1X2X3/SELECTION=CP;
RUN;
PROCREGDATA=two_9;
MODELY=X1;
OUTPUTOUT=a1PRESS=PRESS;
RUN;
PROCMEANSUSSDATA=a1;
VARPRESS;
RUN;
PROCREGDATA=a1;
MODELY=X1X2;
RUN;
PROCREGDATA=two_9;
MODELY=X2;
OUTPUTOUT=a2PRESS=PRESS;
RUN;
PROCMEANSUSSDATA=a2;
VARPRESS;
RUN;
PROCREGDATA=two_9;
MODELY=X3;
OUTPUTOUT=a3PRESS=PRESS;
RUN;
PROCMEANSUSSDATA=a3;
VARPRESS;
RUN;
PROCREGDATA=two_9;
MODELY=X1X2;
OUTPUTOUT=a4PRESS=PRESSP=PREDICTEDR=RESIDUALH=HSTUDENT=STUDENT;
PROCCAPABILITYDATA=a4GRAPHICS;
QQPLOT;
RUN;
PROCGPLOTDATA=a4;
PLOTRESIDUAL*PREDICTEDRESIDUAL*X1RESIDUAL*X2;
SYMBOLV=DOTI=NONE;
RUN;
RUN;
PROCMEANSUSSDATA=a4;
VARPRESS;
RUN;
PROCREGDATA=two_9;
MODELY=X1X3;
OUTPUTOUT=a5PRESS=PRESS;
RUN;
PROCMEANSUSSDATA=a5;
VARPRESS;
RUN;
PROCREGDATA=two_9;
MODELY=X2X3;
OUTPUTOUT=a6PRESS=PRESS;
RUN;
PROCMEANSUSSDATA=a6;
VARPRESS;
RUN;
PROCREGDATA=two_9;
MODELY=X1X2X3;
OUTPUTOUT=a7PRESS=PRESS;
RUN;
PROCMEANSUSSDATA=a7;
VARPRESS;
RUN;
PROCREGDATA=two_9;
MODELY=X1X2X3/SELECTION=STEPWISESLENTRY=SLSTAY=;
RUN;
PROCPRINT;
RUN;
通过SAS输出有关残差的结果如下:
Obs
X1X2X3Y
PREDICTED
RESIDUAL
STUDENT
H
5514364654466414472438454364254645454526226257112481243536133554143451511553545163646613356712468133462555142125272244552234356分析:
正态性的频率检验:
通过表中显示的数据,可知学生化残差(STUDENT列)中有落入(-1,1)区间的有13/23=即%;落入(,)区间的有20/23=即%;落入()区间内的有23/23=1=100%。所以,学生化残差落在上述各区间内的频率与标准正态分布的相应概率相近,因此,从正态性频率检验可以知道模型误差项符合服从正态分布的假定。
正态QQ图检验:通过SAS系统中capacity过程可以直接做出正态QQ图,对于<表三>中求得的学生化残差,其正态QQ图如图所示:
2.01.5Studentized
Residual1.00.50.0-0.5-1.0-1.5-2.0-2-10NormalQuantiles12由学生化残差的正态QQ图可知,图中的线性关系并不是很好,有一些点偏离了直线,由此说明题中线性回归模型中误差项正态分布的假定是基本上是合理的。
残差图分析:通过SAS系统的precgplot过程分别输出了残差与Y拟合值、残差与自变量X1,残差与自变量X1的残差图,如下图:
Residual20100-10-2030405060PredictedValueofY70809Residual20100-10-20203040X1506Residual20100-10-2043444546474849505152X253545556575859606162Residual20100-10-201.81.92.02.12.22.3X32.42.52.62.72.82.由图可知:
在以因变量y为横坐标的残差图中,图中各点并没有很显然的分布在一个水平的带状区域内,说明了此模型应该做出改进;
在以自变量X1、X2量为横坐标的残差图中,残差没有随自变量变
化而变化的趋势,说明了假设是合理的;然而在以X3为横坐标的残插图中,散点分布并不十分满意,而是出现了误差方差随X3的增大而减小的趋势,即误差等方差的假定可能不合理。
(2)在Ra2(p)准则下:通过SAS程序中的REG过程在所得的复相关系数平方Ra2(p)达到最大时R2a最优模型为含有自变量(p)=此时,X1与的回归方程X2的回归方程,拟合的回归方程为:Y?166.59133-1.26046X1-1.08932X2;
在Cp准则下:通过SAS程序中的REG过程在所得的Cp=最接近P值,此时模型包含X1、X2、X3三个变量,拟合的回归方程为:Y?162.8759?1.21032X1?0.66591X2?8.62303X3在PRESSP准则下:通过SAS程序中的REG过程及MEANS过程所得的PRESSP达到或者接近最小时,PRESSP=,此时模型包含X1、X3作为自变量,拟合的回归方程为:Y?147.07512?1.24336X1?15.89064X3由此可见:三种准则下的最优模型是不同的,结果不一致。
(3)对于?E??D?0.10,用逐步回归法选择最优方程时,回归方程的自变量含有X1、X2,拟合的方程为:Y?166.59133-1.26046X1-1.08932X2;
残差分析:
通过SAS输出有关残差的结果如下:
Obs
X1X2X3Y
PREDICTED
RESIDUAL
STUDENT
H
5514364654466414472438454364254645454526226257112481243536133554143451511553545163646613356712468133462555142125272244552234356分析:
正态性的频率检验:通过表中显示的数据,可知学生化残差(STUDENT列)中有落入(-1,1)区间的有13/23=即%;落入(,)区间的有20/23=即%;落入()区间内的有23/23=1=100%。所以,学生化残差落在上述各区间内的频率与标准正态分布的相应概率相近,因此,从正态性频率检验可以知道模型误差项符合服从正态分布的假定。
正态QQ图检验:通过SAS系统中capacity过程可以直接做出正态QQ图,对于<表三>中求得的学生化残差,其正态QQ图如图所示:
2.01.5Studentized
Residual1.00.50.0-0.5-1.0-1.5-2.0-2-10NormalQuantiles12由学生化残差的正态QQ图可知,图中的线性关系并不是非常的明显,不过图中大多数点大致在一条直线上,由此说明题中线性回归模型中误差项正态分布的假定是基本上是合理的。
残差图分析:通过SAS系统的precgplot过程分别输出了残差与Y拟合值、残差与自变量X1,残差与自变量X1的残差图,如下图:
Residual20100-10-2030405060PredictedValueofY70809Residual20100-10-20203040X1506Residual20100-10-2043444546474849505152X253545556575859606162由图可知:(1)在以因变量y为横坐标的残差图中,图形大致分布在水平带型区域,说明假设时合理的(2)在以自变量X1、X2量为横坐标的残差图中,根据图形的显示,说明了回归函数关于基本X1、X2基本上呈现线性,说明假设合理。
结论:由残差分析表明,选择的最优回归方程要优于未做最优模型选择时的回归方程。
篇五:相关与回归分析实验报告心得感悟
实验报
告
实验名称:
数据整理与分析
相关分析实验报告
实验课程:
统计学
数据的整理与分析
一、实验目的:
学会运用Excel中次数分布表、透视表、统计图以及描述性统计功能来分析
一组有调查意义的数据;从而通过分析得出有意义的结论以及推测预计。
二、实验原理
:
次数分布表的制作过程,第一步找出最大、最小值,确定全距
R;第二步利
用斯透奇斯规则确定组数
m,再根据组数与组距的关系确定组距;第三步分组,根据分组标志和分组上限确定在组内数据的频数以及频率。
数据透视表,选中当
前数据库表中人一个单元格,单击菜单中的“数据”—“数据透视表与数据透视
图”。直方图是在平面坐标上一横轴根据各组组距的宽度标明各组组距,一纵轴
根据次数的高度表示各组次数绘制成的统计图。
折线图是在直方图的基础上,用
折线连接各个直方形顶边中点并在直方图形两侧各延伸一组,使者限于横线相
连。
三、实验环境:
实验地点:实训楼计算机实验中心五楼实验室
3试验时间:第五周周二
实验软件:MicrosoftExcel2003四、实验内容
1、(1)在数据源中选取所需数据,对数据进行分析。利用
Excel对数据进
行描述性统计分析。实验内容包括:数据分组、直方图、描述性分析、透视表、实验结果分析。
(2)数据资料:
数据来源
“9-33各地区农村居民家庭平均每人主要食品消费量
(2008年)”
如下图所示。
2、实验步骤
第一步:
在数据库中把所要研究的数据对象复制黏贴到新建的Excel工作表
sheet1中。我要研究的是“各地区农村居民家庭平均每人主要食品消
费量(2008年)”挑选了其中的蔬菜。
第二步:
对sheet2中的数据进行分组。
(1)
找出这
31个数据中的最大、最小值,得到全距
R(2)
其次利用斯透奇斯规则确定组数
m,再根据组数与组距的关系确定组
距i;
(3)
然后分组,根据分组标志和分组上限确定在组内数据的频数以及频
率
(4)
最后得到全国各地区蔬菜消费量的次数分布表。
第三步:
数据分析
(1)
在
Excel
表工具栏中点开“加载宏”—“分析工具库”确认(如图);
(2)
再次打开工具栏“数据分析”
—
“描述统计”确定,得到对该组数据的描述性统计数据。
以下截图为部分实验步骤:
图1.1图1.2图1.3图1.4图1.5图1.6图1.图1.图1.图1.1图1.11图1.12图1.13图1.14图1.15图1.16五、实验结果
:
这次的实验是运用Excel的统计分析功能,进行数据的搜集整理和显示
.并进
行统计数据的录入、分组、汇总及各种常用统计图表的绘制,让我对数据的整理有了更深层次的理解,从而在有限经验样本的基础上实现对总体或现实世界的认识。
先讲述下本次的实验过程。首先是对斯透奇斯公式的计算,m=1+3.322lgN,从以上实验数据中可以得出,N=31,代入公式后得出m=5.95.约等于6.所以组数
为6组;组限R=Max-Min=Max(B3:B33)=Min(B3:B33)=162.79-20.57=142.22;组距i=R/m=142.22/6=23.7,所以得出i=25.
其次根据算出来的分组标志进行分组。
分成(20~45),(45~70),(70~95),(95~120),(120~145),(145~170)共六个组。根据“上组限不计入的原则”,在下方将每组的最大值一次排列为“44,69,94,119,144,169”.之后依次计算出“各组频数,各组频率,向上累计次数,向上累计频率,向下累计次数,向下累
计频率”。
接下来是FREQUENCY函数的应用。
它的用途是以一列垂直数组返回某个区域中数据的频率分布。所以先选中D20:D25区域,然后在菜单栏上面点击“插入”,选择“插入函数”,将或选择类别改成“统计”,选择函数“FREQUENCY”,然
后点击确定。在Dataarray中填入B:B,在Binsarray中填入E13:E18。则各组数据则显示出来,将每一列的数据加起来,看看是否与题目总提供的个数相同,确实为31.以此类推,将各组频率,向上累计次数,向上累计频率,向下累计次数,向下累计频率均填写完整。
再次,点击“工具-加载宏-勾选分析数据库-确定”,然后,点击“工具
-数
据分析”,然后在数据分析中选择“描述统计”,点确定。将
31个原始数据,输入到工作表中的B3:B33。然后步骤如下:第1步:选择“工具”下拉菜单。第
2步:选择“数据分析”选项。第3步:在分析工具中选择“描述统计”
。第4步:当出现对话框时,在“输入区域”方框内键入B3:B33;在“输出选项”中选择输出区域(在此选择“新工作表”);选择“汇总统计”(该选项给出全部描述统计量);选择“确定”最后得出这31个数的平均数92.4994,中位数93.85.标准差为34.269,方差1174.354等一系列数据。
六、实验结果分析
(运用理论分析实验结果)
在这一组实验数据中,蔬菜的最大产量为162.79千克,最小为20.57千克,而平均值为92.4994千克,所以用平均值分析离散趋势还是不准确的。
他不能准确估计平均水品,也让我们判断出不同地区的实际差距还是很大的。
这个应该与各个地区的气候地域、环境是密切相关的,比如辽宁,这是一个土地肥沃适合农产种植的地方,而且近年来辽宁省很多地方农村采用保护地生产
(以日光温室和大中小棚生产为主)与露地蔬菜栽培相结合的技术措施,一年四季均可栽培蔬菜,并获得优质高产,增加农民收入,满足城市居民蔬菜需求。那该地区的蔬菜人均消费量当然大大提高。
而相对于那些土地贫瘠,农业生产相对资源不足,只能以拓展畜牧业为生的地区,人均蔬菜消费量肯定很低。
而住在牧区的人他们吃得东西主要是藏族传统食物,在牧区的帐篷里,你才有机会吃到最好的酥油,最棒的酸奶.有些地理环境艰苦地方的牧民一年内可能吃得蔬菜很有限。
然后在这组数据中中位数是第16个数,这就说明大部分地区消费量还是比较少,这就是因为各地之间的经济水平,蔬菜的产量不同而决定。
要增加各个地区人均蔬菜消费量的话,除了积极开发当地的经济水平,多多调节南北之间的物资,还应多依靠科学技术,增加产量。
7结论(验证理论、新发现、体会)在本次实验过程中,首先进行的就是对统计数据的输入与分析。
这个输入过程并不轻松,既要细心又要用心。
不仅仅是仔细的输入一组数据就可以,还要考虑到整个数据模型的要求,合理而正确的分配和输入数据。
因此,输入正确的数据也就成为了整个统计实验的基础。
数据输入后就是统计数据的描述与分析,这是整个统计实验关键中的关键。对统计数据的众数,中位数,均值的描述可以让我们对其有一个初步的印象和大体的了解,在此基础上的概率分析,抽样分析,方差分析,图形描述等则更具体和深刻的向我们揭示了统计数据的内在规律性。
在对数据进行描述和分析的过程中,Excel软件的数据处理功能得到了极大的发挥,工具栏中的工具和数据功能对数据的处理是问题解决起来是事半功倍。
所以EXCEL是我们统计试验的基础知识。若不知
EXCEL的运用则无法进行试验。
这一次的统计学实验是我大学生活中不可或缺的重要经历,它对我的学习以及将来工作生活中都有很大的帮助。
其一,我可以将自己所学的知识应用于实践
中,理论和实际是不可分的,在实践中理论知识得到了巩固与加强,解决问题的能力也受到了锻炼得以提升;
其次,本次实验开阔了我的视野,使我对统计在现实中的运作有所了解,也对统计也有了进一步的掌握。
统计学广泛吸收和融合相关学科的新理论,不断开发应用新技术和新方法,深化和丰富了统计学传统领域的理论与方法,并拓展了新的领域。
统计学是收集、处理、分析、解释数据并从数据中得出结论的科学,统计方法是适用于所有学科领域的通用数据分析方法,只要有数据的地方就会用到统计方法。通过运用统计学的数据分析,还可以方便我们日常生活中很多问题,比如
CPI的增长,GDP的变化,可以让我们看出每年中国的变化,可以看出人们的生活水平的变化。因此学好统计学以及流利应用EXCEL进行实际操作对我们来说变
的至关重要。
篇六:相关与回归分析实验报告心得感悟
实验报告
课程名称
统计学
学号
学生姓名
辅导教师
系别
经济与管理学院
1.实验名称
相关与回归分析
2.实验目的(1)熟练掌握相关关系的测定方法。
(2)熟练掌握一元线性回归方程的建立和分析方法。
3.实验内容
(1)绘制相关散点图
(2)利用相关系数宏计算相关变量的相关系数;
(3)利用回归分析宏建立回归直线方程
4.实验原理
(1)利用Excel绘制相关图
(2)利用Excel计算相关系数
(3)利用Excel进行回归分析
5.实验过程及步骤
1、绘制散点图
“插入”---“图表”---“xy散点图”----“下一步”---输入数据区域---“下一步”,输入图表标题“散点图”、数轴名称,“下一步”选择插入方式,“完成”
2、相关系数的计算
(1)使用相关系数函数进行计算
在EXCEL中,CORREL函数和PERSON函数提供了计算两个变量之间的相关系数的方法,这两个函数是等价的。与相关系数有关的函数还有RSQ(相关系数的平方,即判定系数r2)和COVAR(协方差函数)。
(2)利用相关系数宏计算相关系数矩阵
点击EXCEL“工具”菜单,选择“数据分析”,选择“相关系数”。
3、回归分析
(1)使用回归分析宏
步骤:“工具”---“数据分析”,在分析工具中选择“回归”然后“确定”,输入y值输入区域和x值输入区域,选择置信度,输出区域,选择确定。
(2)除了回归分析宏外,EXCEL提供了9个函数用于建立回归模型和回归预测。这9个函数列于下表中。但EXCEL提供的回归分析宏仍然具有更方便的特点。
实验室名称
实验时间
6.实验结论及心得
一.(1)
(2)
由此可知,估计值为79,回归系数b为-2.33333.所以
Y^=a+bx=79+(-2.33333)x(2)Y^=a+bx=79+(-2.33333)(x+1000)=-2.33333x-2254.33所以
产量每增加1000,单位成本平均下降2333.33(3)当x=6000时,Y=-13920.98二.
(1)
(2)
(3)由此可得
回归直线方程为
Y^=a+bx=50.27395+18.91731x
我院任课教师有实验课的均要求有实验报告,每个实验项目要求有一份实验报告,实验报告按照格式书写完毕后,经辅
导实验的教师批改后按照实验室收集存档。
推荐访问:相关与回归分析实验报告心得感悟 感悟 回归 心得