如何进一步分析逐步回归法无法剔除分析剔除的自变量

请在APP上操作
打开万方数据APP,点击右上角"扫一扫",扫描二维码即可将您登录的个人账号与机构账号绑定,绑定后您可在APP上享有机构权限,如需更换机构账号,可到个人中心解绑。
检索详情页
{"words":"$keywords:先天性心脏病+$keywords:数据挖掘+$keywords:咨询模型+$keywords:回归分析+$keywords:最优模型","themeword":"$keywords","params":"$title:条件logistic回归与logitboost算法在建立先天性心脏病概率预测模型中的结合应用"}
&&&条件logistic回归与logitboost算法在建立先天性心脏病概率预测模型中的结合应用
条件logistic回归与logitboost算法在建立先天性心脏病概率预测模型中的结合应用
目的:从众多由专业知识初选出的与先天性心脏病发生有联系的研究因素中筛选出危险因素,同时建立适合网络实现的先天性心脏病发生率的预测咨询模型,为课题成果的网络化奠定基础。
方法:采用了1:2配比设计的病例对照研究,对72名病例儿童和144名对照儿童的亲生父亲和(或)母亲,采用统一的调查表就51个研究因素进行现场调查,使用了单因素条件Logistic回归分析筛选研究因素,多因素条件Logistic逐步回归分析进一步筛选变量并建立最优模型,应用Logitboost算法建立疾病发生率的预测模型。
结果:按α=0.10标准,用单因素Logistic回归分析从51个研究因素中筛选出23个有统计学意义的可疑危险因素,经过数据结构分析、相关因素分组分析、变量共线性诊断,最终筛选出16个变量进入多元Logistic逐步回归分析,最终筛选出与先天性心脏病发生有关的危险因素7个,各变量间不存在交互作用,它们是:母亲学历,出生时缺氧或窒息、孕12周内感冒、本胎孕前妊娠次数、孕早期感染史、孕3个月内B超检查、孕生活事件精神刺激,并建立了logitboost概率预测模型。
结论:利用条件logistic回归与logitboost算法,在探索先天性心脏病危险因素的同时,解决了配比设计资料的概率预测问题,建立了logitboost预测模型。
摘要: 目的:从众多由专业知识初选出的与先天性心脏病发生有联系的研究因素中筛选出危险因素,同时建立适合网络实现的先天性心脏病发生率的预测咨询模型,为课题成果的网络化奠定基础。
方法:采用了1:2配比设计的病例对照研究,对72名病例儿童和144名对照儿童的亲生父亲和(或)母亲,采用统一的调查表就51个研究因素进行现场调查,使用了单因素条件Logistic回归...&&
相关论文(与本文研究主题相同或者相近的论文)
同项目论文(和本文同属于一个基金项目成果的论文)
您可以为文献添加知识标签,方便您在书案中进行分类、查找、关联
请输入添加的标签
万方数据知识服务平台--国家科技支撑计划资助项目(编号:2006BAH03B01)
&北京万方数据股份有限公司 万方数据电子出版社
实名学术社交
个性化订阅推荐
快速查看收藏过的文献请在APP上操作
打开万方数据APP,点击右上角"扫一扫",扫描二维码即可将您登录的个人账号与机构账号绑定,绑定后您可在APP上享有机构权限,如需更换机构账号,可到个人中心解绑。
检索详情页
{"words":"$head_words:统计模型+$head_words:泵站+$head_words:位移+$head_words:有限单元法+$head_words:逐步回归法","themeword":"$head_words","params":"$title:基于有限元法和逐步回归法的泵站位移统计模型构建方法"}
&&&基于有限元法和逐步回归法的泵站位移统计模型构建方法
基于有限元法和逐步回归法的泵站位移统计模型构建方法
Finite element method and stepwise regression method-based method for constructing displacement statistical model of pumping station
由于大部分的泵站地基不是岩基,通过传统的力学方法无法得到较为准确的泵站位移统计模型,计算较为困难.因此,基于大坝变形统计模型构建的理念,提出了基于有限元-逐步回归分析的泵站位移统计模型构建方法.该方法以逐步回归为基础,通过有限单元法来确定统计模型中与水压分量有关的各个因子,再根据监测资料来确定温度分量和时效分量里的各个因子,从而得到较为准确的泵站建筑物位移统计模型.经南水北调东线某泵站验证表明,泵站实测的水平、垂直位移与三维有限元-逐步回归分析得出的结果基本一致,进一步表明,采用的统计模型用于泵站的位移分析是可行的.基于有限元-逐步回归法的泵站位移统计模型拟合效果较好,拟合精度较高,为泵站监测资料分析提供了新思路.
摘要: 由于大部分的泵站地基不是岩基,通过传统的力学方法无法得到较为准确的泵站位移统计模型,计算较为困难.因此,基于大坝变形统计模型构建的理念,提出了基于有限元-逐步回归分析的泵站位移统计模型构建方法.该方法以逐步回归为基础,通过有限单元法来确定统计模型中与水压分量有关的各个因子,再根据监测资料来确定温度分量和时效分量里的各个因子,从而得到较为准确的泵站建筑物位移统...&&
Abstract:
As most of the foundations for pumping station are not consisted of rock,the more accurate statistical model for displacement of pumping station cannot be obtained through conventional mechanical methods,and then the calculation is more difficult.Therefore,a finite element-stepwise regression analysis-based method for constructing displacement statistical model of pumping station is proposed herein in accordance with the construction concept for constructing dam deformation statistical model.Based on the stepwise regression,this method determines all the water pressure-related factors in the statistical model through the finite element method at first,and then determines all the factors in the temperature component and the time-effect component according to the relevant monitoring data,thus obtains more accurate statistical model of pumping structure displacement.Through the verification made on a pumping station of the East Route of the South-to-North Water Diversion Project,it is indicated that the measured horizontal and vertical displacements are basically coincided with the results got from the 3-D finite element-stepwise regression analysis,which is further demonstrated that it is feasible to use the statistical model for the analysis on the displacement of pumping station.The finite element-stepwise regression method-based statistical model for pumping station displacement has better fitting effect and higher fitting precision,and then provides a new idea for the analysis on the monitoring data of pumping station.
相关论文(与本文研究主题相同或者相近的论文)
同项目论文(和本文同属于一个基金项目成果的论文)
您可以为文献添加知识标签,方便您在书案中进行分类、查找、关联
请输入添加的标签
万方数据知识服务平台--国家科技支撑计划资助项目(编号:2006BAH03B01)
&北京万方数据股份有限公司 万方数据电子出版社
实名学术社交
个性化订阅推荐
快速查看收藏过的文献2005年,NEJM发表了一篇文章《Statistical Methods in the Journal》[1],可以看到,1989以及年期间,NEJM发表的原始研究使用的统计方法总结。2017年,NEJM对此进行了更新,可以进一步看到2015年NEJM发表的文章所用的统计学方法[2]。先来看一下2005年的情况在2005年发表的这篇文章中,作者纳入了NEJM在2004年1月份至2005年6月份发表的311篇文章。对于每篇文章,作者仔细审查了方法学部分,并浏览了结果部分以及统计相关的附录内容。每篇文章都由两个人独立审查。相比以及1989年,2005年的文章增加了新的统计学方法。表1显示了不同时期,NEJM原始研究中所用的统计方法。(每种统计方法的中英文对照和举例详见文章最后的附录)
注:(1)累积使用这一列,数值和百分比代表的是,有多少文章只使用了该行或该行以上的统计方法。例如,非参数检验这一行对应的53,则表明有53篇文章使用了:描述性统计,t检验,列联表分析或非参数检验(未使用该行以下的统计学方法)。(2)年使用其他统计方法的13篇文章,包括5种遗传分析和2个Meta分析。相比1989年,2005年分析的文章中,无统计方法或仅有统计性描述的文章百分比无明显变化。不过,包含列联表、流行病学统计指标、生存分析、多重回归、多重比较和功效分析等统计方法的文章百分比有了大幅增加。与既往的研究相一致,2005年的结果表明,更新和更复杂统计学方法的使用有持续增加的趋势。再来看一下2015年的情况2017年发表的这篇文章,纳入了2015年1月至12月NEJM发表的238篇文章,至少两位生物统计学家独立审查每篇文章,并基于27种统计学方法分类清单(详见文章最后附录)记录文章使用的统计学方法。图1展示了使用不同统计学方法的文章百分比。在2015年的238篇文章中,共14(6%)篇文章未使用统计方法或仅使用了描述性统计。,-2005年,平均每篇文章使用的统计方法数量分别为1.9、2.7和4.2,2015年这一数字增加到了6.1。
图1.不同时期使用某种统计学方法的文章百分比可以看到,过去10年,功效分析(即统计功效和样本量计算)、流行病学统计指标(例如OR,RR)、调整和标化(针对发病率和患病率)等的使用有明显增加。2015年,超过一半的文章使用了功效分析(62%),生存分析(57%),列联表(53%)或流行病学统计指标(50%)。t检验在期间是最为常用的统计学方法(44%),但是其使用频率有下降的趋势,-年的文章中,分别有39%,26%和31%使用了t检验。和之前的发现一样,更多样化和更高级统计方法的使用有逐渐增加的趋势。扩展阅读《J Clin Pharm Ther》之后发了一篇文章[3],对上述2015年的文章进行了扩展,使用了同样的238篇文章,分为干预性研究和观察性研究两大部分,对研究设计和统计方法进行了更细致的分析。和大家分享几个结果图表,感兴趣的伙伴可以了解下~表2. 238篇文章中使用的统计学方法总结
表3. 对统计方法进一步细分
表4. 238篇文章的研究结果
图2.P值分布(N=209) (.001包含P&0.001部分)附录统计方法分类及简单举例No statistical methods or descriptive statistics only无统计方法或者只有描述性统计无统计内容或者仅有描述性统计,例如百分比,均数标准差,标准误,直方图t-Tests (t检验)单样本、配对、两样本t检验,z检验Contingency tables (列联表)卡方检验,Fisher精确概率法,McNemar检验Nonparametric tests (非参数检验)符号检验,Wilcoxon符号秩和检验,Mann-Whitney检验,中位数检验,Kruskal-Wallis检验,Friedman检验,Kolmogorov Smirnov检验Epidemiologic statistics (流行病学统计指标)RR,OR,log odds,敏感度,特异度Propensity Score (倾向性评分)匹配,校正,分层,加权Pearson&s correlation (Pearson相关)Simple linear regression (简单线性回归)Analysis of variance (方差分析)方差分析,协方差分析,简单比较,F检验Transformation (数值转换)Nonparametric correlation (非参数相关)Spearman秩相关,Kendall等级相关,单调回归,趋势检验Survival methods (生存分析)生存函数,Kaplan-Meier曲线,Cox回归模型,其他生存分析模型,log-rank检验Multiple regression (多重回归)多项式回归,逐步回归Multiple comparisons (多重比较)Bonferroni法,Scheff&法,Dunnett法,Duncan法,SNK法,FDRAdjustment and standardization (调整和标化)用于对发病率及患病率进行调整和标化Multiway tables (高维列联表)Mantel-Haenszel法、对数线性模型、logistic回归Power analyses (功效分析)定义比较宽松,涉及到统计功效和样本量计算Cost&benefit analysis (成本收益分析)Sensitivity analysis (敏感性分析)Repeated-measures analysis (重复测量分析)重复测量方差分析,广义估计方程(GEE),重复测量资料的固定效应模型Missing-data methods (缺失值处理方法)个案剔除法,成对删除法,均值填补法,热卡填补法,单一填补法,多重填补法Noninferiority trials (非劣效性试验)Receiver-operating characteristic (ROC曲线)Resampling (重采样)bootstrap,交叉验证(cross-validation),刀切法(jackknife)Principal component analysis (主成分分析)因子分析,逐步判别分析,方差最大化旋转Cluster analysis (聚类分析)谱系聚类,快速聚类,两阶段聚类,DBSCNMeta分析Genetic analysis (遗传分析)遗传度和分离分析,连锁分析,遗传关联分析,基因表达数据分析以上很多统计方法的SPSS操作,医咖会既往都有推送过,详见:【合集】75篇SPSS统计操作教程,全在这里!参考文献1. N Engl J Med. ):1977-9.2. N Engl J Med. ):1086-7.3. Trends in study design and the statistical methods employed in a leading general medicine journal. J Clin Pharm Ther. 2017 Jul 27. doi: 10.1111/jcpt.12605.更多阅读1.还在愁咋下载免费文献?试试这5种途径!2.看世界杯也能发SCI,JAMA可是发过世界杯研究的!3.大量混杂因素要调整?这4种倾向性分析方法你值得了解!医咖会微信:medieco-ykh 关注医咖会,轻松学习统计学~快加小咖个人微信(xys2018ykf),拉你进统计讨论群和众多热爱研究的小伙伴们一起交流学习。点击左下角”,看看医咖会既往推送了哪些统计教程。或者使用电脑打开网址:http://www.mediecogroup.com/,查看60种SPSS教程。特别声明:本文为网易自媒体平台“网易号”作者上传并发布,仅代表该作者观点。网易仅提供信息发布平台。
一键安装官方客户端
重大事件及时推送 阅读更流畅
http://spider.nosdn.127.net/c58c2ba6eba7.jpeg 上传我的文档
 上传文档
 下载
 收藏
粉丝量:11
该文档贡献者很忙,什么也没留下。
 求助此文档
正在努力加载中...
回归分析部分
下载积分:0
内容提示:回归分析部分
文档格式:PPT|
浏览次数:3|
上传日期: 01:00:21|
文档星级:
全文阅读已结束,此文档不支持下载
发布找文档任务
该用户还上传了这些文档
回归分析部分
关注微信公众号回归分析概念
& & & 回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照和之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。通过这种方法可以确定,许多领域中各个因素(数据)之间的关系,从而可以通过其用来预测,分析数据。&  、线性关系、效应累加、变量无测量误差、变量服从、观察独立、模型完整(没有包含不该进入的变量、也没有漏掉应该进入的变量)、误差项独立且服从(0,1)。&  现实数据常常不能完全符合上述假定。因此,统计学家研究出许多的回归模型来解决线性回归模型假定过程的约束。&  研究一个或多个Y1 ,Y2 ,&,Yi与另一些变量X1、X2,&,Xk之间的关系的统计方法。又称多重回归分析。通常称Y1,Y2,&,Yi为因变量,X1、X2,&,Xk为自变量。回归分析是一类数学模型,特别当因变量和自变量为线性关系时,它是一种特殊的线性模型。最简单的情形是一个自变量和一个因变量,且它们大体上有线性关系,这叫一元线性回归,即模型为Y=a+bX+&,这里X是自变量,Y是因变量,&是随机误差,通常假定随机误差的均值为0,方差为&^2(&^2大于0)&2与X的值无关。若进一步假定遵从正态分布,就叫做正态线性模型。一般的情形,差有k个自变量和一个因变量,因变量的值可以分解为两部分:一部分是由自变量的影响,即表示为自变量的函数,其中函数形式已知,但含一些未知参数;另一部分是由于其他未被考虑的因素和随机性的影响,即随机误差。当函数形式为未知参数的线性函数时,称线性回归分析模型;当函数形式为未知参数的非线性函数时,称为非线性回归分析模型。当自变量的个数大于1时称为多元回归,当因变量个数大于1时称为多重回归。&  回归分析的主要内容为:①从一组数据出发确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。估计参数的常用方法是。②对这些关系式的可信程度进行检验。③在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量选入模型中,而剔除影响不显著的变量,通常用、和等方法。④利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。
回归分析应用
& & & 相关分析研究的是现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量。而回归分析则要分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具体关系。比如说,从相关分析中我们可以得知&质量&和&用户满意度&变量密切相关,但是这两个变量之间到底是哪个变量受哪个变量的影响,影响程度如何,则需要通过回归分析方法来确定。&  一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测。&  例如,如果要研究质量和用户满意度之间的因果关系,从实践意义上讲,产品质量会影响用户的满意情况,因此设用户满意度为因变量,记为Y;质量为自变量,记为X。根据图8-3的,可以建立下面的线性关系:&  Y=A+BX+&&  式中:A和B为待定参数,A为回归直线的截距;B为回归直线的斜率,表示X变化一个单位时,Y的平均变化情况;&为依赖于用户满意度的。&  在SPSS软件里可以很容易地实现线性回归,回归方程如下:&  y=0.857+0.836x&  回归直线在y轴上的截距为0.857、斜率0.836,即质量每提高一分,用户满意度平均上升0.836分;或者说质量每提高1分对用户满意度的贡献是0.836分。&
  上面所示的例子是简单的一个自变量的线性回归问题,在数据分析的时候,也可以将此推广到多个自变量的多元回归,具体的回归过程和意义请参考相关的书籍。此外,在的结果输出里,还可以汇报R2,F检验值和T检验值。R2又称为方程的确定性系数(coefficient of determination),表示方程中变量X对Y的解释程度。R2取值在0到1之间,越接近1,表明方程中X对Y的解释能力越强。通常将R2乘以100%来表示回归方程解释Y变化的百分比。F检验是通过方差分析表输出的,通过(significant level)检验回归方程的线性关系是否显著。一般来说,显著性水平在0.05以下,均有意义。当F检验通过时,意味着方程中至少有一个回归系数是显著的,但是并不一定所有的回归系数都是显著的,这样就需要通过T检验来验证回归系数的显著性。同样地,可以通过显著性水平或查表来确定。在上面所示的例子中,各参数的意义如表8-2所示。&  
表8-2 线性回归方程检验
指标 &&&&显著性水平&&&&&&&&&&&&&&&&意义&R&&&&&&&&0.89 &&&&&&&&&&&&&&&&&&&&&质量&解释了89%的&用户满意度&的变化程度&F&&&&&&&&276.82 0.001&&&&&&&&&&&&&&&回归方程的线性关系显著&T&&&&&&&16.64 0.001&&&&&&&&&&&&&&&&&回归方程的系数显著&  示例 SIM手机用户满意度与相关变量线性回归分析&  我们以SIM手机的用户满意度与相关变量的线性回归分析为例,来进一步说明线性回归的应用。从实践意义讲上,手机的用户满意度应该与产品的质量、价格和形象有关,因此我们以&用户满意度&为因变量,&质量&、&形象&和&价格&为自变量,作线性回归分析。利用SPSS软件的回归分析,得到回归方程如下:&  
用户满意度=0.008&形象+0.645&质量+0.221&价格&  
& & & 对于SIM手机来说,质量对其用户满意度的贡献比较大,质量每提高1分,用户满意度将提高0.645分;其次是价格,用户对价格的评价每提高1分,其满意度将提高0.221分;而形象对产品用户满意度的贡献相对较小,形象每提高1分,用户满意度仅提高0.008分。&  
方程各检验指标及含义如下:&  
&&&&&&&&指标&&&&&&&&&&&&&&显著性水平&&&&&&&&&&&&&&&&&&&&&&意义&&&&&&&&&&R &&&&&&&&&&&&&&&2 0.89&&&&&&&&&&&&&&&&&&&&&&&质量&和&形象&解释了89%的&用户满意度&的变化程度&&&&&&&&&&F &&&&&&&&&&&&&&&248.53 0.001 &&&&&&&&&&&&&&&&&回归方程的线性关系显著&&&&&&&&&&T(形象) &&&&&&&0.00 1.000&&&&&&&&&&&&&&&&&&&形象&变量对回归方程几乎没有贡献&&&&&&&&&&T(质量) &&&&&&&13.93 0.001&&&&&&&&&&&&&&&&&&质量&对回归方程有很大贡献&&&&&&&&&&T(价格) &&&&&&&5.00 0.001&&&&&&&&&&&&&&&&&&&&价格&对回归方程有很大贡献&  从方程的检验指标来看,&形象&对整个回归方程的贡献不大,应予以删除。所以重新做&用户满意度&与&质量&、&价格&的回归方程如下:&  
&&&用户满意度=0.645&质量+0.221&价格& 
 对于SIM手机来说,质量对其用户满意度的贡献比较大,质量每提高1分,用户满意度将提高0.645分;用户对价格的评价每提高1分,其满意度将提高0.221分(在本示例中,因为&形象&对方程几乎没有贡献,所以得到的方程与前面的回归方程系数差不多)。& 
 方程各检验指标及含义如下:
  &指标&&&&&&&&&&&&&&&&显著性水平&&&&&&&&&&&&&&&&&&&意义&&&&&&R &&&&&&&&&&&&&&&&&&0.89&&&&&&&&&&&&&&&&&&&&&&质量&和&形象&解释了89%的&用户满意度&的变化程度&&&&&&F &&&&&&&&&&&&&&&&&&374.69 0.001 &&&&&&&&&&&&&回归方程的线性关系显著&&&&&&T (质量) &&&&&&&&&15.15 0.001 &&&&&&&&&&&&&&&质量&对回归方程有很大贡献
&&&&&T(价格) &&&&&&&&&&&5.06 0.001&&&&&&&&&&&&&&价格&对回归方程有很大贡献
回归分析在游戏人气分析的实践应用探索
& & & 回归分析是研究一个变量(因变量)和另一个变量(自变量)关系的统计方法,用最小二乘方法拟合因变量和自变量的回归模型,把一种不确定的关系的若干变量转化为有确定关系的方程模型近似分析,并且通过自变量的变化来预测因变来预测因变量的变化趋势,在回归分析中两个变量的地位是不平等的,考察某一个变量的变化是依存于其他变量的变化程度,就是存在因果关系。
今天将利用回归分析对游戏数据分析的某些指标进行分析探讨,有关于回归分析的一些理论这里不再讲解,百度即可。今天针对DAU、PCU、ACU、新登等指标进行回归分析。一般而言我们可以使用Excel就能做一元回归分析,Excel做回归分析有两种方式:散点图和回归分析工具。散点图通过添加趋势线可以直观的显示自变量和因变量的关系,如果不存在明显的线性或者曲线关系,就放弃建立回归模型,趋势线能够输出方程和拟合有度(R-square,该值越接近1,方程拟合越好)。第二种方法采用回归分析工具,能够更加详细的输出回归分析指标相关信息,便于更加仔细的进行分析和预测。
& & & 回归分析分为线性回归分析和非线性回归分析,首先来看一下线性回归分析。
& & & 如果我们使用线性回归分析其实有些前提要考虑:
1)&&自变量与因变量的关系,是否是呈直线,是否是一个变量依存于另个变量的变化程度,如刚才所言,变量之间的地位是不平等的。
2)&&因变量是否符合正态分布。
3)&&因变量数值之间是否独立。
4)&&方差是否齐性。
& & & 一般来说,按照回归分析工具得出的结果来看,应着重看看残差(residual)是否是正态、独立以及方差齐性,残差就是因变量的实际值与估计值的差值。其实实际应用中,这些理论的条框我们有时候搞不懂,那么我们可以通过其他办法来看,这就是通过散点图就能把以上条框搞定。
是否呈现直线关系,通过散点图就能看出来,如下图所示,大致呈现直线关系。
对于正态分布可以考察残差的正态概率图,如果正态概率图呈现一条直线表示符合正态分布,当然了也可以通过正态性检验方法来检验一下是否符合正态分布。
是否方差齐,可以用残差的分布来看,即以因变量的预测值为x轴,以残差为y轴作图,如果残差无明显的分布,表明方差齐性。如果有一定的趋势,可能存在方差不齐的情况,如下图随着x轴的增加残差的范围逐渐增大,明显的方差不齐的情形。
对于是否独立,也可以通过图形来看, 随着时间的变化,因变量应该没有任何趋势,否则可能表明因变量之间有一定的相关性。还可通过Durbin-Watson法检验是否独立。
今天我们将探讨DAU与PCU、PCU与ACU、DAU与首登三组的回归分析。
首先来看DAU与PCU的回归分析。我们选取一个月的数据,作为分析数据,首先我们来绘制散点图(这里不具体讲解散点图绘制方法)
我们绘制散点图,并选择线性趋势线,得到如下的散点图:
之后我们通过回归分析工具进行回归分析结果的汇总来具体解析一下,操作如下:
点击数据|数据分析,如下所示:
找到回归分析
之后确定,并要把进行分析的数据引用单元格选好,残差和正态分布相关选项全部勾选,如下所示。
最后会在新的工作表组生成结果,形式如下所示:
表格术语解释一下:
df=degree of freedom 自由度
SS&&&&Stdev square 方差
MS &&Mean square&&均方差
F联合检验F值
coefficient回归系数
standard error标准差
T-stat T检验值=回归系数/标准差
P-value P值,T检验值查表对应的P概率值
Lower 95%和upper 95%置信度为95%的下限和上限区间
其实对于建立的回归模型,我们还要进行方程的统计检验,检验的原假设回归系数=0,如果拒绝原假设(p小于置信系数),则回归系数不为0,回归系数或者回归方程显著。
回归工具为我们提供了三张图,分别是残差图、线性拟合图和正态概率图。
如下图为通过回归分析工具得出的回归分析汇总结果:
可以看到R-square为0.68,也就说68%的数据符合这个方程,拟合方程的观测量为31个,计算下来就是有21个数据项是符合该方程的,F统计量在原假设成立前提下概率为2.55944e-06远远小于显著水平0.05,所以方程显著。但是除了做回归方程和回归系数的显著性检验以外,还需要对回归残差做检验,因为回归方程必须满足均值为0,独立,正态分布,否则最小二乘估计对参数做估计就失效。如下为残差图,基本上是零散的分布。基本上可以说残差独立分布,方程参数估计有效。
此外关于正态分布,可以参考以下的正态概率图来分析:
通过以上的回归分析,我们看到每日的DAU确实对于PCU的拉动起到显著作用和影响,但由于拟合方程系数仅为0.68,说明在DAU这个显著影响因素之外还有其他的影响因素,刚才我们计算了31个观测值,有21个符合该方程,10个观测值不符合该方程,其实这个观测值可能周末效应作用,影响了系数的高低。
剩下的PCU与ACU、DAU与新登的回归分析大家自己参照这个过程可以进行,分析需要警惕一点的是不同的游戏,反映出的结论不一样,就如同有的游戏有周末化学反应,而有的游戏就没有,鄙人接触过这种游戏,因此在做回归分析时,要注意这些理论之外的事项,对于分析会有很大的帮助。
p.s.其实SPSS也可以做回归分析,效果比Excel还好一些,不过还是建议大家先把简单的搞好,搞明白,对于DAU、PCU、ACU、新登的回归分析,也可以帮助预测未来数据,回归分析是很复杂的一类分析,虽然在使用操作很简单,不过在其背后有很多值得学习的地方值得思考的地方,还需要多多练习和思考,做数据分析在某个角度和搞科研是一样的,要有严谨的态度和研究分析要求,比如线性回归的使用必须要遵循几个条件,这是非常重要的,也是必须的,如果不确立好这些,做出来的东西也是错误的,就像本来数据是三角形的,你非要用一个圆形的理论和模型来作为分析方法,根本就是错误的。
阅读(...) 评论() &

我要回帖

更多关于 时间序列自回归模型 的文章

 

随机推荐