研究生因果推断统计题

檀润华,谢英俊,苑彩云,王永滨,张爱國;[J];机械科学与技术;1997年06期
贺乐天孙永强;[J];计算机工程;1996年02期
付剑锋;刘宗田;刘炜;周文;;[J];模式识别与人工智能;2011年04期
王元龙;李茹;张虎;王智强;;[J];清华大学学報(自然科学版);2018年03期
张旭光;吴格非;唐英干;;[J];高技术通讯;2017年03期
郑皎凌;唐常杰;乔少杰;杨宁;李川;陈瑜;王悦;;[J];计算机学报;2014年12期
何绯娟;石磊;缪相林;;[J];信息与电腦(理论版);2018年21期
孙友强;王儒敬;;[J];计算机应用与软件;2015年11期
覃祖军;武装;;[J];中小学信息技术教育;2013年10期
张渝江;;[J];中小学信息技术教育;2013年10期
梁昌勇,杨善林,黄梯雲;[J];计算机应用研究;2001年01期
石峰;侯洪涛;李群;王维平;;[J];系统仿真学报;2006年05期

因果推断简介-北京大学数学科学學院

因果推断简介 丁鹏 北京大学数学科学学院概率统计系 Email: 摘要 统计学在“相关”方面的推断取得了很多的成就但是在因果推断方 面取得嘚成就十分有限。这里从Yule-Simpson Paradox 讲起说明用统计 学方法做因果推断的困难。然后引入Rubin Causal Model(RCM)以及 RCM 在完全随机化试验和观测性研究中如何进行因果推斷。这部分将引入 因果推断中的一些核心概念如可忽略性、倾向得分、主分层和工具变量。 最后讲因果图(Causal Diagram)在一个有向无环图中引入了do 操作,这 个图便有了因果的含义这部分将讲到图上因果作用的识别性准则:前门 准则和后门准则。 1 目录 1 相关与因果的不同: Yule-Simpson Paradox 3 2

    统计推断是从观测数据推断未知變量或未知模型的有关信息的过程
  • 统计推断的用途是什么?
    统计推断可用于“参数估计”,“假设检验”“显著性检验”
  • 统计推断的研究思路是什么?
    主要有两种思路:“贝叶斯统计推断” 和“经典统计推断”。(大局方法)
  • 统计推断具体使用的"算法"有哪些
    最大后验概率准则,最尛均方估计,最大似然估计回归,似然比检验等(小方法)

“统计学”与“概率论”在认识论上有明显的区别。
概率论是建立在概率公理仩的系统自我完善的数学课题我们会假设一个完整的特定的概率模型满足概率公理,然后用数学方法研究模型的一些性质概率模型无需与现实世界相一致,它值对概率公理负责
统计学是针对一个具体的问题,寻求合理的研究方法希望得到合理的结论。这就存在很大嘚自由度采取不同的研究方法,结论可能不同通常我们会附加一些限制条件,以便得到“理想结论”

正是由于统计学的这种特征,現实社会存在许多人为制造的"理想结论"这些结论可能来源于真实的数据,但研究方法是人为选定的

贝叶斯统计与经典统计(频率学派)是兩种突出但对立的思想学派。
最重要的区别就是如何看待未知模型或变量贝叶斯学派将其看成已知分布的随机变量。而经典统计将其看荿未知的待估计的量
贝叶斯方法将统计拉回“概率论”的研究领域,使得每个问题只有一个答案经典统计将未知量看作一种参数,它昰一个常数未知需要估计。
从现实角度来看贝叶斯统计主张将假设的先验分布公开,即研究过程公开了贝叶斯统计推断涉及到多维喥积分,计算困难所以贝叶斯学派的最新成功可能集中于如何计算上。

这两种问题有细微的区别推断模型是为了研究某种现象或过程嘚一般规律,以期能够预测未来现象的结果推断变量是从已知的量,推测未知的量例如从gps信息推断所处于的位置。

  • 参数估计:对参数进荇估计使得在某种概率意义下估计接近真实值。
  • 假设检验:未知参数根据对立的假设可能取有限个值选择一个假设,目标是使犯错误的概率最小
  • 显著性检验:对于一个给定的假设,希望发生错误(“接受错误”与“拒绝正确”)的概率适当地小.
  • 最大似然估计:在选择参数 θ \theta θ時使得观测数据最有可能出现,即观测到当前数据的概率达到最大
  • 线性回归:对于给定的一组观测数据,采用线性拟合的方式建立模型约束条件是使观测数据与模型值的差的平方和最小。(最小二乘法)
  • 似然比检验:对于给定的两个假设根据他们发生的可能性的比值选择其中一个,使得犯错的概率适当小
  • E(Θ~2)=E[(Θ^n??θ)2]=var(Θ^n??θ)+E2(Θ^n??θ)=var(Θ^n?)+bθ2?(Θ^),这个式子建立了估计均方误差、估计量方差、估计偏差的关系。可以看出均方误差也是 θ \theta θ的函数如果均方误差不变,则减小方差会增大偏差减小偏差会增大方差。

pX?=pX1??pX2??...pXn??,此时可用对數似然函数来简化计算:

可以看出当 Θ \Theta Θ是均匀分布时,最大后验准则等价于最大似然估计均匀分布即 Θ \Theta Θ取任何值的概率都相等,这就是經典统计推断与贝叶斯统计推断的不同之处

g(x)是一一映射函数。


[0,1]上的均匀分布假设某次迟到时间为x。用最大似然估计来估计 θ \theta θ

x=x0?,θ嘚取值范围为图中红线部分。显然当


利用经典统计推断一个概率分布的均值和方差(不一定是“最大似然估计”)
这里的目标是通过样本推斷总体的无偏估计均值和方差。

    对于均值最自然的估计量是样本均值:

    样本均值当作均值估计量时有:

    M n M_n Mn?的方差和均方误差都不依赖于 θ \theta θ(不昰所有的估计量都有这个性质). Θ^=0此时方差是0,由于“均方误差=方差+偏差的平方”此时偏差不是0,均方误差也依赖于 θ \theta

对于方差 v v v的估计量最自然的选择:

μ \mu μ是常数方差为0.而在这里的估计过程中,期望和方差都是待估计量,都不是常数所以样本的方差 S ? n 2 \overline S_n^2 v/n和样本的无偏方差

粗略地说,置信区间的作用是使用"区间估计"代替“点估计”,使得"区间"包含真值的概率达到适当的水平这个适当的水平即"置信水平",通常设為 1 ? α 1-\alpha 1?α.置信区间设为

?Θ^n??θ? 服从标准正态分布.

0.95置信区间。可以预期在n个置信区间中将有95%的置信区间包含 θ \theta θ.

基于方差近似估計量的置信区间

Φ(L)=1?α/2更精确,用一个比正态分布更好的 现在定义一个随机变量:

n-1 n?1的t-分布的概率分布函数.
由t-分布和正态分布的关系,可以得出t-汾布应该和正态分布函数的图像近似。


举例:利用电子天平得到一个物体重量的八次测量,观测值是真实的质量加上一个随机误差随机误差垺从 ( 0 , v ) (0,v) (0,v)的正态分布,假设每次观测误差都是相互独立的,观测值如下:


这类不知道方差的情况使用t-分布来近似计算置信区间.

    方差的估计方式可鉯有多种,所以答案不是唯一的这里采用的是样本的无偏估计方差 S ^ 2 \hat S^2 S^2


H 0 H_0 H0?.这里5%的意思是该论断犯错误的概率小于5%.“不拒绝”隐含的意思是呮倾向于不拒绝而不是接受。虽然在数学上两者是一个意思但在这里显然 θ = 0.499999 θ=0.499999,0.499999,0.499999999都是可以接受的,不能人为接受其中一个就代表其他的都拒绝。这说明原假设可认为代表一个小的范围在这个范围里面的取值都是可以的。类似于置信区间的味道


我要回帖

 

随机推荐