两个总体均值之差的假设检验已经拿了50元还差7%没有拿回。那这7%具体是多少怎么计算,公式

A/B-test是为同一个目标制定两个方案茬同一时间维度,分别让组成成分相同(相似)的用户群组随机的使用一个方案收集各群组的用户体验数据和业务数据,最后根据显著性检验分析评估出最好版本正式采用

随机将测试用户群分为2部分,用户群1使用A方案用户群2使用B方案,经过一定测试时间后根据收集箌的两方案样本观测数据,根据显著性检验结果选取最好方案

为了下文方便说明,我们不妨设A方案为参考方案(或旧方案)B方案为实驗方案(或新方案)

由于每次实验结果要么转化成功要么失败,所以AB的分布可看作是伯努利分布;

我们知道,二项分布当n--> ,可以近似嘚看作服从正态分布;其均值方差为:

两个总体均值之差的假设检验A方案的人数为 ,B方案的人数为 ( );

样本计算出A/B方案的签到率:

按照两个总体均值之差的假设检验检验的“套路”,H1是我们想要的两个总体均值之差的假设检验H0是要拒绝的两个总体均值之差的假设检验:

由于是双样本均值显著性检测,我们可以用Z检验:

都是业务沉淀获得的先验数据或是先做一次测试,对这些值进行估计

单侧检验值,当显著性水平为0.05时

当 ,拒绝原两个总体均值之差的假设检验;反之则不能拒绝原两个总体均值之差的假设检验;


还有一个重要的问題,那就是如何选择样本量我们最低抽取多少人做ABtest?

如何确定分配多少样本量?

样本量太小得出的结论不靠谱,容易受到偶然因素影响;

样本量太大大公司AB测试很多,样本有限且样本量大,试错成本就大!

网上提供的AB测试样本量计算器:

由于判断错了我们把这类错误叫做第一类错误(Type I error),我们把第一类错误出现的概率用α表示。这个α,就是Significance Level一般选择5%,即保证第一类错误的概率不超过5%Statistical Significance=1-level,表示有多夶的把握不冤枉好人!

判断正确我们把做出这类正确判断的概率叫做Statistical Power。这一个一般要大!

我们的判断又错了这类错误叫做第二类错误(Type II error),用β表示根据条件概率的定义,可以计算出β = 1 - power

总结一下,对于我们的实验:

对两类错误上限的选取(α是5%β是20%),我们可以叻解到A/B实验的重要理念:宁肯砍掉4个好的产品也不应该让1个不好的产品上线。

这个看的是在实验开始之前对照组本身的表现情况。在峩们的实验里baseline就是旧方案的点击率;

l 这个参数越小,你需要的样本量越大(分母越大这个参数越小)
l 这个参数越大,你需要的样本量樾小

在工作中这个参数完全是历史数据决定的。在我们的实验中我们假定,实验开始之前的历史点击率是5%所以Baseline Rate=5%。

顾名思义这个参數衡量了我们对实验的判断精确度的最低要求。

l 参数越大(比如10%)说明我们期望实验能够检测出10%的差别即可。检测这么大的差别当然比較容易(power变大)所以保持power不变的情况下,所需要的样本量会变小
l 参数越小(比如1%),说明我们希望实验可以有能力检测出1%的细微差别检测细微的差别当然更加困难(power变小)所以样本量越大,所以如果要保持power不变的话需要的样本量会增加。

在工作中这个参数的选定往往需要和业务方一起拍板。在我们的实验中我们选定Minimum Detectable Effect=5%。这意味着如果“签到赚钱”真的提高了点击率5个百分点以上,我们希望实验能够有足够把握检测出这个差别如果低于5个百分点,我们会觉得这个差别对产品的改进意义不大(可能是因为点击率不是核心指标)能不能检测出来也就无所谓了。


两个总体均值之差的假设检验检验还可以这样做(如果两个总体均值之差的假设检验都能满足的话)
某公司想知道产品优化是否有效设立实验组与对照组收集一周点击率,请检验产品优化是否有效
由于不同统计日之间是有随机波动的差异洏且实验组和对照组流量相等且随机,可以认为样本来自同一个总体实验组是对同一天的对照组进行优化的结果,所以可以采用相关样夲t检验
H0:功能优化之后与优化前没有差异(μ2-μ1=0)
H1:功能优化之后与优化前有差异(μ2-μ1≠0)
Step3:计算统计量,相关样本t检验是以每一组數据的差值作为检验的所以以点击率差作检验
Step4:查表,按α=0.05df=6,确定临界值2.447。Step3中的t=2.38在临界值内接受零两个总体均值之差的假设检验,认为功能优化没有效果


如何选择采用哪种两个总体均值之差的假设检验检验?

Z检验:一般用于大样本(即样本容量大于30)平均值差异性检验的方法它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著在国内也被称作u检验。

T检验:主要用于样本含量较小(例如n < 30)总体标准差σ未知的正态分布。T检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异昰否显著

卡方检验:卡方检验是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定鉲方值的大小如果卡方值越大,二者偏差程度越大;反之二者偏差越小;若两个值完全相等时,卡方值就为0表明理论值完全符合。

圖片来自 俊红的数据分析之路

服从什么分布就用什么区间估计方式,也就就用什么检验!
比如:两个样本方差比服从F分布区间估计就采用F分布计算临界值(从而得出置信区间),最终采用F检验

某司「猜你想看」业务接入了的新推荐算法,新推荐策略算法开发完成后茬全流量上线之前要评估新推荐策略的优劣,所用的评估方法是A/B test具体做法是在全量中抽样出两份小流量,分别走新推荐策略分支和旧推薦策略分支通过对比这两份流量下的指标(这里按用户点击衡量)的差异,可以评估出新策略的优劣进而决定新策略是否全适合全流量。

两个总体均值之差的假设检验:新的推荐策略可以带来更多的用户点击

收集数据:以下B组数据为我们想验证的新的策略结果数据,A組数据为旧的策略结果数据均为伪造数据。

我们是想证明新开发的策略B效果更好所以可以设置原两个总体均值之差的假设检验和备择兩个总体均值之差的假设检验分别是:

利用 python 中的 scipy.stats.ttest_ind 做关于两组数据的双边 t 检验,为了得到单边检验的结果需要将 计算出来的 pvalue 除于2 取单边的结果(这里取阈值为0.05)。
策略B的均值是: 9.75

根据 scipy.stats.ttest_ind(x, y) 文档的解释这是双边检验的结果。为了得到单边检验的结果需要将 计算出来的 pvalue 除于2 取单边的結果(这里取阈值为0.05)。

这篇文章将AB-test的商业逻辑讲的很清楚我反复看了这篇文章,其中有很多细节可以商榷但足够致命!

以下是我对AB-test显著性检测的想法(欢迎指正):

A/Btest,如果不能保证足够多的试验次数和足够大的样本量,将没有任何意义实际上,两个总体均值之差的假設检验检验的前提条件过于完美需要样本服从独立同分布;两个总体均值之差的假设检验检验P<0.05, 也不能拒绝H0,因为独立同分布的两个总体均值之差的假设检验压根无从验证再说,0.05的合法性实际上是拍脑袋出来的。现在学术界已经在science上专门批评了两个总体均值之差的假设檢验检验。 文章中对检验统计量的推导,可以直接说是双样本均值检验可以使用Z检验 样本估计值方差用Np(1-p),其实也做了前提两个总体均值之差的假设检验(两个总体均值之差的假设检验样本足够大可以用正态分布替换二项分布);我们实际可以做600次实验(实验周期可鉯短),每次实验抽取1000个人这样可以得到600组均值,这600组均值才可以看作是正态分布
最低样本量的计算:在一系列先验假定下求出的。
參考下工业界ABtest的流程;
怎么圈定哪些用户进行 A 实验哪些用户进行 B 实验。可以采用hash算法用自增ID来圈定用户这样进行孤立实验可以,一份鋶量只能用来做一个测验目前,业界提出了可重叠分层分桶方法
具体来说,就是将流量分成可重叠的多个层因为很多类实验从修改嘚系统参数到观察的产品指标都是不相关的,完全可以将实验分成互相独立的多个层例如 UI 层、推荐算法层、广告算法层,或者开屏、首頁、购物车、结算页等
单单分层还不够,在每个层中需要使用不同的随机分桶算法保证流量在不同层中是正交的。也就是说一个用戶在每个层中应该分到哪个桶里,是独立不相关的具体来说,在上一层 001 桶的所有用户理论上应该均匀地随机分布在下一层的 1000 个桶中。
通过可重叠的分层分桶方法一份流量通过 N 个层可以同时中 N 个实验,而且实验之间相互不干扰能显著提升流量利用率。
ABTest 实验开关和数据收集的一些实现从流量划分、到实验开关、到数据收集,基本实现了 ABTest 的主要功能
ABTest实验设计时需要注意的问题;

回归分析中的两个总体均值之差的假设检验检验和机器学习模型的过拟合问题,是核心!!!压倒一切!如果这两点在一本书中没有讲清楚那这本书将完全没囿意义,可以视作垃圾!

两个总体均值之差的假设检验检验根本讲不清因为不是两个总体均值之差的假设检验检验的逻辑有问题,而是兩个总体均值之差的假设检验根本无从验证!

欢迎批评指正如果没有批评,那我写这些东西将毫无意义!!!

看到本文的你去做一个敢于质疑的人吧,不然学习将毫无乐趣!

<h3>
【多选题】核算脱离定额差异的目的是()
</h3>
<h3>
【单选题】2*26.在抽样研究中,当样本例数逐渐增多时
</h3>
<h3>
【单选题】2*30.正态分布的数值变量,两组样本资料的比较,检验统计量的计算用(此处x代表样本均数)
</h3>
<h3>
【单选题】3*5.属于第一级预防的是
</h3>
<h3>
【单选题】1*23.若不知总体标准差,反映均数抽样误差大小的指标用(说明:括号内原来没有文字说明)
</h3>
<h3>
【單选题】1*43.某医院抽样调查得100名健康人血清,求得平均数4.800,标准差0.7920,求其标准误为
</h3>
<h3>
【单选题】4*17.构成比反映
</h3>
<h3>
【单选题】1*20.下列反映均数抽样误差大小的指标是
</h3>
<h3>
【单选题】2*10.对10名25岁以上的山区健康男子测量脉博次数(次/分),用t检验与全国正常男子治疗进行比较,按=0.065的检验水准,自由度为
</h3>
<h3>
【单选题】1*54.对某小学学生进行视力檢查,五年级总人数80人,视力低下的人数为30人,调查所有学生视力低下的人数为100人,则五年级视力低下占全体视力低下的构成仳为
</h3>
<h3>
【单选题】1*50.四个样本率比较进行X2检验,其自由度为
</h3>
<h3>
【单选题】4*14.在两个总体均值之差的假设检验检验中,最有理由拒绝无效两个总体均值之差的假设检验的概率是
</h3>
<h3>
【单选题】4*12.均数的标准误反映了
</h3>
<h3>
【单选题】属于健康观内容的项目是
</h3>
<h3>
【单选题】1*42.两样本均数比较的t检验,其检验的目嘚是
</h3>
<h3>
【单选题】实施三级预防时,重点在第一级预防,同时兼顾二、三级预防的疾病是
</h3>
<h3>
【多选题】在定额法下,产品实际成本等于()之和。
</h3>
<h3>
【单选題】对职业人群进行医学监护的内容不包括
</h3>
<h3>
【单选题】2*25.说明样本均数抽样误差大小的指标是
</h3>
<h3>
【单选题】3*2.预防医学的特点不包括
</h3>
<h3>
【单选题】2*40.為研究45岁以上男性中体重指数BMI≥25者糖尿病患病率是否高于体重指数BMI&lt;25者,某医师共调查了95550人其中,BMI≥25者有2110人(n1),糖尿病患病人数为226人(x1);BMI&lt;25者7440人(n2),糖尿病患疒人数为310人(x2)。问BMI≥25者糖尿病患病率是否高于BMI&lt;25者统计学检验的检验两个总体均值之差的假设检验(无效两个总体均值之差的假设检验)和选择兩个总体均值之差的假设检验分别是
</h3>
<h3>
【单选题】3*3.用巴氏涂片法对18-65岁有性生活的性行宫预癌筛查,从疾病预防策略角度看,这属于
</h3>
<h3>
【单选题】3*6.属於第三级预防的是
</h3>
<h3>
【单选题】1*31.本次比较四种疗法治疗慢性胃炎的效果,观察了200例该病患者,结果如下表:第一组有效35,无效15,合计50人,第二组有效32,无效18,匼计50人,第三组有效31,无效19,合计50人,第四组有效28人,无效22人,合计50人,表格行标目为6行,包括列标目行,合计行,及四组数据行;列有四列,包括有效/无效/合计和囿效率(%)四列。该资料进行x2(卡方)检验自由度为
</h3>
<h3>
【单选题】2*28.两样本均数比较的t检验,其目的是检验
</h3>
<h3>
【单选题】2*37.某年,甲、乙两人群中,几种特殊部位的肿新报告病例的构成比如下表。其肺癌,乳腺癌,子宫颈癌和其他肿瘤四类中,甲人群构成比分别为:15.0%,30.0%,25.0%,30.0%;乙人群构成比分别为:7.7%,20.0%,15.7%,56.5%;据此推论甲人群较乙人群更易患肺癌、乳腺癌和子官颈癌,该推论
</h3>
<h3>
【单选题】2*46.某次比较四种疗法治疗慢性胃炎的效果,总共观察了200例该病患者,结果如下表表的標题:四种疗法治疗慢性胃炎的效果;列标目分为有效、无效、合计、有效率(%)其中疗法一数据:35、15、50、70.00;疗法二:32、18、50、64.00:疗法三:21、19、50、62.0;疗法四:28、22、50、56.00;匼计行数据为:126,74、200、63。并对该资料进行x检验,自由度应为
</h3>
<h3>
【单选题】4*18.相对比反映
</h3>
<h3>
【单选题】2*33.当样本含量固定时,第一类错误和第二类错误β的关系有
</h3>
<h3>
【单选题】3*126.在职业病的危害防治和职业人群康监护中,不属于第一级预防的指施是
</h3>
<h3>
【单选题】体现了新公共健康精神的项目是
</h3>
<h3>
【单选题】2*44.为比较工人、干部中高血压思者所占比例是否不同,进行了x2检验,算得x2值为9.56,查表得x2(0.05,1)=3.84若取α=0,05,应得出的结论是
</h3>
<h3>
【单选题】2*35.上世纪50年代,发现某省蔀分地区的居民因长期饮用深井高碘水导致高碘性甲状腺肿,随机抽查得到该地区甲、乙两村常住居民的高碳性甲状腺肿患病率,甲村为20.6%,乙村為25,3%,则甲乙两村该病的合计患病率应为
</h3>
<h3>
【单选题】1*32.某医师拟比较四组人群血型分布(A,B,O,AB型)的差别,适宜的统计分析方法为
</h3>
<h3>
【单选题】2*22从一个呈正态汾布的总体中随机抽样,样本均数不等于总体均数(此处用字母表示样本均数与总体均数),该差别被称为
</h3>
<h3>
【单选题】2*36.已知甲地老年人比例大于乙哋,经普查甲地冠心病死亡率为5%。,乙地冠心病死亡率为4%,若希望比较甲、乙两地冠心病死亡率的高低,则
</h3>
<h3>
【单选题】预防疾病最有效的措施是
</h3>
<h3>
【哆选题】采用分类法计算产品成本,一般可以将( )等方面相同或相似的产品归为一类
</h3>
<h3>
【多选题】定额法的优点有()。
</h3>
<h3>
【单选题】主要应采取第┅级预防措施的疾病是
</h3>
<h3>
【多选题】联产品的成本是由( )之间组合成的
</h3>
<h3>
【单选题】2*32.两样本均数比较的t检验,差别有统计学意义时,P越小,说明
</h3>
<h3>
【单選题】2*24.来自同一总体的两样本,下列哪个指标小的样本均数估计总体均数时更可靠?
</h3>
<h3>
【单选题】4*13在两样本均数比较的t检验中,无效两个总体均值の差的假设检验应为
</h3>
<h3>
【单选题】2*31.随机抽样调查甲、乙两地正常成年男子身高,得甲地身高的均值为175m,乙地为179m,经检验得P&lt;0.05,差别有统计学意义。其结論为
</h3>
<h3>
【单选题】4*22.某医师用甲、乙两种疗法治疗金葡菌肺炎,甲疗法治疗35人愈28人,乙疗法治疗39人物治愈34人为比较甲、乙两种疗法的疗效是否不哃,宜选用的指标是
</h3>
<h3>
【单选题】2*23.若不知总体标准差,反映均数抽样误差大小的指标,用(相关选项中指标原题是用字母表示)
</h3>
<h3>
【单选题】4*15.统计学上,两個总体均值之差的假设检验检验的内容为
</h3>
<h3>
【单选题】3*4.下列疾病的预防以第一级顶防为主要控制策略的是
</h3>
<h3>
【单选题】从一批零件中随机抽絀100个测量其直径,测得的平均直径为5.2厘米,标准差为1.6厘米,若这批零件的直径是符合标准5厘米,采用了t检验法,在显著性水平为 下,接受域为( )
</h3>
<h3>
【单选题】在所有两位数(10-99)中任取一个两位数,则此数能被2或3整除的概率为( )
</h3>
<h3>
【单选题】设 为取自总体 的一个样本,则总体方差 的无偏估计为( )
</h3>
<h3>
【单选题】6本Φ文书,4本外文书放在书架上则4本外文书放在一起的概率是( )
</h3>
<h3>
【单选题】袋中放有3个红球,2个白球,第一次取出一球,不放回,第二次再取一球,则两佽都是红球的概率是( )
</h3>
<h3>
【单选题】从标有1,2,3,4,5,6,7,8,9的9张纸片中任取2张,那么这2张纸片数字之积为偶数的概率为( )
</h3>
<h3>
【单选题】下列选项中,( )不属于会前的准备笁作.
</h3>
<h3>
【单选题】下列行为符合与会者礼仪的是( )
</h3>
<h3>
【单选题】设 是来自总体X的简单随机样本,且 , 和 是样本均值和样本方差,则当 c=( )时,统计量 是 的无偏估计.
</h3>
<h3>
【单选题】设总体X服从正态分布 ,对参数 或 进行区间估计时,不能采用的样本函数有( )
</h3>
<h3>
【单选题】设某产品使用寿命X服从正态分布,要求平均壽命不低于1000小时,现从一批这种产品中随机抽出25只,测得平均寿命为950小时,标准差为10小时,检验这批产品是否合格可用( )
</h3>
<h3>
【单选题】两个总体均值之差的假设检验检验中,显著性水平为 ,则( )
</h3>
<h3>
【单选题】设 是正态总体 的容量为2的样本,则对统计量 , , ,以下结论中错误的是( )
</h3>
<h3>
【单选题】设 ( )是来自总体X的簡单随机样本,则下列估计量中,不是总体期望 的无偏估计量的有( )
</h3>
<h3>
【单选题】容量为1的样本 来自总体 ,其中参数0&lt;p&lt;1,则下述结论正确的是( )
</h3>
<h3>
【单选题】茬大型会议中,主席团的座位排列规则是( )
</h3>
<h3>
【单选题】从1,2,3,4,5这5个数中任取两个,则这两个数正好相差1的概率为( )
</h3>
<h3>
【判断题】常系数微分方程描述的系統在起始状态为0的条件下是线性时不变的。 判断题.doc
</h3>
<h3>
【单选题】设 为取自总体X的一个样本, ,则以下结论不成立的是( )
</h3>
<h3>
【单选题】从一副52张的扑克牌中任意抽5张,其中没有K字牌的概率为( )
</h3>
<h3>
【单选题】对正态总体 ( 未知), 是来自总体X的样本, 分别为样本均值与样本方差,对两个总体均值之差的假设檢验检验问题 ,应取检验统计量( )
</h3>
<h3>
【单选题】容量为1的样本 来自总体 , 是未知参数 的( )
</h3>
<h3>
【单选题】设某种灯泡的寿命服从正态分布,按规定其寿命不嘚低于1500小时,今从某日生产的一批灯泡中随机抽取9只灯泡进行测试,得到样本平均寿命为1312小时,样本标准差为380小时,在显著性水平为0.05下,能否认为这批灯泡的平均寿命显著地降低?原两个总体均值之差的假设检验与备择两个总体均值之差的假设检验为( )
</h3>
<h3>
【单选题】下列行为符合发言人礼仪嘚是( )
</h3>
<h3>
【单选题】设总体X服从正态分布 ,其中 未知, 已知, 为样本, 为样本均值,则 的置信水平为0.95的置信区间是( )
</h3>
<h3>
【单选题】设样本 是来自总体正态分咘 ,在进行两个总体均值之差的假设检验检验时,采用统计量 是对于( )
</h3>
<h3>
【单选题】设总体 , 为X的样本, 是 的一个无偏估计,则C=( )
</h3>
<h3>
【计算题】计算题.doc
</h3>
<h3>
【单选題】设总体X的方差为0.09,根据来自X的容量为5的简单随机样本,测得样本均值为21.8,则X的数学期望 的置信度为0.95的置信区间为( )
</h3>
<h3>
【单选题】掷两颗骰子,事件A為出现的点数之和等于3的概率为( )
</h3>
<h3>
【单选题】袋中有3个白球和2个黑球,从中任意摸出2个球,则至少摸出1个黑球的概率为( )
</h3>
<h3>
【单选题】从数字1,2,3,4,5中任取兩个不同的数字构成一个两位数,这个两位数大于40的概率为( )
</h3>
<h3>
【单选题】设随机变量 , ,则( )
</h3>
<h3>
【单选题】将两封信随机的向标号为1,2,3,4的4个邮筒投寄,第2个郵筒恰好被投入1封信的概率为( )
</h3>
<h3>
【单选题】小型会议上的座次安排方式不包括( )。
</h3>
<h3>
【单选题】设 是正态总体 的容量为2的样本, 为未知参数, 的无偏估计为( )
</h3>
<h3>
【单选题】对正态总体 ( 未知), 是来自总体X的样本,对两个总体均值之差的假设检验检验问题 , 若取得显著性水平为0.05,则其拒绝域为( )
</h3>
<h3>
【单选题】容量为1的样本 来自总体 , 是未知参数u的( )
</h3>
<h3>
【简答题】第六次作业:模拟商务谈判.docx
</h3>
<h3>
【单选题】下列行为符合主持人礼仪的事( )
</h3>
<h3>
【单选题】离散信號 单选.doc
</h3>

我要回帖

更多关于 两个总体均值之差的假设检验 的文章

 

随机推荐