首页 > 搜索 > 及时的几组词,又一个最常用的统计学方法——方差分析

及时的几组词,又一个最常用的统计学方法——方差分析

互联网 2021-03-03 07:49:00

我写的文章不多,其中阅读量最大的一篇,是这篇最常用的统计学分析方法--假设检验(大家也可以在读本文前,先读这一篇,相同的思路有助于快速学习理解)。文章中列举了很多可用的假设检验,唯独缺了最常用的方法之一——F检验。因为Matlab将其单独作为一章,即方差分析,可见其重要性不言而喻。方差分析和F检验是同义词,从定义上看,方差分析是一种将样本方差分配到不同来源的过程,判定方差在组间和组内是否(明显)具有区别的一种方法。如果组内差异相对于组间差异较小,则可以推断出组与组之间是有明显差异的。简单来说就是看看两组或几组样本是不是来自同一个总体。(本文为了兼顾各种理解,采用了方差、变异、差异等多个意义类似的术语)

广义的方差分析分为以下几类方法:

(1)单因素方差分析(1-way ANOVA)

(2)双因素方差分析(2-way ANOVA)与多因素方差分析(N-way ANOVA)

(3)协方差分析(ANCOVA)

(4)多响应方差分析(MANOVA)

(5)重复测量(Repeated Measures)

1-way ANOVA是以上所有方法的基础,本文只介绍 1-way ANOVA。

一、1-way ANOVA的基本思想

F检验作为一个假设检验,首先还是要有一组对立的假设。其零假设认为所有组的均值都相等,备择假设则认为所有组的均值不全相等(即至少有一个组的均值与其它具有显著差异)。

方差分析的核心思想一句话:“所有样本的总差异可以分解为组间差异和组内差异”。

核心公式1

我们设总样本数为N,组数为k(k大于等于2),其中:

(1)总差异(SST):全部样本与全体样本均值的总差异,总差异的自由度为N-1。总差异的均方在分析中一般用不到。

(2)组间差异(SSR):组均值与总体均值的差异%2c组间差异的自由度为k-1,因此组间差异的均方(MSR)为SSR/k-1

(3)组内差异(SSE):具体每个样本与其所在组均值的差异,组内差异的自由度为N-k%2c因此组内差异的均方(MSE)为SSE/N-k

MSR和MSE的比值,就是F统计量。理论证明,当H0成立时,F统计量服从对应自由度分别为k-1,N-k的F分布。F值越接近1,就越没有理由拒绝H0;反之,F值越大,拒绝H0的理由就越充分。算出来一除就行了,是不是也很简单。

核心公式2

二、方差分析表(ANOVA Table)方差分析表是最终展示所有分析结果的表格,整个分析的最终目的,其实就是填满这个表,表填满了,我们就完成了任务。这个表基本在所有统计软件都会有,而且形式也差不多。

常见的单因素方差分析表中每个格的值,p值由F分布的积累密度函数(cdf)计算得出SPSS的方差分析表MATLAB的方差分析表MATLAB的1-way ANOVA还默认自带样本的分组箱线图

三、多重比较 如果p值很小,从而推翻了零假设,同时你的数据数量多于两组的时候。你可以用“多重比较”来确定到底是哪个组的均值不同于其他组。当然这就会有很多组比较结果,画出一个清晰的图可以让你对结果一目了然。

多重比较图可以直观的看出某一组样本和其它哪几个组有显著差异,图中1组和2、3、4组都有显著差异,和5组没有显著差异。

四、注意事项(1)ANOVA首先假设所有样品成正态分布(可以首先用假设检验检查样本的正态性,有好几种选择,这里暂时不列出)而且ANOVA对正态性的要求比较敏感。

(2)单因素方差分析中的“因素”,是研究中关注的内生变量,或者说响应变量。所以核心公式1中用的是y。当响应和预测因素同时存在时,应该选择协方差分析。

五、结束语

方差分析作为一个常用的分析方法,其F函数却是一个包含伽马函数的复杂公式,其中的伽马函数是阶乘的解析延拓,一个积分形式的超越函数,所以建议不要从F函数的角度去理解F检验,也不要想着去查表。选择一款统计软件,学会使用内置函数,学会基本原理,才是正确的方式。

F函数,其中v1、v2为自由度F函数在常用自由度下的图像,p值为对应F值右侧的面积伽马函数是阶乘运算的解析延拓我们

免责声明:非本网注明原创的信息,皆为程序自动获取互联网,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责;如此页面有侵犯到您的权益,请给站长发送邮件,并提供相关证明(版权证明、身份证正反面、侵权链接),站长将在收到邮件12小时内删除。

一周热门

查看更多