1.t检验和f检验的起源
一般来说,为了确定从样本的统计结果推断到整体时出错的概率,我们会使用统计学家开发的一些统计方法进行统计验证。
通过将获得的统计验证值与统计学家建立的一些随机变量的概率分布进行比较,我们可以知道我们获得当前结果的概率百分比。如果对比之后发现这个结果的概率很小,也就是说只有在极少数情况下才会出现,那么我们可以自信地说这不是巧合,而是有统计意义的。相反,如果我们比较后发现发生的概率很高,并不罕见,那么我们就不能自信地指出这不是巧合,也许是巧合,也许不是,但我们也不能确定。
f值和t值是这些统计验证值,与之对应的概率分布是f分布和t分布。统计显著性是当前样本结果的概率。
2.统计显著性
结果的统计显著性是一种估计结果真实性的方法。从专业上讲,P值是结果可靠性的递减指标。P值越大,我们越不能认为样本中变量的相关性是总体中变量相关性的可靠指标。p值是观察结果被认为有效时出错的概率。如果p=0.05,则表明样本中有5%的变量与偶然性有关。
即假设种群中的任何变量之间都不存在相关性,我们重复类似的实验,发现在大约20个实验中有一个实验,我们研究的变量之间的相关性将等于或强于我们的实验结果。这并不是说如果变量之间存在相关性,我们就能得到5%或95%倍的相同结果。当人口中的变量之间存在相关性时,重复研究和发现相关性的可能性与设计的统计有效性有关。在许多研究领域中,P值0.05通常被认为是可接受误差的边界水平。
3.t检验和F检验
至于具体要验证的内容,就看你在做哪个统计程序了。
举个例子,比如你要测试两个独立样本的均值差是否可以整体推断出来。
一个变量在两个样本中的均值是不一样的,但是这种差异可以推断为整体吗,代表整体的情况也有差异吗?
男生和女生总的来说会不会没有区别,就因为你这么聪明画出来的这两个样本的值不一样?
因此,我们进行t验证并计算一个t验证值。
将其与统计学家建立的基于“整体没有差异”的随机变量t分布进行比较,看看它获得当前结果的几率有多大。
如果显著sig值很少,比如每种统计方法的内容都不一样,也是t检验,可能是上述检验总体是否存在差异,也可能是检验总体中单个值是否等于某个值。
至于f检验和方差分析,其原理与上述大致相同,但都是通过考察变量的方差来进行的。主要用于均值差的显著性检验、相关因素的分离及其对总变异影响的估计、因素间相互作用的分析和方差齐性检验。
4.t检验与f检验的关系
t检验过程是检验两个样本平均值之间差异的显著性。但是,t检验必须知道两个总体的方差是否相等;t检验值的计算将根据方差是否相等而不同。也就是说,t检验依赖于方差齐性的结果。因此,SPSS既要做均值相等的t检验,也要做方差相等的levene检验。
1.在列文的方差相等测试中,f值是2.36,Sig。is .128,这意味着方差齐性检验“没有显著差异”,即两个方差是齐性的,所以下表的t检验结果取决于第一行的数据,即齐性方差条件下t检验的结果。
2.在均值相等的t检验中,第一行的情况:t = 8.892,df = 84,2-tailsig = .000,均值差= 22.99
由于Sig=.000,即两个样本的平均值之间的差异是显著的!
3.勒文方差相等检验中的sig,还是均值相等检验中的Sig?
答案是:两者都要看。
先看levene的方差相等性检验,如果方差齐性检验“没有显著差异”,即两个方差是齐性的,那么第一行的数据应该在后续t检验的结果表中看到,也就是齐性方差条件下t检验的结果。
相反,如果方差齐性检验是“显著不同”,即两个方差不一致,那么第二行的数据应该在后续T检验的结果表中看到,即在方差不均匀的情况下T检验的结果。
5.你做的是测试。为什么有f值?
这是因为我们要评估两个总体的方差是否相等,对方差相等做Levene检验,检验方差,所以我们有f值。
6.另一种解释是:
T检验包括单样本T检验、配对T检验和双样本T检验。
单样本t检验:将样本均值代表的未知总体均值与已知总体均值进行比较,观察这组样本与总体之间的差异。
配对t检验:采用配对设计方法观察以下情况:1 .两名同质受试者分别接受了两种不同的治疗;2.同一受试者接受了两种不同的治疗;3.同一受试者治疗前后。
f检验也叫方差齐性检验。双样本t检验应使用f检验。
样本是从两个研究人群中随机抽取的。在比较这两个样本时,首先要判断两个总体方差是否相同,即方差的同质性。如果两个总体方差相等,可以直接使用t检验;如果它们不相等,可以使用t检验或变量变换或秩和检验。
如果要判断两个总体方差是否相等,可以用F检验。
如果是单组设计,必须给出标准值或总体均值,同时必须提供一组定量观察结果。应用T检验的前提是这组数据必须服从正态分布;如果是配对设计,各对数之差必须服从正态分布;在群体设计的情况下,个体是相互独立的,两组数据均取自正态分布的总体,满足方差齐性。之所以需要这些前提条件,是因为在这样的前提条件下计算出来的T统计量必须服从T分布,而T检验是基于T分布的检验方法。
简单来说,实际的T检验是有条件的,其中一个条件是满足方差齐性,这需要F检验来验证。
7.统计显著性
结果的统计显著性是一种估计结果真实性的方法。从专业上讲,P值是结果可靠性的递减指标。P值越大,我们越不能认为样本中变量的相关性是总体中变量相关性的可靠指标。p值是观察结果被认为有效时出错的概率。如果p=0.05,则表明样本中有5%的变量与偶然性有关。即假设种群中的任何变量之间都不存在相关性,我们重复类似的实验,发现在大约20个实验中有一个实验,我们研究的变量之间的相关性将等于或强于我们的实验结果。这并不是说如果变量之间存在相关性,我们就能得到5%或95%倍的相同结果。当人口中的变量之间存在相关性时,重复研究和发现相关性的可能性与设计的统计有效性有关。在许多研究领域,0.05的P值通常被认为是可接受误差的边界水平。
8.如何判断结果是否真正有意义
在最终结论中判断什么样的显著性水平具有统计学意义不可避免地是武断的。换句话说,对结果被认为无效和拒绝的级别的选择是任意的。在实践中,最终的决策通常取决于数据集比较和分析过程中的结果是先验的还是仅仅是手段之间的成对比较,总体数据集内具有一致结论的支持证据的数量,以及该研究领域过去的实践。通常在很多科学领域,P值≤0.05的结果被认为是统计显著性的边界线,但这个显著性水平也包含着很高的出错可能性。结果0.05≥p>0.01具有统计学意义,0.01≥p≥0.001具有较高的统计学意义。但需要注意的是,这种分类只是基于研究的非正式判断套路。
9.所有检验统计数据都是正态分布吗?
不完全是,但大多数检验都是直接或间接相关的,可以从正态分布推导出来,如T检验、F检验或卡方检验。这些检验一般要求被分析的变量在整个人群中呈正态分布,即满足所谓的正态假设。很多观测变量确实是正态分布,这也是为什么正态分布是现实世界的基本特征。当人们使用基于正态分布的测试来分析非正态分布变量的数据时,问题就出现了。
在这种情况下,有两种方法:一种是使用替代的非参数检验,但这种方法不方便,因为从它提供的结论形式来看,这种方法在统计学上是低效和不灵活的。另一种方法是,当确定样本量足够大时,基于正态分布的检验仍然可以使用。后一种方法基于一个非常重要的原理,在基于正态方程的整体测试中发挥着极其重要的作用。即随着样本量的增加,样本分布的形状趋于正态,即使被研究变量的分布不正态。
编辑:李小艳陈 晶排版:张 迪