小咖有话说:经常关注医咖会的小伙伴可能知道,我们之前已经推送过多篇关于“多重线性回归”的文章。这次推送的版本呢,有些内容在之前讲到过,有些内容是新添加进去的。对多重线性回归感兴趣或者未来有可能用到的伙伴,这篇文章请务必收藏,因为讲解实在是太详细了。
一、问题与数据
最大携氧能力是评价人体健康的关键指标,但因测量方法复杂,不易实现。具体原因在于,它不仅需要昂贵的试验设备,还需要受试者运动到个人承受能力的极限,无法测量那些没有运动意愿或患有高危疾病无法运动的受试者。
因此,某研究者拟通过一些方便、易得的指标建立受试者最大携氧能力的预测模型。该研究者共招募100位受试者,分别测量他们的最大携氧能力,并收集年龄、体重、心率和性别等变量信息,部分数据如下:
本研究Durbin-Watson检验值为1.910。一般来说,Durbin-Watson检验值分布在0-4之间,越接近2,观测值相互独立的可能性越大。即,本研究中多重线性回归的观测值具有相互独立性,满足假设3。
多重线性回归不仅要求因变量与所有自变量存在线性关系,还要求因变量与每一个自变量之间存在线性关系。应该如何检验这个假设呢?
经上述SPSS操作,我们得到未标化预测值和学生化残差两个新增变量。为检验因变量与所有自变量之间是否存在线性关系,我们需要绘制这两个变量的散点图。
其实这个表并不是为多重线性回归模型设计,主要描述的是逐步回归和层次回归的变量纳入情况。但我们依旧可以从这个表中看到该研究的基本信息: Variables Entered栏显示该研究纳入的自变量包括gender、age、heat rate和weight; Method栏显示纳入方法为Enter; 该回归模型是Model 1。
2. 判断多重线性回归模型的拟合程度
判断多重线性回归模型拟合程度的指标有很多,我们主要向大家介绍多重相关系数、变异的解释程度、模型的统计学意义以及预测值的准确性4个指标。
从表中可以看出,年龄斜率的95%置信区间在-0.290~-0.041ml/min/kg。同时,在Sig栏可以得到斜率的统计学检验结果,如下:
2. 具体汇报
本研究采用多重线性回归,根据性别、年龄、体重和心率预测最大携氧能力。通过绘制部分回归散点图和学生化残差与预测值的散点图,判断自变量和因变量之间存在线性关系。
已验证研究观测值之间相互独立;并通过绘制学生化残差与未标化的预测值之间的散点图,证实数据具有等方差性。回归容忍度均大于0.1,不存在多重共线性。异常值检验中,不存在学生化删除残差大于3倍标准差的观测值,数据杠杆值均小于0.2,也没有Cook距离大于1的数值。Q-Q图提示,研究数据满足正态假设。
回归模型具有统计学意义F = 32.393,调整R2表1. 多重线性回归结果
相关阅读
1. SPSS实例教程:自变量多重共线性怎么办?
2. SPSS教程:做多重线性回归,方差不齐怎么办?
3. SPSS详细操作:正态转换的多种方法
医咖会微信:medieco-ykh关注医咖会,轻松学习统计学!
我们建了一个微信群,有临床研究设计或统计学方面的难题?快加),拉你进群和其他小伙伴们一起交流学习。