注:医学研究回归模型的效应值有很多种,乱用误用现象频出,本篇文章搜集了知乎、csdn网的相关知识以求区分和正确解释这些效应值。
OR值
odds: 称为几率、比值、比数,是指某事件发生的可能性(概率)与不发生的可能性(概率)之比。用p表示事件发生的概率,则:odds =p/(1-p)。
OR:比值比,为实验组的事件发生几率(odds1)/对照组的事件发生几率(odds2)
logistic回归模型公式
ln(y2/(1-y2)/y1/(1-y1))= β
y2/(1-y2)/y1/(1-y1)=exp(β)
可以得出关系: OR =exp(β)
举例
根据这个交叉表,对于男性(Male),其处在荣誉班级的概率为17/91,处在非荣誉班级的概率为74/91,所以其处在荣誉班级的几率odds1=(17/91)(74/91)=17/74=0.23;相应的,女性处于荣誉班级的几率odds2 =(32/109)/(77/109)=32/77=0.42。女性对男性的几率之比OR=odds2/odds1=0.42/0.23=1.809。
回到Logistic回归结果,变量female的系数为0.593,是女性对男性的OR值的对数,In(1.809)=0.593.
RR值
RR值:暴露组患病率/对照组患病率
可以看出RR值是最好解释的效应值
根据上图,以求得or=1.809,那么我们可以说,女性比男性在荣誉班的几率高80.9%??
上述说法不准确,手动计算RR,得RR=1.572,低于1.809,因而我们发现当事件的发生率较高(>10%)时,若仍用OR描述关联强度,则会高估暴露与结局的关联。
因此,当疾病患病率较高时我们采用log-binomial回归
ln(y2/y1)= β
y2/y1=exp(β)
可以得出关系: RR =exp(β)
HR值
与RR值的解释类似,主要用于生存分析,相当于是考虑了生存时间的RR值。
什么叫做考虑了生存时间呢?举个例子吧!在队列研究的随访调查中(同样是吸烟-肺癌试验),计算RR值只需要记录调查者最终是否患肺癌的情况,而不考虑他们在随访调查的哪一个时间点或时间段患肺癌,这在一定程度上就浪费了随访信息,为了充分利用生存时间,HR值就出现了,所以说HR值是RR值的一种推广。
待补充…..
IRR值
有点类似RR,但常适用于poisson回归模型(对数线性回归)、类poisson回归模型等因变量为罕见事件发生次数的情况。
泊松回归是回归分析的广义线性模型形式,用于对计数数据和列联表进行建模。泊松回归假设响应变量Y具有泊松分布,并假设其期望值的对数可以通过未知参数的线性组合来建模。泊松回归模型有时被称为对数线性模型。
poisson回归公式
ln(y2/y1)= β
y2/y1=exp(β)
可以得出关系: IRR =exp(β)
由于因变量为罕见事件发生数,poisson回归IRR可解释为:
对应X每增加1,事件件发生次数增加1-IRR倍
那么我们可能有一个问题:poisson回归似乎和log-binomial回归模型公式是一样的,为什么结果不同?
1.因变量类型不同
2.因变量服从的分布不同,log-binomial因变量服从伯努利分布,而poisson回归假设因变量服从均值和方差相等的poisson分布
3.由2进一步导致参数估计时,他们的似然函数也不相同,进而参数估计结果也不同
本文主要聚焦于系数解释上的差别,有关模型的差别,可以参考下面的文章