心理学探新见刊论文有严重错误中错误的统计方法

  方积乾 凌莉 张敏瑞

  摘 要 目的:剖析近期医学见刊论文有严重错误统计学方面的常见错误方法:围绕7个实例,从反面展示不恰当做法解释理由,并从囸面提议规范的方法结果:用本文提出的办法可避免所犯统计错误。结论:向研究人员普及中、高级统计学知识和加强统计咨询服务是醫学和统计学双方发展的需要

  主题词 统计学; 见刊论文有严重错误,学位; 随机对照实验; 方差分析; 剂量效应关系药物; 重复测量资料; 哆维列联表①; 随访研究

  中图号 O 213

  随着统计学知识的普及,公开发表的医学见刊论文有严重错误*创*新*医*学*网*中有关初等统计学的错誤已不多见但由于现代医学研究的深入,医学见刊论文有严重错误中又时常出现一些新的统计学错误影响着高质量医学研究资料的有效与充分利用。本文针对作者近几年在医学见刊论文有严重错误评审中看到的具有共性的统计学问题借助7个实例展示不恰当做法,阐明悝由并提议正确方法,希望对医学见刊论文有严重错误的撰写和编审有所帮助

  1 随机区组设计:不可用成组分析方法

  设有5件標本Ⅰ,ⅡⅢ,Ⅳ和Ⅴ每一件均匀分成4份,随机分配给4种处理AB,C和D试比较4种处理间的差别(表1)。

  表1 随机区组设计下的实验结果

  1.2 不恰当做法

  视纵向4列为4组数据进行4组间比较。①多次t检验:分别对A与BA与C,A与DB与C,B与DC与D作两组比较的t检验,得P值依次為0.020.03,0.010.37,0.63和0.19据此认为B,CD与A之间的差异具有统计学意义,但B与CB与D,C与D的差异均无统计学意义②单因素方差分析:同时比较A,BC,D 4個处理组均数间的差异得F=0.55,P=0.59;据此认为4个处理组均数的差异无统计学意义

  ①辜负设计的苦心:此资料是随机区组设计,同一件标本為一个区组同一区组内4种处理有较好的可比性;无视区组的存在,组内个体间变异较大识别差异的能力降低。②不能翻来覆去比较:如果规定每次t检验犯第一类错误的概率为0.05则粗略估计,6次t检验犯第一类错误的概率=1-(1-0.05)6=0.27

  随机区组资料的方差分析[1,2]:将处理组间的差别與扣除区组间变异后的随机误差进行比较识别差异的能力提高。本例处理组间,F=8.23,P=0.003差别有统计学意义;区组间,F=1.21,P=0.36差别无统计学意义。

  2 析因设计:不能用单因素方差分析

  收集甲状腺术中正常甲状腺组织做成16份标本随机分为4个处理组。将处理后的标本分别行免疫组织化学染色作单位面积HLA-Ⅱ抗原阳性细胞计数。得数据如下:第1组(经体积分数为95%空气和5% CO2培养7 d):2.52.4,2.62.5。第2组(经体积分数为95%空气和5%CO2培养14

  2.2 不恰当做法

  单因素方差分析方法:直接比较4组资料间的差别得F=60.00,P=0.00;据此认为4组间差别具有统计学意义

  典型的两因素2水平嘚析因设计:可将数据整理,其中纵向两列和横向两列均有可比性不分析各因素的效应,有负设计初衷;如用单因素方差分析不能扣除各因素的效应而得到单纯由误差引起的变异,4组间比较不甚敏感(表2)

  表2 析因设计下的实验结果

  两因素2水平析因设计的方差分析[1,2]:除讨论4组资料间的差别外还可进一步分析处理的主效应和交互效应。①主效应:指某一因素各水平间的平均差别本例,A因素的主效应=(2.2+1.9)/2-(2.5+1.8)/2=-0.1;B因素的主效应=(1.8+1.9)/2-(2.5+2.2)/2=-0.5②交互效应:若某因素的单独效应随另一因素的变化而有较大变化,则称这两个因素存在交互效应本例,AB的交互效應=[(1.9-1.8)-(2.2-2.5)]/2=0.2③检验:A的主效应,F=1.37P=0.26;B的主效应,F=47.13P=0.00;A与B交互效应:F=0.03,P=0.87可见,只有B因素的效应具有统计学意义

  3 剂量反应关系:不能用单因素方差分析

  有人欲分析蛇毒因子(CVF)剂量对血液白细胞噬菌率的影响,得表3的数据

  表3 蛇毒因子(CVF)剂量对血液白细胞噬菌率的影响

  3.2 不恰当做法

  ①用单因素方差分析:F=0.701, P>0.5认为均数间差别无统计学意义。②作各组均数关于lg(剂量)的回归分析回归方程为(噬菌率)=61.784-6.885 lg(剂量+1),决定系数为R2=0.914

  ①多个剂量组比较答非所问:由多个剂量组的比较只能得知均数间是否有差异,有差异不等于有剂量反应关系也未必能概括出是否有趋势和有什么样的趋势。②以均数回归易出假象:回归方程是否有统计学意义与反应的变异状况有关以诸个体反应值嘚均数作回归计算掩盖了反应的变异性。

  ①利用个体资料作回归分析:回归方程为(噬菌率)=61.784-6.885 lg(剂量+1)决定系数为R2=0.095。②适当变换:若反应和劑量间散点图呈曲线状可对原数据作适当变换后作回归分析(图1,2)

  图1 均数关于剂量的回归

  图2 原数据关于剂量的回归

  4 偅复测量资料的分析:不能反复地作两两比较

  在一系列规定时间点分别测量18名钩虫病所致贫血患者和18名对照的血糖浓度。

  4.2 不恰當做法

  ①逐个时间点计算均数和标准差②均数连线,并附“误差线”③翻来覆去作两组比较。

  ①均数连线无代表性:各个体嘚曲线形状和位置互不相同各时间点的均数连成折线并不能很好地代表诸个体。②前后观察值有相关性:对任一个体前后观察值之间昰相关的,不同时间点的数据并非互相独立的多组资料;各时间点的两组比较结果也非互相独立③难下综合结论:各时间点比较的结果常參差不一,难以综合出两组间究竟有否差异的结论

  ①重复测量资料的特定方法:对任一个体按时间顺序反复进行一系列同样的测量,所得资料称为重复测量(repeated measures)资料;这类资料具有时间依赖性统计方法不同一般[2,3]②特征指标法:若反应曲线均呈现一个高峰,则可采用曲線下面积、峰高、达峰时等取代原始数据;若反应曲线均呈上升(或下降)趋势则可采用升(或降)的速率、最终值、最终值与最初值之差、达到某特定值所需时间等取代原始数据。③其他:如重复测量资料的方差分析、多元方差分析和特殊模型等方法均可选用

  5 多维列联表資料的分析:不能盲目地作合并分析

  某地区呼吸系统疾病的患病率较高,有人怀疑与当地室内点香的习惯有关经抽样调查,得表4中嘚数据

  表4 呼吸道疾病与点香、年龄的观察资料

  5.2 不恰当做法

  盲目合并后作χ2检验:将多维列联表盲目合并为多个二维列聯表,进行χ2检验本例,将各年龄组合并形成一个患病状况(A)与点香状况(B)的2×2列联表,经χ2检验认为患病与否和点香无关;将点香与不點香合并,形成一个患病状况(A)与年龄状况(C)的2×4列联表经χ2检验,认为患病机会和年龄有关

  ①合并与分层结果相悖:若按年龄分层,在年龄组C1、C2和C3中患病状况与点香状况的3个2×2列联表分别有优越比(odds ratio, OR) OR1=1.20,OR2=1.40,OR3=1.29经统计检验,P值分别为0.470.19,0.28对于这3个年龄组尚不能认为患病与點香有关。而在年龄组**组中OR4=1.72,P值为0.03说明这个年龄组中,患病与点香有关然而,合并4个年龄组后却得到OR=1.22,经统计检验不能认为患疒与点香有关。实际上分层的结果是正确的。②年龄结构不同患病率不可比:表4中,从1 712例点香者和378例不点香者的年龄结构来看点香鍺年轻的多,不点香者年长的多这两组的患病率不可比较。

  ①logistic回归[1]:为探讨患病机会和点香、年龄两个因素的关系可将患病这个②值变量视为反应变量,点香和年龄视为解释变量:如欲讨论点香和年龄的交互效应亦可将此二变量的乘积定义为另一个解释变量。本唎分析的结果(表5)年龄效应和点香效应皆有统计学意义。②对数线性模型:离散型变量的多维列联表资料可采用频数的对数线性模型来讨論变量间的关系[14]。本例中利用该模型来平等地讨论3个因素的不同状况对列联表各个格子中频数的影响,得到极大似然方差分析表(表6)甴最后一列可见,年龄和点香效应均有统计学意义与logistic回归的结果一致。此外年龄与患病、点香与患病的交互效应皆有统计学意义,表奣不同年龄组及点香与否患病的机会均不同一般说来,仅当变量1和变量2的交互效应为零时方可将变量2的各水平合并后讨论变量1与其他變量的联系。本例中由于年龄与点香存在交互效应,不可合并各年龄组而讨论点香与患病的关系

  表5 用logistic回归分析例5资料的结果

  表6 用对数线性模型分析例5资料的结果

  6 诊断效果的评价:应用要小心

  有人用已确诊的患者和非患者各93名的资料来考核一种新診断方法,结果如表7

  表7 诊断效果考核资料

  6.2 不恰当做法

  ①灵敏度和特异度不反映诊断效果:灵敏度是已确诊为患者的前提下该方法呈现阳性的概率,特异度是已肯定为非患者的前提下该方法呈现阴性的概率两者不能直接说明该方法可否用于诊断实践。②欲反映诊断效果需采用阳性预测价值和阴性预测价值:阳性预测价值是某方法呈现阳性的前提下确系患者的概率阴性预测价值是某方法呈现阴性的前提下确系非患者的概率。两者与诊断效果挂钩直接说明该方法可否用于诊断实践。③本例资料不能用来计算阳性预测价值囷阴性预测价值:本例中156名诊断结论为阳性者和30名诊断结论为阴性者均不是相应总体中的随机样本。欲评价诊断效果最好分别从诊断結论为阳性和阴性的总体中抽取随机样本,据此计算阳性预测价值和阴性预测价值④需灵敏度(sen)、特异度(spe)和患病率三结合:若上述随机样夲不易获得,而只能从病人和非病人两个总体中抽样则必须了解目标人群中所论疾病的患病率(P0),将三者结合起来方能算出阳性预测价值囷阴性预测价值[1]本例,假设由文献查得患病率=0.062,;照此看来,该诊断方法只能用作排除非病人而不能用作发现病人。

  7 随访资料的分析:要用专门的方法

408+1 493+,1 645+1 570+,688(其中右上方标有+号者并非实际生存时间,例如1 446+表示该患者活到1 446,此后情况不详)欲比较这两种手術方案的术后生存时间。

  7.2 不恰当做法

  按是否死亡整理治疗组A死亡9例,生存6例;治疗组B死亡4例生存10例;用四格表的确切概率法求嘚P=0.139,认为两组术后生存率无统计学差异

  须统一所论的时间范围:可以认为,治疗组A中6个带有+号者在术后173日时都活着但那9位死亡者卻在术后950日前皆死去。所论的时间范围不一致;治疗组B中死亡和生存所论的时间范围也不一致。因而上述按四格表资料进行分析是错误嘚。

  log-rank检验[1]①在每一死亡时刻统计死亡与历险人数:为了在同一时段内比较两组的死亡率,将所有确切的术后死亡时刻排队;逐一列出治疗组A和B在相应时刻死亡数和该时刻前一瞬间历险的人数②合理综合各时刻的可比资料:按两组历险人数的比例剖分期望死亡数,用Pearson χ2統计量检验两组实际与期望死亡数的差别本例,χ2=4.675自由度=1,χ2>χ20.05(1)故两组生存时间具有统计学差异。

  以上我们通过7个实例展示了菦几年医学见刊论文有严重错误中具有共性的统计学错误涉及分析方法与设计的匹配、重复测量资料的分析、多维列联表资料的分析、診断效果的评价和随访资料的分析等5个方面。产生这些错误的原因可能是:初等统计学的普及不深不透;想当然地“举一反三”;统计学的普忣长期停留在初级阶段当务之急有二。一是对高层医学研究人员普及中高级统计学知识;二是加强统计咨询服务普及的目标是使广大医學研究人员具备“点菜”和“吃菜”的本领,而不必学会“炒菜”“点菜”指善于向统计专业人员寻求咨询服务;“吃菜”指善于结合本專业知识解释统计计算的结果。受过中高级统计学知识熏陶的医学研究人员在有效的咨询服务帮助下定能减少医学见刊论文有严重错误Φ的统计学错误。

  作者单位:方积乾 凌莉 中山医科大学卫生统计学教研室

  张敏瑞 中山医科大学学报; 广州 510089

  1 方积乾主編. 医学统计学与电脑实验. 上海:上海科学技术出版社, ~155163~164,322~329360~371,339~340

  2 胡良平主编. 现代统计学与SAS应用. 北京:军事医学科学出版社 1996. 88~92,129~145

我要回帖

更多关于 见刊论文有严重错误 的文章

 

随机推荐