视频1 视频21 视频41 视频61 视频文章1 视频文章21 视频文章41 视频文章61 推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37 推荐39 推荐41 推荐43 推荐45 推荐47 推荐49 关键词1 关键词101 关键词201 关键词301 关键词401 关键词501 关键词601 关键词701 关键词801 关键词901 关键词1001 关键词1101 关键词1201 关键词1301 关键词1401 关键词1501 关键词1601 关键词1701 关键词1801 关键词1901 视频扩展1 视频扩展6 视频扩展11 视频扩展16 文章1 文章201 文章401 文章601 文章801 文章1001 资讯1 资讯501 资讯1001 资讯1501 标签1 标签501 标签1001 关键词1 关键词501 关键词1001 关键词1501 专题2001
医学统计学复习资料(完整版)
2025-10-01 21:02:52 责编:小OO
文档
第1章  绪论

医学统计学是一门“运用统计学的原理和方法,研究医学科研中有关数据的收集、整理和分析的应用科学。

1.个体:又称观察单位,是统计研究的最基本单位,也是构成总体的最基本的观察单位。

2.总体:根据研究目的确定的同质观察单位某项指标测量值(观察值)的集合。分为有限总体(明确规定了空间、时间、人群范围内有限个观察单位)和无限总体(无时间和空间范围的)。反映总体特征的指标为参数,常用小写希腊字母表示。

3.样本:从总体中随机抽取的一部分有代表性的观察单位组成的整体。(抽样,随机化原则,样本含量)根据样本资料计算出来的相应指标为统计量,常用大写英文字母表示。

4.抽样研究:从总体中随机抽取样本,根据样本信息推断总体特征的方法。抽样误差是由随机抽样(样本的偶然性)造成的样本指标与总体指标之间、样本指标与样本指标之间的差异。其根源在于总体中的个体存在变异性。只要是抽样研究,就一定存在抽样误差,不能用样本的指标直接下结论。统计分析主要是针对抽样误差而言。

5.变量(一个个体的任意“特征”);资料(变量值的集合),资料类型:①计量资料/定量资料/数值变量资料:表现为数值大小,一般有度量衡单位,又可分为连续型和离散型两类;②计数资料/定性资料/无序分类变量资料/名义变量资料:表现为互补相容的属性或类别,一般无度量衡单位,可分为二分类和多分类;③等级资料/半定量资料/有序分类变量资料:表现为等级大小或属性程度。各类资料间可相互转化。①可选分析方法有:t检验、方差分析、相关回归分析等;②可选分析方法有:χ2检验、z检验等;③可选分析方法有:秩和检验、Ridit分析等。

6.误差:实测值与真实值之差。可分为随机误差(随机测量误差+抽样误差)与非随机误差(系统误差与非系统误差)。①随机误差:是一类不恒定、随机变化的误差,由多种尚无法控制的因素引起,它是不可避免的;②系统误差:是实验过程中产生的误差,它的值或恒定不变,或遵循一定的变化规律,其产生原因往往是可知的或可以掌握的,它是可以消除或控制的;③非系统误差:又称过失误差,是指在实验过程中由于研究者偶然失误而造成的误差,可以消除。

7.概率(P):描述随机事件发生可能性大小的值,其取值为0≤P≤1。其中,P=1为必然事件,P=0为不可能事件,08.医学统计工作的基本步骤:①设计(是影响研究能否成功的最关键环节,是提高观察或实验质量的重要保证);②收集资料(统计报表+经常性工作记录+专题调查或实验研究+统计年鉴和统计数据专辑);③整理资料(是将原始数据净化、系统化和条理化,以便为下一步计算和分析打好基础的过程);④分析资料/统计分析(统计分析包括统计描述和统计推断,统计学的主要任务是进行统计推断,包括参数估计和假设检验)。

第2章  计量资料的统计描述

1.频数:计量资料经分组后清点出的各组例数。频数分布:指各组频数的分配情况。频数分布表:将分组和各组的频数以及频率编制成的表。频数分布图:即直方图,以直方的面积大小表示各组频数的多少,比频数表直观形象。

2.频数分布表:①对于连续变量,频数分布为n个变量值在各变量值区间内的变量值个数的分配;②对于离散变量,频数分布为n个变量值(或各几个)变量值处的变量值个数的分配。编制步骤:①找极值;②求极差(全距),即最大值和最小值之差R;③确定组段数和组距;④根据组距写出组段;⑤分组划记并统计频数;⑥列表并求出频率、累计频数、累计频率。

3.频数分布的用途:①描述频数分布的类型:频数分布分为对称分布和偏态分布。各组段的频数以频数最多组段为中心左右两侧大体对称,就认为该资料是对称分布。右侧的组段数多于左侧的组段数,频数向右侧拖尾,称右偏态分布,也称正偏态分布。左侧的组段数多于右侧的组段数,频数向右侧拖尾,称左偏态分布,也称负偏态分布。②描述频数分布的特征;③便于发现一些特大或特小的离群值;④便于进一步做统计分析和处理。

4.集中趋势:统计学用平均数这一指标体系来描述一组变量值的集中位置或平均水平,常用的平均数有算术均数、几何均数和中位数。算术均数:简称均数,可用于反映一组呈对称分布的变量值在数量上的平均水平P17。几何均数:反映一组经对数转换后呈对称分布的变量值在数量上的平均水平,常适用于免疫学的指标P18,如抗体滴度资料。中位数:是将n个变量值从小到大排列,位置居于中间的那个数。N为奇数时取位次居中的变量值,n为偶数时取位次居中的两个变量值的均数。适用于各种分布类型的资料,尤其是偏态分布资料和一端或两端无确切数值的资料P19。百分位数:百分位是一种位置指标,用Px来表示,读作第X百分位数。一个百分位数Px将全部变量值分为两部分,在不包含Px的全部变量值中有X%的变量值小于或等于它,(100-X%)变量值大于或等于它。百分位数是一个界值,其重要用途是确定医学参考值范围。中位数实际上是第50百分位数。

5.离散趋势:描述数据变异大小的常用指标有极差、四分位数间距、方差、标准差、变异系数。极差:即一组变量值的最大值与最小值之差,可用于任何分布资料。仅用极差来描述数据的变异程度也不全面,且受样本含量n 的影响较大。四分位数间距:是把全部变量值分为四部分的分位数,即第1四分位数(QL=P25)、第2四分位数(M=P50)、第3四分位数(QU=P75)。四分位数间距QR= QU﹣QL,一般和中位数一起描述偏态分布资料的分布特征。方差:也称均方差,反映一组数据的平均离散水平,总体方差用σ2表示,样本方差记为S2。标准差:是方差的正平方根,其单位与原变量值相同,总体标准差用σ表示,样本标准差记为S。方差和标准差用于描述正态分布计量资料的离散程度。均数和标准差结合用于全面描述正态分布计量资料的集中趋势与离散趋势。变异系数:记为CV,CV=S/V×100%,是一个相对变异指标,无单位,多用于观察指标单位不同时,或均数相差较大时。

6.正态分布:德国数学家德莫阿弗尔于1733年提出,德国数学及高斯使正态分布广为人知。特征:①在直角坐标的横轴上方呈钟型曲线,两端与X轴永不相交,且以X=μ为对称轴,左右完全对称。②在X=μ处f(X)取最大值,其值为f(X)=        ;X越远离μ,f(X)值越小。③正态分布有两个参数,即位置参数μ和形态参数σ。若固定σ,改变μ值,曲线沿着X轴平行移动,其形状不变。若固定μ,σ越小,曲线越陡峭;反之,σ越大,曲线越平坦。④正态曲线下的面积分布有一定的规律:正态分布曲线下面积为1,X±1.96S的面积为95%,X±2.58S的面积为99%。标准正态分布:通过u=(X﹣μ)/ σ将X~N(μ,σ2)的正态分布转换为u~N(0,12)的标准正态分布,u称为标准正态变量,P27。

7.医学参考值:是指包括绝大多数正常人的人体形态、功能和代谢产物等各种生理及生化指标常数,也称正常值。由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围作为判定正常和异常的参考标准。通常使用的医学参考值范围有90%,95%,99%,最常用的是95%。医学参考值范围制定方法:①正态分布法:数据服从或近似服从正态分布;②百分位数法:偏态分布资料,样本含量不低于100,P29。

第3章  总体均数的估计与假设检验

1.抽样误差:由个体差异产生的,随机抽样造成的样本统计量之间或样本统计量与总体参数之间的差异,用标准误来衡量,抽样误差是不可避免的,其产生的根本原因是生物个体的变异性,其分布有一定的规律性。样本均数的抽样分布特点:①各样本均数未必等于总体均数;②各样本均数间存在差异;③样本均数的分布很有规律,围绕总体均数中间多,两边少,左右基本对称,也服从正态分布;④样本均数间相差较小,其变异范围较之原变量的变异范围大大缩小。

2.标准误:样本统计量的标准差,描述统计量与总体参数的接近程度,是衡量抽样误差大小的指标。用途:①表示抽样误差的大小;②估计参数的可信区间;③假设检验。均数标准误:样本均数的标准差,反映样本均数间的离散程度,也反映样本均数与相应总体均数间的差异,说明了均数抽样误差的大小。均数标准误与标准差成正比,与样本含量n的平方根成反比。若标准差不变,可通过增加样本含量n来减小均数的标准误,从而降低抽样误差。

3.标准差与标准误的区别:①标准差是衡量观察值离散趋势(即变异程度)的指标,其越大,表示观察值越分散,样本均数的代表性越差;反之样本均数的代表性越好;而标准误是描述样本统计量的变异程度,表示抽样误差的大小,其越大,表示抽样误差越大,样本统计量(样本均数)的可靠性越小,反之样本统计量(样本均数)的可靠性越大。②标准差可用于描述正态(近似正态)分布资料的频数分布和医学参考值范围的估计;而标准误用于总体均数的区间估计和两个样本统计量(样本均数)间的比较即t检验。标准差与标准误的联系:二者都是变异指标,标准误的大小可由标准差的大小来估计。在样本含量一定时,标准差越大,标准误也越大,即在抽取相同例数的前提下,标准差越大,样本的抽样误差也越大。

4.t 分布:通过u=(X﹣μ)/ σ可以将X~N(μ,σ2)的正态分布转换为u~N(0,12)的标准正态分布,同理样本含量为n的样本均数X可通过u=(X﹣μ)/ σX将N(μ,σX2)的正态分布转化为标准正态分布,但实际工作中,由于σX常常未知,用SX代替,则(X﹣μ)/ SX不再服从标准正态分布,而是服从t分布。t分布为抽样分布,参数只有一个即自由度ν=n﹣1。特征:①单峰分布,以0为中心,左右对称;②t分布的曲线形态取决于自由度ν的大小,ν越小,则t值越分散,t分布的峰部越矮而尾部翘得越高;③当ν逼近无穷大,Sx逼近σx,t分布逼近u分布,标准正态分布是t分布的特例。t分布主要用于总体均数的区间估计和t检验。在相同自由度时,∣t∣值越大,概率P越小;在相同∣t∣值时,同一自由度的双尾概率为单尾概率的两倍。

5.参数估计:是指用样本统计量推断总体参数,有点(值)估计和区间估计两种方法。点估计:用相应样本统计量直接作为其总体参数的估计值。区间估计:是按预先给定的概率(1﹣α)所确定的包含未知总体参数的一个范围。该范围称为参数的可信区间或置信区间;预先给定的概率1﹣α称为可信度或置信度,一般取双侧95%。

6.可信区间:又称置信区间,通常是两个数值即可信限/置信限构成的一范围,较小值称可信下限,较大值称可信上限。可信区间的确切含义:从固定样本含量的已知总体中进行重复随机抽样试验,根据每个样本可算得一个可信区间,则平均有1﹣α(如95%)的可信区间包含了总体参数,而不是总体参数落在该范围的可能性为1﹣α。两个要素:①准确度:反映在可信度1﹣α的大小,越接近1越好;②精密度:反映在区间的宽度,越窄越好。两者是矛盾的,一般情况下常用95%可信区间。在可信度确定的情况下,增加样本含量可减小区间宽度。

7.总体均数可信区间的计算:根据总体标准差σ是否已知,以及样本含量n的大小而异,通常有t分布和u分布两类方法。①单一总体均数的可信区间:σ未知按t分布;σ已知或σ未知,但n足够大(如n≥60)时按u分布。②两总体均数之差的可信区间P41。

8.总体均数可信区间与参考值范围的区别:

区别点总体均数的可信区间参考值范围
含义按预先给定概率所确定的位置参数μ的可能范围。实际上一次抽样算得的可信区间要么包含了总体均数,要么不包含。但可以说:当α=0.05时,95%CI估计正确的概率为0.95,估计错误的概率为0.05,即有95%的可能性包含了总体均数

总体均数的可能范围

“正常人”的解剖、生理、生化某项指标的波动范围

个体值的波动范围

计算公式σ未知:X±tα/2, νSX*

σ已知或σ未知但n>60:X±uα/2,νσX或X±uα/2, νσX**

正态分布:X±uα/2,νS**

偏态分布:PX~P100﹣X

用途总体均数的区间估计,也可间接进行假设检验绝大多数(如95%)观察对象某项指标的分布范围
样本量作用样本量越大,可信区间越小样本量越大,参考值范围越稳定
*tα/2, ν也可用于tα, ν(对应于单尾概率时);** uα/2,也可用于uα,(对应于单尾概率时)。

9.假设检验:又称显著性检验,是利用小概率反证法思想,从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立,然后在H0成立的条件下计算检验统计量,最后获得P值来判断。基本思想:①小概率思想:小概率事件在一次试验中认为基本上不发生,其概率是相对的,在进行统计分析时要事先规定,即检验水准α。②反证法思想:首先提出一个假设,用适当的统计方法确定当假设成立时,获得现在样本的概率大小,如果是小概率事件,则推断假设是假的,拒绝它;如果不是小概率事件,则不能认为假设是假的,不能拒绝它。

10.假设检验的基本步骤:1)建立检验假设,确定检验水准:①μ=μ0:即检验假设,常称无效假设或零/原假设,用H0表示;②μ≠μ0:即备择假设,常称对立假设,用H1表示;③α:即检验水准,也称显著性水准,属于Ⅰ型错误的范畴,是预先规定的概率值,确定了小概率事件的标准。2)计算检验统计量:根据变量或资料类型、设计方案、统计推断的目的、方法的适用条件等选择检验统计量,所有检验统计量都是在H0成立的前提条件下计算出来的。3)确定P值,做出推断结论:P的:是指从H0规定的总体随机抽样,抽得等于及大于或(和)等于及小于现有样本获得的检验统计量值(如t、u等)的概率。(当样本含量n 较大时,t值近似和u值相等,有人将其称为u检验或Z检验,实际是t检验的特例。)对于检验假设须注意:①检验假设是针对总体而言,而不是针对样本;②H0和H1是相互联系、对立的假设;③H0为无效假设,其假定通常是:某两个总体参数相等,或某两个总体参数之差等于0,或…无效,或某一资料服从某一特定分布;④H1的内容直接反映了检验的单双侧。

11.t检验(方差相等):①单样本t检验:即已知样本均数与已知总体均数的比较,要求样本取自正态总体(样本均数与已知总体均数不等,原因有二:a.非同一总体即μ≠μ0;b.虽为同一总体即μ=μ0,但有抽样误差)。②配对样本t检验:简称配对t检验,也称成对t 检验,适用于配对设计的计量资料,要求差值服从正态分布。(配对设计是将受试对象按照某些重要特征配成对子,每对中的两个受试对象随机分配到两处理组。主要有以下情形:a.两同质受试对象配成对子分别接受两种不同的处理;b.同一受试对象分别接受两种不同处理;c. 同一受试对象接受一种处理前后。)③两样本t检验:又称成组t检验,适用于完全随机设计两样本均数的比较,要求样本来自正态总体,且两总体方差齐性。当两样本含量较小,且均来自正态总体时,要根据两总体方差是否不同而采用不同检验方法。t′检验(方差不等):①Cochran&Cox近似t检验——对临界值校正;②Satterthwaite近似t检验——对自由度校正;③Welch近似t检验——对自由度校正。

12.Ⅰ型错误:拒绝了实际上成立的H0,即“弃真”,其概率大小用α表示,检验水准就是预先规定的允许犯Ⅰ型错误概率的最大值,α可取单尾也可取双尾。Ⅱ型错误:“接受”了实际上不成立的H0,即“取伪”,其概率用β表示,β只取单尾。把握度:又称检验效能,是指1﹣β。其意义是当两总体确有差异,按规定检验水准α所能发现该差异的能力。

13.假设检验应注意的问题:1)要有严密的研究设计——假设检验前提。2)不同类型的资料应选用不同检验方法。3)正确理解“显著性”一词的含义,一般假设检验结果并不指差异的大小,只能反映两者是否有差异,采用“有无统计学意义”表达。4)因结论具有概率性质,故结论不能绝对化,报告结论时最好列出检验统计量的值,尽量写出具体的P值或P值的确切范围。5)统计“显著性”与医学/临床/生物学“显著性”:若统计结论和专业结论一致,则最终结论就和这两者一致;若统计结论和专业结论不一致,则最终结论需根据实际情况。当统计结论有意义,而专业结论无意义时,可能是由于样本含量过大或设计存在问题,那么结论最终无意义。当统计结论无意义,而专业结论有意义,则应当检查设计是否合理、样本含量是否足够。6)可信区间与假设检验的区别和联系:①可信区间用于说明量的大小即判断总体均数的范围,而假设检验用于推断质的不同即判断两总体均数是否不等;②可信区间可回答假设检验的问题,算得的可信区间若包含了H0,则按α水准不拒绝H0;若不包含H0,则按α水准拒绝H0接受H1。③可信区间不但能回答差别是否具有统计学意义,而且能比假设检验提供更多的信息,即提示差别有无实际的专业意义。④可信区间只能在预先规定的概率——检验水准α的前提下进行计算,而假设检验能够获得一个较为确切的概率P值。⑤验证一个假设时,可选择假设检验,而只是对总体参数做一个估计时,可选用区间估计,两者结合可对问题进行更全面的说明。

14.正态性检验:①图示法:概率图(P-P图)和分位数图(Q-Q图);②计算法:a.对峰度和偏度各用一个指标来评定,以矩法效率最高。偏度指分布不对称的程度和方向,样本偏度系数g1,总体偏度系数r1。(r1=0对称,r1>0正偏态,r1<0负偏态)峰度则指分布于正态曲线相比的冒尖程度或扁平程度,样本峰度系数g2,总体峰度系数r2。(r2=0正态峰,r2>0尖峭峰,r1<0平阔峰)b.仅用一个指标来综合评定。

15.两样本方差比较的F检验:即方差齐性检验,目的是判断两样本所代表的两总体方差是否不等,资料要求服从正态分布。若方差齐,采用一般的t检验;若方差不齐,则采用近似t检验。

16.变量变换:是将原始数据作某种函数转换,如转换为对数值等。它可使各组方差齐同、稳定,亦可使偏态资料正态化,以满足t检验或其它统计分析方法对资料的要求。方法:①对数变换:适用于a.对数正态分布资料,即原始数据的效应是相乘时;b.各样本标准差与均数成比例或变异系数是常数或接近某一常数的资料。②平方根变换:即将原始数据开算术平方根。③平方根反正弦变换。④倒数变换。

第4章  多个样本均数比较的方差分析

1.方差分析:由fisher首创,又称F检验。(F分布有两个参数:两个自由度)基本思想:根据试验设计的类型,将全部观测值总的离均差平方和及其自由度分解为两个或多个部分,除随机误差作用外,每个部分的变异可由某个因素的作用(或某几个因素的交互作用)加以解释,如组间变异SS组间可由处理因素的作用加以解释。方差分析是综合的F检验。实验数据有三个不同的变异:①总变异:全部观测值大小不同,这种变异称为总变异,其大小可以用离均差平方和表示SS总;②组间变异:各处理组由于接受处理的水平不同,各组的样本均数也大小不等,这种变异称为组间变异,记为SS组间;③组内变异:在同一处理组中,虽然每个受试对象接受的处理相同,但观测值仍各不相同,这种变异称为组内变异(误差),记为SS组内。SS总=SS组间+SS组内,ν总=ν组间+ν组内。变异程度与离均差平方和和自由度有关。各部分离均差平方和除以相应的自由度,其比值称为均方差,简称均方(MS)。应用条件:①各样本是相互的随机样本;②均来自正态分布总体;③相互比较的各样本的总体方差相等,即具有方差齐性。

2.完全随机设计资料的方差分析:完全随机设计是采用完全随机化的分组方法,将全部试验对象分配到g个处理组(水平组),各组分别接受不同的处理,实验结束后比较各组均数间的差别有无统计学意义,推论处理因素的效应。变异分解:SS总=SS组间+SS组内,ν总=ν组间+ν组内。分析步骤:略。

3.随机区组设计资料的方差分析:随机区组设计又称配伍组设计,是配对设计的扩展,先按影响试验结果的非处理因素将受试对象配成区组,再分别将各区组的受试对象随机分配到各处理组或对照组。随机分配的次数要重复多次,每次随机分配都对同一个区组内的受试对象进行,且各个处理组受试对象数量相同,区组内均衡。区组内各试验对象具有较大的差异为好,利用区组控制非处理因素的影响,并在方差分析时将区组间的变异从组内变异中分解出来。误差比完全随机设计小,试验效率高。变异分解:SS总=SS处理+SS区组+SS误差,ν总=ν处理+ν区组+ν误差。分析步骤:略。

4.拉丁方设计资料的方差分析:拉丁方设计是在随机区组设计的基础上发展的,实验涉及一个处理因素和两个控制因素,将两个控制因素分别安排在拉丁方设计的行和列上,每个因素的类别数或水平数相等,增加了均衡性,减少了误差,提高了效率。变异分解:SS总=SS处理+SS行+SS列+SS误差,ν总=ν处理+ν行+ν列+ν误差。分析步骤:略。

5.两阶段交叉设计资料的方差分析:二阶段交叉设计是A、B两种处理先后以同等的机会出现在两个试验阶段中,不仅平衡了处理顺序的影响,而且能把处理方法间的差别、时间先后之间的差别和受试者间的差别分开来分析。但是前一个试验阶段的处理效应不能持续作用到下一个试验阶段,故在两阶段之间设计洗脱阶段以消除残留效应。多用于止痛、镇静、降压等药物或治疗方法间疗效的比较。分析方法:SS总=SS处理间+SS阶段间+SS受试者间+SS误差。

6.多个样本均数间的多重比较:当方差分析的结果为拒绝H0,接受H1时,只说明g个总体均数不全相等。样本均数间的多重比较不能用两样本均数比较的t检验,否则会加大犯Ⅰ型错误的概率,即假阳性。①LSD-t检验,即最小显著差异检验,适用于一对或几对在专业上有特殊意义的样本均数之间的比较;②Dunnett-t检验,适用于g—1个实验组与一个对照组均数差别的多重比较;③SNK-q检验,亦称q检验,适用于多个样本均数两两之间的全面比较,最常用。

7.多样本方差比较的Bartlett检验和Levene检验:Levene检验法在用于对多总体方差进行齐性检验时,所分析的资料可不具有正态性。

第5章  计数资料的统计描述

1.计数资料的常见数据形式是绝对数,但绝对数不具有可比性,所以需计算相对数,常用的相对数指标包括比,比例,率。根据研究目的不同,比例又分为强度相对数(率)和结构相对数(即构成比)。

2.率:说明某现象发生的频率或强度,常用百分率,千分率,万分率等表示。某一分率改变不影响其他分率变化。

3.构成比:表示事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明各构成部分在总体中所占的比重或分布。某一部分构成比的改变将影响其他构成比的变化。

4.相对比:简称比,是两个有关指标之比,说明两指标之间的比例关系。两个指标可以是绝对数、相对数或平均数。

5.应用相对数的注意事项:①结构相对数不能代替强度相对数:构成比用以说明事物内部某种构成所占比重或分布,并不说明某现象发生的频率或强度②计算相对数应有足够数量,否则会使相对数波动较大③正确计算合计率:对分组资料计算合计率或称平均律时,不能简单地由各组率相加或平均而得,而应用合计的有关实际数字进行计算④注意资料的可比性:a.观察对象是否同质,研究方法是否相同,观察时间是否相等,以及地区、周围环境、风俗习惯和经济条件是否一致或相近等;b.观察对象内部结构是否相同;⑤对比不同时期资料应客观条件是否相同;⑥样本率(或构成比)的抽样误差:不能仅凭数字表面相差大小下结论,而应进行样本率(或构成比)差别的假设检验。

6.率的标准化法:采用某影响因素的统一标准构成以消除构成不同对合计率的影响,使通过标准化后的标准化合计率具有可比性。标准化法只适用于某因素两组内部构成不同,并有可能影响总率比较的情况(两个率不具有可比性)。标准化率只表示相互比较的资料间的相对水平,不再反映实际水平;此外标准化率表示样本值,存在抽样误差。

第6章  几种离散型变量的分布及其应用(u分布,t分布和F分布均为连续型分布)

1.率的标准误:即样本率的标准差,可以用来描述样本率的抽样误差,率的标准误越小,则率的抽样误差就越小。

2.二项分布:是指在只会产生两种可能结果如“阳性”或“阴性”之一的n次重复试验中,当每次试验的“阳性”概率π保持不变时,出现“阳性”次数X=0,1,2,…,n的一种概率分布。适用条件:①每个观察单位仅有两个相互对立的结果,如阳性/阴性;②每次试验的条件不变,即π固定不变;③n个观察单位的结果相互。图形:二项分布为离散型分布;当π=0.5,二项分布图形是对称的,当π≠0.5,图形是偏态的,随着n增大,图形趋于对称。当n→∞时,只要π不太靠近0或1,二项分布近似正态分布。

3.Poisson分布:是二项分布的一种极限情况,可用来分析医学上如人群中癌症等发病率低的非传染性疾病的发病或患病人数的分布,也可用来研究单位时间内某罕见事件发生次数的分布。应用条件:①每个观察单位仅有两个相互对立的结果,如阳性/阴性;②每次试验的条件不变;③n个观察单位的结果相互;④发生率π很小,n很大(此时λ=nπ=σ2,为常数)。(适用条件:①普通性②增量性③平稳性。)性质:①总体均数λ与总体方差σ2相等;②当n很大时,π很小,λ=nπ为常数;③当λ→∞(λ≥20),Poisson 分布近似正态分布;④可加性。图形:由λ决定。λ越小,分布越偏态;λ越大,分布趋向正态。

4.u检验:①率的比较②t检验(样本含量大时适用)。

第7章  χ2检验

1.χ2检验:以χ2分布为基础,以χ2值为检验统计量的计数资料的假设检验。χ2分布为连续型分布,只有一个参数ν。ν≤2时曲线呈L型;随着ν的增加,曲线趋于对称;当ν→∞时,χ2分布趋近正态分布。此外χ2分布具有可加性。基本思想:χ2值反映实际频数A与理论频数T的吻合程度。

2.四格表χ2检验应用条件:①n≥40,T≥5,用四格表χ2检验的基本式或或专用式计算;②n≥40且1≤T<5,用四格表χ2检验的校正公式;③n<40或T<1,用四格表Fisher确切概率法(不属于χ2检验范畴)。

3.行×列表资料的χ2检验:①多个样本率的比较:R×2表;②多个样本构成比的比较:C×2表;③双向无序分类资料的关联性检验:R×C表。注意事项:①行×列表资料中各格的理论频数不应小于1,并且1≤T<5的格子数不宜超过格子总数的1/5;②多样本率的比较,若统计结果是拒绝H0,接受H1,仅说明个总体率之间总的来说有差别,不能说明任两个总体之间有差别;③对有序的R×C资料不能用χ2检验。

第8章  秩转化的非参数检验

1.参数检验:总体分布为已知的数学形式,对其总体参数作假设检验的统计推断方法。非参数检验:又称任意分布检验,是指对总体分布不作严格规定,即在应用中可以不考虑被研究对象为何种分布以及分布是否已知,检验假设中没有包括总体参数的一类统计方法。秩转化的非参数检验是先将数值变量资料从小到大,或等级资料从弱到强转换成秩后,再计算检验统计量,其特点是假设检验的结果对总体分布的形状差别不敏感,只对总体分布的位置差别敏感。

2.非参数检验的优点:不受总体分布的,适用范围广;缺点:适宜用参数检验方法的资料,如果用非参数检验方法,由于没有充分利用资料提供的信息,就会降低检验效能,即第类错误的概率β增大。

3.秩转化的非参数检验适用范围:①未经精确测量的资料(包括等级资料);②偏态分布且无法转化为正态分布的资料;③分布不清的资料。

4.配对样本比较的Wilcoxon符号秩检验:亦称符号秩和检验,用于配对样本差值的中位数和0比较;还可用于单个样本中位数和总体中位数的比较。基本思想:在H0成立的前提下,配对差值的总体分布是对称的,总体中位数应为0,T+与T﹣应接近n(n+1)/4,若正、负秩和相差悬殊,则H0成立的可能性很小。基本步骤:①建立检验假设,确定检验水准;②计算统计量T值:a.求差值d,b.编秩,c.求秩和并确定统计量T值;③确定P值并做出统计推断:可用查表法(小样本)和正态近似法(大样本)求u值,确定P值(若T值在上、下界值范围内,其P值大于相应概率水平;若T值恰好等于界值,其P值等于或近似等于相应概率水平;若T值在上、下界值范围外,其P值小于相应概率水平)。适用资料:不满足t检验条件的配对设计或单样本的计量资料、等级资料和其他不能精确测量的资料。

5.两个样本比较的Wilcoxon秩和检验:用于推断计量资料或等级资料的两个样本所来自的两个总体分布是否有差别。基本思想:如果H0成立,则两样本来自分布相同的总体,两样本的平均秩次T1/n1与T2/n2应相等或接近,含量n1的样本的秩和T1应在n1(N+1)/2的左右变化。若T值偏离此值太远,H0成立的可能性就很小。若偏离出给定值所确定的范围时,则P<α,拒绝H0。适用资料:完全随机设计两样本资料的比较,分布偏态或方差不齐的计量资料的比较,单向有序资料或无法精确测量的资料的比较。

6.完全随机设计多个样本比较的Kruskal-Wallis H检验:用于推断计量资料或等级资料的多个样本所来自的多个总体分布是否有差别。基本思想:同两个样本比较的Wilcoxon秩和检验。适用资料:方差不齐或不服从正态分布的多组定量资料的比较,多组有序分类变量资料的比较或多组无法精确测量资料间的比较。

7.随机区组设计多个样本比较的Friedman M检验:用于推断随机区组设计的多个相关样本所来自的多个总体分布是否有差别。基本思想:在H0成立的条件下,各区组内观测值取秩为1,2,…g的概率相等,则各处理组的秩和应接近R=n(g+1)/2,而M值反映了实际获得的g个处理组的秩和与R偏离的程度。M值越大,就越有理由怀疑各处理组的总体分布不同。随着n和g的增大,M值近似服从自由度为g﹣1的χ2分布。适用资料:随机区组设计资料,但不满足随机区组设计方差分析的前提条件,也可用于随机区组设计的等级资料比较。

8.无论是完全随机设计多个样本比较的Kruskal-Wallis H检验还是随机区组设计多个样本比较的Friedman M检验,当结论为拒绝H0时,并不能直接判断各处理组间差异有无统计学意义,应进行组间的两两比较:多个样本两两比较的Nemenyi法检验和多个相关样本两两比较的q检验。

第9章  双变量回归与相关

1.简单直线回归是研究两个连续性变量间线性依存关系的一种统计分析方法。直线回归分析是用直线回归方程描述两个变量间变化的数量关系。直线回归分析的前提条件(LINE):①线性:两个变量间存在线性关系;②性:任意两个观察值互相;③正态性:应变量Y是服从正态分布的随机变量;④等方差:给定X后,应变量Y的方差相等。

2.直线回归方程表达式:Y=a+bX,其中Y为回归方程的预测值;a为常数项,是回归直线在Y轴上的截距,其统计意义是当X取值为0时相应Y的均数估计值;b为回归系数,是直线的斜率,其统计意义是当X变化一个单位时Y 的平均改变的估计值。确定a和b要根据“最小二乘法”原理,即以各实测点到直线的纵向距离的平方和最小来确定回归直线。

回归系数:直线回归方程Y=a+bX中的b,是直线的斜率,其统计意义是当X变化一个单位时Y的平均改变的估计值,b>0表示Y随X增大而增大,b<0表示Y随X增大而减小,b=0表示Y与X无线性依存关系。回归系数是有单位的,不能根据b 的大小判断回归关系的密切程度。

3.回归方程的假设检验:回归方程需要进行假设检验,以推断两个变量间的线性关系是否存在。方法有:方差分析和t检验,两者是等价的,检验结论相同。

4.回归方程的应用:①描述两个变量间的依存关系:经回归系数的假设检验,认为两变量间线性依存关系存在时,可用直线回归方程来描述两变量间依存变化的数量关系。②利用回归方程进行预测:将自变量X的值代入回归方程式,则可得到应变量Y的估计值Y,即预测值。其意义为当X=X0时,应变量Y的样本均数,也是相应总体均数μY∣X0的一个点估计。其总体均数μY∣X0的1﹣α的可信区间为:Y0±tα/2,νSY0,SY0是样本均数Y的标准误,计算公式为SY0              ,当同时考虑所有X的可能取值时,可信形成一条中间窄、两端宽的带子,称为回归直线的可信带。其意义为在满足线性回归的条件下,总体回归直线落在可信带内的概率为(1﹣α)。而预测值Y的波动范围又称为个体Y值的容许区间(预测区间),Y0±tα/2,νSY0,标准差SY0=                  ,同样,当同时考虑所有X的可能取值时,容许区间也会形成一条中间窄、两端宽的带子,称为个体值的预测带,叫回归直线的可信带宽。③利用回归方程进行控制:统计控制是利用回归方程进行逆估计。如要求应变量Y在一定范围内波动,可以通过控制自变量X的取值来实现。

5.直线相关:又称简单相关,是分析服从正态分布的两个随机变量X和Y有无线性相关关系的一种统计分析方法。直线相关的性质可由散点图直观的说明。相关分析的前提条件:①两个随机变量;②散点图呈线性关系;③服从双变量正态分布。

6.相关系数:又称Pearson积差相关系数,是用来说明具有直线关系的两变量间相关的密切程度与相关方向的统计指标。以符号r表示样本相关系数,符号ρ表示其总体相关系数。相关系数没有单位,其值为0≤r≤1,r为正表示正相关,r为1表示完全正相关;r为负表示负相关,r为﹣1表示完全负相关;r=0表示零相关,即两变量间没有直线相关关系。R的绝对值越接近于1,表示两个变量间相关关系的密切程度越高;越接近于0,则相关关系越不密切。

7.相关系数的假设检验:目的是推断两变量间有无直线相关关系。即使存在直线关系,仅凭样本计算出的相关系数并不能说明两变量间就有相关关系。从ρ=0的总体中随机抽样,由于抽样误差的影响,所得r值也常不等于0。对同一资料,相关系数t检验与回归系数t检验结果相同,有tr=tb=√F。

8.决定系数:回归平方和与总平方和之比,即R2=SS回/SS总,R2取值在0到1之间且无单位,其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回归所能解释的百分比。R2越接近于1,回归效果越好。

9.秩相关:又称等级相关,是用双变量等级数据作直线相关分析,对原变量分布不作要求,属于非参数统计方法。适用资料:①不服从双变量正态分布而不宜作极差相关分析;②总体分布型未知;③原始数据时用等级表示。Spearman等级相关系数rs是说明两个变量间直线相关关系的密切程度与相关方向的统计指标,其取值和意义同r。根据样本资料计算得到的rs,也需对其进行假设检验。

10.相关与回归的区别:①相关表示相关关系(共变关系),无依存关系,无自变量与应变量之分,而回归表示依存关系,应变量随自变量的变化而变化;②r没有单位,b有单位:所以相关系数与单位无关,回归系数与单位有关;③相关表明两变量间关系的方向和密切程度,回归则用函数方程表达应变量随自变量变化的数量关系;④对资料的要求不同,相关分析要求两变量均为随机变量,并服从双变量正态分布。回归分析只要求应变量Y服从正态分布,而自变量X可以是正态分布的随机变量,也可以是人为控制大小的变量。相关与回归的联系:①均表示线性关系;②对能计算相关分析的同一组数据计算出的r和b的符号相同:共变方向一致;③同一资料r和b的假设检验等价。

11.直线回归与相关应用的注意事项:①根据分析目的选择变量及统计方法,做直线回归与相关分析要有实际意义,不能把毫无关联的两个事物或现象做相关与回归分析;②进行相关、回归分析前应绘制散点图;③用残差图考察数据是否符合模型假设条件;④进行相关与回归分析都必须进行假设检验,以推断两变量间的线性关系是否存在;⑤结果的解释及正确应用:反映两变量关系密切程度或数量上影响大小的统计量应该是相关系数或回归系数的绝对值,而不是假设检验的P值,此外回归方程一般只适用于自变量X的取值范围内,可以内插,不宜外延。

12.曲线拟合:当散点图中应变量与自变量间表现出非线性趋势时,可以曲线拟合方法来刻画两变量间数量上的依存关系。一般步骤:①依据分析目的确定自变量X与应变量Y之后,根据两变量散点图呈现的趋势,结合专业知识及既往经验选择合适的曲线;②选用适当的估计方法求得回归方程;③实际工作有时可结合散点图适配几种不同形式的曲线方程并计算其R2,一般来说R2较大时拟合效果较好。用途:①定量刻画Y与X的曲线关系;②用相关指数反映两变量曲线关系的密切程度。

第10章  统计表与统计图

1.统计表:将研究指标或统计指标及其取值以特定表格的形式列出,以简洁明了、条理清晰的方式表达数据,便于阅读、比较和计算。意义:展示资料的数据结构、分布特征和规律,便于在进一步分析中选择和计算统计量。制表原则:①重点突出,简单明了;②统计表有主语和宾语,通常主语放在表的左边,作为横标目,宾语放在右边,作为纵标目。基本要求:①标题:概括表的主要内容,包括研究的时间、地点和研究内容,放在表的上方;②标目:分横标目与纵标目,注意标明指标的单位;③线条:至少用三条线(三线表),即顶线、底线和纵标目下与数字的分隔线,部分表格可再用横线将合计分隔开,其他竖线和斜线一概省去;④数字:用阿拉伯数字表示,按小数位对齐,无数字用“—”表示,确实数字用“…”表示,数值为0者记为0,不要留空项;⑤表中数字区不要插入文字,必须说明者标“*”号,表下方备注说明。种类:①简单表:主语只有一个层次;②组合表:主语有两个以上层次;③频数分布表;④列联表等。注意事项:一张表一般只包括一个中心内容,不要把过多的内容放在一个庞大的表格里。

2.统计图:用“点、线、面、体”等各种几何图形来形象化地表达和对比数据。意义:将统计数据形象化,易于做分析比较。缺点:一般只能提供概略情况,而不能获得确切数值,不能完全代替统计表,常需要同时列出统计表作为统计图的数值依据。种类:直条图、圆图和百分比条图、线图、直方图、散点图和统计地图等,以及箱式图、茎叶图、误差条图等特殊分析图。制表原则:①根据资料性质和分析目的正确选用适当的统计图;②用标题简要说明资料的主要内容、时间和地点。标题位于图下方;③分别用横标目和纵标目说明横轴和纵轴代表的指标和单位,一般将两轴的相交点即原点处定为0,纵、横轴的比例一般以5:7或7:5为宜;④统计图用不同线条和颜色表达不同事物和对象的统计量,需要附图例加以说明,图例可放在图的右上角空隙处或下方中间位置。

3.直条图:用相同宽度的直条长短表示相互的某统计指标值的大小。可分为卧式条图和立式条图或者是单式条图(横轴只有一个分组变量)和复式条图(横轴有两个或多个分组变量)。直条图的直条尺度必须从0开始,各直条的宽度相等,间隔一般与直条等宽或为其一半。主要适用于分析、比较各自的或离散型变量的多个组或多个类别的统计指标。指标可以是绝对数,也可以是相对数或平均数。

4.圆图和百分比条图适合描述分类变量资料的各类别所占的构成比。圆图:以圆形总面积作为100%,将其分割成若干个扇面表示事物内部各构成部分所占的比例。主要用于单个构成比的分析。百分比条图:以矩形总长度作为100%,将其分割成不同长度的段表示各构成的比例。主要用于多个构成比的分析。

5.线图:用线段的升降来表示数值的变化,适合于描述某统计量随另一连续性数值变量变化而变化的趋势。通常横轴是时间或其它连续性变量,纵轴是统计指标。普通线图(横轴和纵轴都是算术尺度,纵轴需从0开始)用于描述绝对变化趋势(变化幅度);半对数线图(纵轴是对数尺度)用于描述相对变化趋势,特别适宜作不同指标变化速度的比较。

6.直方图:以各直方面积描述各组频数的多少,面积的总和相当于各组频数之和,适合表示连续型数值变量资料的频数分布或频率分布,特别是了解一群数据的集中趋势、离散趋势和分布规律,为选用正确的统计描述和统计推断方法奠定基础。

7.统计地图:用不同的颜色和花纹表示统计量的值在地理分布上的变化,适宜描述研究指标的地理分布。注意颜色或花纹的选择最好与统计量数值增减的趋势一致。

8.箱式图:适用5个统计量反映原始数据的分布特征,即数据分布中心位置、分布、偏度、变异范围和离群值。箱子两端分别是上四分位数和下四分位数,中间横线是中位数,两端连线分别是除离群值外的最小值和最大值,另外标记可能的离群值。特别适合于多组数据分布的比较。

9.茎叶图:将数据分离成两部分,即整数部分和尾数部分,整数部分形成图的茎,尾数部分形成图的叶。可非常直观地显示数据的分布范围和形态。

10.误差条图:通过样本信息来描述总体,估计抽样误差的大小。特别适合比较多个样本间的差异情况。可显示三种不同的区间:可信区间、X±S、X±SX。

第12章  重复测量设计资料的方差分析

1.重复测量资料的数据特征:①巢式数据;②数据个体内相关而个体间(球形检验/球对称检验);③同一个体重复测量(相关个体)。结构:即无相关关系,相关矩阵主对角线上的元素为1,非主对角线上的元素为0(相关系数为0),它表示不同时间点上的测量值之间彼此,无相关关系。

2.前后测量设计与配对设计t检验的区别:①配对设计中同一对子的两个实验单位可以随机分配处理,两个实验单位同期观察实验结果,可以比较处理组间差别;前后测量设计不能同期观察实验结果,在本质上比较的是前后差别,推论处理是否有效是由条件的,即假定测量时间对观测结果没有影响。②配t检验要求同一对子的两个实验单位的观测结果分别与差值相互,差值服从正态分布;前后测量设计前后两次观测结果通常是与差值不,大多数情况第一次观测结果与差值存在负相关的关系。③配对设计用平均差值推论处理的作用,前后测量设计除了分析平均差之外,还可进行相关回归分析。

3.重复测量设计与随机区组设计的区别:①重复测量设计中处理是在区组(受试者)间随机分配,区组内的各时间点是固定的,不能随机分配;随机区组设计则要求每个区组内实验单位彼此,处理只能在区组内随机分配,每个实验单位接受的处理是不相同的。②重测设计区组内实验单位彼此不,更确切的说重测数据用随机区组方差分析比较处理组间差异的前期是满足“球对称”假设,若重测数据不满足“球对称”假设,采用随机区组设计方差分析会增大I型错误的概率。③重测设计的优点是可以减少样本含量和控制个体变异(个体差异),可看作是随机区组设计的一种极端形式。

4.重测数据的统计分析方法:单变量方差分析(ANOVA)和多变量方差分析(MANOVA)。单变量方差分析要求满足要求方差结构为球形或复合型对称;不满足,则采用多变量方差分析或一般方差分析进行校正。注意事项:只有在满足球对称假设的情况下,单组重测数据的方差分析才与随机区组方差分析等价。

第25章  医学科学研究设计

1.医学研究:首要任务是创新。根据医学研究过程的不同发展阶段分为基础研究,应用研究和发展研究。

特点:伦理性和复杂性(个体变异大和主观干扰大)。分类:按研究目的分为验证性研究和探索性研究;按研究形式分观察性研究和实验性研究;按研究指标分单因素研究和多因素研究;按研究的时限分前瞻性研究、回顾性研究和横断面研究;按研究对象分社区研究、临床试验和实验研究。①观察性研究设计②实验性研究设计;③临床试验研究设计。步骤:①选题;②制定研究方案:③收集资料;④数据整理与分析;⑤撰写研究报告。研究方法:比较与分类、分析与综合、归纳与演绎、类比推理。目的:探讨疾病发生发展的机制;研究可能与疾病发生相关的因素;探索防止疾病的有效方法;促进人群的健康水平。

第27章  实验研究设计

1.实验设计的基本要素:①实验单位:处理因素作用的客体,是接受处理因素的基本单位,亦称实验对象或受试对象。要求对处理因素敏感且反映必须稳定。②处理因素:研究者根据研究目的施加于实验单位,在实验中需要观察并阐明其效应的因素。非处理因素:与处理因素同时存在,能使实验单位产生效应的其他因素。确定处理因素时应注意:A.明确处理因素和非处理因素;(a.一次实验中处理因素不宜太多也不宜过少;b.根据专业知识和实验条件,找出重要的非处理因素,以便进行控制)B.处理因素要标准化。③实验效应:处理因素作用于受试对象的反应,是研究结果的最终体现,也是实验研究的核心内容,一般通过观测指标来表达。观测指标的基本要求:客观性、特异性和灵敏性、精确性。

2.实验设计的基本原则:①对照原则:控制已知非处理因素产生的系统误差的有效措施,设立对照时应遵循均衡性原则。常用对照形式有:空白对照、实验对照、标准对照、相互对照和潜在对照。②随机化原则:控制未知非处理因素产生的系统误差的有效方法。包括抽样随机,分组随机和实验顺序随机。其作用是避免主观因素的参与;打破原实验对象排列的系统性,控制系统误差;对实验中意想不到的因素起平衡作用;随机化也是统计推断的基础。③重复原则:降低随机误差和增加精密度,其应用就是样本含量的估计。

3.影响样本含量的条件:①假设检验的型错误概率α大小;②假设检验的型错误概率β或检验效能(1﹣β)的大小;③容许误差δ的大小;④总体的相关信息。

5.完全随机设计:又称简单随机分组设计,是采用完全随机化分组方法将同质的实验单位分配到各处理组,各组分别接受不同的处理。优点:设计简单,易于实施,出现数据缺失时任可进行统计分析。缺点:样本小时,可能均衡性较差,抽样误差较大。与随机区组设计相比,效率较低。

6.配对设计:将实验单位按一定条件配成对子,再将每对中的两个实验单位随机分配到不同处理组。配对的因素为可能影响实验结果的主要非处理因素。包括异体配对和同体配对。与完全随机设计相比其优点:抽样误差较小,实验效率高,所需样本含量也小。缺点:当配对条件未能严格控制造成配对失败或配对欠佳,反而会降低效率。

7.随机区组设计:又称配伍组设计,先将实验单位按性质相同或相近者组成区组,再分别将各区组内的实验单位随机分配到各处理或对照组。设计时应遵循单位组间差别越大越好,单位组内差别越小越好。优点:每个区组内的实验单位有较好的同质性,比完全随机设计减少了误差,提高了实验效率。缺点:要求区组内实验单位数与处理数相等,实验结果中若有数据丢失,统计分析较麻烦。

8.拉丁方设计:是在随机区组设计的基础上发展的,实验涉及一个处理因素和两个控制因素,将两个控制因素分别安排在拉丁方设计的行和列上,每个因素的类别数或水平数相等,即用g个拉丁字母排成g行g列的方阵,使每行、每列中每个字母都只出现一次,这样的方阵称为g阶拉丁方或g×g拉丁方。优点:大大减少了实验次数,尤其适合动物实验和实验室研究。缺点:要求处理数必须等于拉丁方的行(列)数,一般的实验不满足此条件,且数据丢失会增加统计分析的难度。

9.交叉设计:按事先设计好的试验次序,在各个时期内对研究对象先后实施各种处理,以比较各处理组间的差异。优点:节约样本含量;控制个体差异和时间对处理因素的影响,即效率高;临床试验中均等地考虑了每个患者的利益。缺点:(样本量降低)每个处理时间不能太长,受试对象可能中断试验;受试对象发生根本变化如死亡,后一阶段的处理将无法进行;受试对象一旦在某一阶段推出实验,就会造成数据丢失,增加统计分析的困难。注意事项:各种处理间不能相互影响——洗脱阶段;应采用盲法进行观察,以提高受试对象的依存性;不宜用具有自愈倾向或病程较短的疾病研究。

10.析因设计:又称完全交叉分组试验设计,安排析因试验(多因素试验)的设计,是将两个或多个处理因素的各水平进行组合,对各种可能的组合都进行试验。优点:全面性和高效性,可分析交互效应。缺点:当因素个数多于3个时,所需处理组数、实验单位数、实验次数和计算量剧增。

11.正交设计:按正交表安排部分实验,即各因素各水平的组合方式要查正交表才能决定。优点:可以成倍地减少试验次数,效率高。缺点:为非全面试验,要求有较充分的理由认为因素间交互作用不显著。

12.裂区设计:类似于析因设计,该设计的处理也是析因处理,只是每个因素作用于不同级别的实验单位。特点是实验单位按其自然隶属特征划分级别,高级的实验单位包含低级的实验单位;A因素只作用于一级实验单位,B因素只作用于二级实验单位。裂区设计与析因设计的差别:析因设计的g个处理全部作用于同一级别的实验单位,如完全随机设计全部作用于一级实验单位,随机区组设计全部作用于同一级别的实验单位;但裂区设计A因素I个水平只作用于一级实验单位,只有B因素J个水平作用于二级实验单位。医学研究中,裂区设计多用于研究全身药物与局部处理的观测指标的综合效应。

第28章  临床试验研究设计

1.临床试验:是以人为观察对象、评价各种治疗方法或预防措施效果、有对照的前瞻性研究。目的:证实或揭示治疗方法或预防措施的疗效和安全性,综合评价治疗方法或预防措施的效果和价值。受试对象:病人。(“失访”医学伦理学、知情同意)

2.药物的临床试验设计:将一种新药首次用于人体时,需在严格试验条件下,将试验药物用于一小部分健康自愿者,评价试验药物的安全性和耐受性,并确定一个安全的药物剂量范围。主要目的:为下一阶段的临床试验方法进行设计,以便根据积累的结果对试验进行适当的修改,为后续研究提出进一步的假设。

3.临床试验设计的基本要素:①处理因素(药物):一个临床试验至少要验证一种新的干预方法(处理因素)的有效性。临床试验按照试验目的定义为:治疗性试验、预防性试验和诊断性试验。新药的临床试验主要是评价药物的安全性和有效性。非处理因素——会影响临床试验结果,产生混杂效应。设计时应明确这些非处理因素,通过严格执行随机化方案来控制其干扰和影响。②受试对象(病人):根据临床试验目的确定研究总体。受试对象的选择标准:总体代表性、临床试验的伦理学要求和病人参加试验的安全性考虑。;排除标准:病人的依从性、试验过程中可能影响有效性和安全性评估的合并疾病情况。受试对象的选择在很大程度上受到一种主观愿望的影响(受试对象是病人总体中很局限的,最容易显示疗效的一小部分)。由于地理位置、研究时间以及特定的研究者在医疗单位的医疗实践等因素影响,临床试验常采用多个不同地区的医疗单位同时选择受试对象,尽可能使受试对象能代表研究的总体人群,这种临床试验常称为中心试验。③试验效应(服药后反应):指处理因素作用于受试对象而产生的各种效应。试验中受试者有无不良事件是药物临床试验观察的重点。观察指标可分为定量指标(可测量的指标)和定性指标(受试者有无发生不良事件)。一个临床试验只有一个研究目的,一个主要指标,该指标是用于临床试验的样本含量估计的一个重要参数。(如果在研究方案中定义多个主要指标,可能出现多重性问题,在统计分析时考虑对Ⅰ类错误进行调整。主要指标应根据试验目的选择易于量化、客观性强、重复性高,并在相关研究领域已有公认标准的指标;辅助性指标作为次要指标;复合指标;综合评价指标如痊愈、显效、好转、无效,综合评价指标中的客观指标一般应同时单独作为主要指标进行分析;替代指标:间接反映其临床效果,所提供的用于临床效果评价的证据的强度取决于:a.替代指标与试验目的在生物学上相关性的大小;b.替代指标对临床结果预后判断价值的流行病学证据;c.从临床试验中获得的有关处理因素对替代指标的影响程度与处理因素对临床试验结果的影响程度相一致的证据。)测量指标转换为分类指标通常会丧失部分信息,容易导致检验效能的降低

4.偏倚:又称系统误差,是指人为的有系统倾向性的非随机误差,它不是由于抽样引起的,而是某种恒定的使试验效应偏向某一方面的因素所造成的误差,从而使对治疗作用的估计偏离它的真实值。偏倚的大小取决于研究的方法和具体条件。

5.临床试验常见偏倚的产生与控制:①选择性偏倚:是在临床试验中,由于选择的试验对象或观察指标不恰当而引起的偏倚。包括a.入选偏倚(根据临床试验的目的,可考虑病型、病期、病情程度等因素具定入选标准);b.排除偏倚(在临床试验中,有时需要根据试验目的,考虑年龄、合并症、妇女特殊生理期、病情程度、病程、过敏史、治疗史、鉴别诊断等方面因素具定统一的排除标准,以排除不合格的受试者);c.分组不均衡性偏倚(在临床试验中,如果不应用随机方法分配受试对象,有些可能影响疾病转归与预后的因素在组间常无法得到均衡;或采用简单随机分配方法进行分组,在受试例数较少时两组的有关基线特征就不一定均衡,从而可能带来分组不均衡性偏倚。——增加受试例数,或采用分层区组随机化方法);d.非同期对照偏倚(注意比较资料之间是否具有可比性,由于不同时期的资料中被研究的对象的条件、环境等都很难保持一致,可比性差,会带来非同期对照偏倚)。消除或防止选择性偏倚产生的有效方法:在临床试验设计阶段对产生选择性偏倚的原因采取相应的措施,防止偏倚的产生。关键是预见或估计到本临床试验可能出现哪些偏倚。②观察性偏倚:由于在临床信息收集、整理过程中各种原因的影响而出现的误差,可能来自临床试验的观察全过程。分为:a.调查偏倚(是在调查试验组与对照组时,由于两组的调查环境与条件不相同、也可能是调查人员的质量不高或调查人员的询问态度、方式不一,从而造成对资料的收集和记录的误差);b.回忆偏倚(是指受试者的记忆不完整,使其准确性与真实情况之间存在着误差);c.无应答偏倚(在临床试验需要随访时采用信访或电话询问时有时会出现无应答现象,而且无应答者与应答者往往在临床经过等方面存在着系统差异,这种偏倚称之);d.试验条件偏倚(由于临床试验时没有制定和/或执行标准操作规程,临床试验的场所、条件、测定仪器、测定方法、试剂的不同,或研究者的操作和判断水平不统一对实验结果产生影响,造成的误差称之);上述为测量偏倚。e.临床资料遗漏偏倚(由于临床资料中有的经过检查结果正常或阴性,研究者未作记录,或者是未经检查没有做记录,导致临床资料遗漏和不完整,影响研究结论的正确推导,这种误差称之);f.不接受测量偏倚(由于临床试验中采用的检查测量法方法易造成损伤、疼痛等结果时,被检查者拒绝和逃避检查,造成两组被测量检查的数量不相同从而产生偏倚,这种偏倚称之);g.失访偏倚(受试者失去联系而造成的偏倚);h.期望性偏倚(主要来源于研究者,未采用双盲法。也可能来自受试者。)。控制观察性偏倚的产生:主要是在收集信息阶段,针对产生观察性偏倚的原因采取相应措施。③混杂偏倚:指当研究某一处理因素与疾病的疗效关系时,另一种伴随的非处理因素产生的效应,干扰着处理因素所产生的效应,这一伴随因素称为混杂因素。发生在资料分析阶段,常由于影响试验结果的非处理因素在各对比组中分配不均匀但未采取校正所引起的偏倚。——首先可按可预期的重要混杂因素进行分层随机设计,试验过程中严格执行随机化方案,使潜在的混杂因素在各组分布均衡。

6.临床试验中避免偏倚的技巧:①盲法:是为了避免研究者和受试者的主观因素对试验结果的干扰的重要措施。分双盲和单盲,双盲临床试验是指研究者和受试者在整个试验过程中不知道受试者接收的是何种处理;单盲临床试验是指仅受试者处于盲态。受主观因素影响较大的变量、客观指标——双盲试验。双盲临床试验中,盲态应贯穿整个试验,从产生随机数、编制试验盲底、试验处理的随机分配、病人入组后的治疗、研究者记录试验结果并作出疗效评价、试验过程的监察、数据管理直至统计分析都必须保持盲态。相反:开放试验,即不设盲的试验:研究者和受试者都知道具体治疗方案。研究者和参与试验效应评价的研究人员最好不是同一个人。②随机化:是指临床试验中的受试者有同等的机会被分配到试验组或对照组中个,而不受研究者和/或受试者主观意愿的影响,可以使各处理组的各种影响因素(包括已知和未知的因素)分布趋于相似。包括分组随机和试验顺序随机,与盲法合用有助于避免因处理分配的可预测性而产生的分组不均衡性偏倚。在多中心临床试验中,应按参加试验的中心组织随机化过程,即按中心分层,分层随机化有助于保持层内的均衡性,还可按照基线资料中的重要预后因素进行分层。③意向性分析原则:根据意向性分析的基本原则,主要指标的分析应包括所有随机化的受试者,无论其是否完成试验。全分析集(FAS)是指尽可能接近符合意向性分析原则的理想的受试者集,该数据集是从所有随机化的受试者中,以最少的和合理的方法剔除受试者后得出的。④协变量及交互作用分析:把对主要指标有重要影响的因素作为协变量

7.临床试验的对照组选择:遵循专设、同步、均衡的原则。对照组的专设是指在临床试验设计中,将合格的受试者分出部分受试者作为对照,即不接受所研究的处理因素,在试验结束时比较两组的处理效应才能达到对照组所引起的“比较鉴别”的作用。同步是要求设立平行的对照组,即从与试验组相同的人群中选出的,并且作为同一临床试验研究治疗的一部分,同时按各自规定的观点方法进行治疗。均衡是要求试验组和对照组的所有基线值,除了处理因素外其他可能影响结果有关非处理因素都应当相似。对照类型:①无治疗平行对照:在无治疗的对照试验中,受试者被随机分配到试验治疗组或无试验治疗组或对照治疗组。②安慰剂平行对照:在药物临床试验中,如果对照组所用药物是一种外表(包括剂型、大小、颜色、重量等)与试验药物完全相同、并无药物的活性成分的模拟药物,称为安慰剂对照。优势:通过采用双盲和随机化,设立一个无治疗组,控制了除试验药物药理作用之外的所有潜在非处理因素的影响。注意:a.伦理问题b.安慰剂对照不会延误病情和治疗。③量效平行对照(双盲):在随机化、固定剂量的量效关系研究中,受试者被随机分配到几个固定剂量组中的一组。受试者可能一开始就接受其固定剂量,或者逐渐升高至这一剂量,对组间的最终剂量进行预期比较。④阳性治疗平行对照:在临床试验中采用已知的有效药物或标准的治疗方案作为对照组,称为阳性治疗平行对照。阳性药物对照使用的剂量和给药方案必须是该药最优剂量和最优方案。在选择以阳性治疗作为对照的临床试验中,证明试验治疗组的处理效应时有两个不同的目标:a.显示试验治疗作用与某种已知的阳性对照组治疗作用一样b.显示实验组的治疗作用优于阳性对照组。可有多个对照组,安慰剂对照组,阳性对照组——三手试验,其目的是进一步验证阳性对照组的检验灵敏度。

8.临床试验设计的常见类型:①平行组设计:最常用,可为试验药设置一个或多个对照组,试验药也可设多个剂量组。对照组可分为阳性或阴性对照。②交叉设计:将自身比较和组间比较设计思路综合应用的一种设计方法,参加试验的每个个体随机分配到两个或多个试验顺序组中,在各个时期对受试者逐一实施各种处理,以比较各处理组间的差异。最简单的是2*2交叉设计。交叉设计可以控制个体间的差异,同时减少受试者人数。采用交叉设计应避免延滞效应,要求每个受试者需经历如下几个试验阶段:即准备阶段、第一试验阶段、洗脱期和第二试验阶段。③析因设计:通过处理的不同组合,对两个或多个处理同时进行评价。最简单的是2*2析因设计,将研究对象随机分配到两个处理。

9.临床有效性的统计学评价:选择阳性药物为对照,试验设计最关键的问题:该试验是用于证明两种药物之间的差异,还是证明两种药物的非劣效性或等效性。确认试验药物疗效的条件:①以安慰剂为对照的试验应显示出高于临床上认定的疗效界值,从而确认其优效性;②以阳性药为对照的试验如果显示出高于临床上认定的疗效界值,可确认其优效性;③以阳性药为对照的试验如果显示出试验药在一定的临床界值下不差于阳性药,而且有证据反映试验药和阳性药均优于安慰剂,可确认其非劣效性;④以阳性药为对照的试验如果显示出试验药在一定的临床界值下不差于阳性药,而且有证据反映试验药和阳性药均优于安慰剂,同时试验药在一定的临床界值下不优于阳性药,可确认其等效性。显示优效性的设计通过安慰剂对照试验显示优于安慰剂或优于阳性药,或由剂量反映关系证实疗效是最可信的。这类试验称为优效性试验。显示非劣效性或等效的设计,以阳性药物为对照,试验的目标是显示试验药物的疗效或某种已知的阳性药“不差”或“相当”,分别称为非劣效性试验和等效性试验。阳性对照试验设计:稳定性假设和检测灵敏度。稳定性假设是指阳性对照药物在既往研究(对安慰剂)中的效应量在当前的非劣效性或等效性试验中保持不变。检测敏感度指分辨某种治疗与较差的治疗或无效的治疗之间差别的能力,对优效性试验、非劣效性试验和等效性试验具有不同的意义。制定确认试验药疗效的界值:在优效性试验中,界值指试验药与对照药之间相差的临床上认可的最小值,在非劣效性和等效性试验中指临床上可接受的最大值。对非劣效性和等效性试验,它必须小于阳性对照药与安慰剂比较时的效应差值。优效性、非劣效性试验用一个界值,而等效性试验要用劣侧和优侧两个界值,一般取等距。确认试验药疗效的假设检验方法 :假设检验时,检验假设通常为两组相等的零假设,其统计推断往往仅限与两者的差别有无统计学意义。确认疗效的可信区间方法:见书。

10.临床诊断试验与评价:①诊断试验的研究设计:诊断试验的金标准是指当前临床医学界所公认的诊断某病最为可靠的方法。②诊断试验的评价:应采用盲法。用于诊断试验评价的常用指标有灵敏度、特异度、误诊率和漏诊率。a.灵敏度:称真阳性率,是实际患病且被试验诊断为患者的概率,即患者被诊断为阳性的概率。b.特异度:又称真阴性率,是实际未患病而被试验诊断为非患者的概率,即非患者被诊断为阴性的概率。灵敏度是反映检出能力的指标,而特异度是反映鉴别非患者能力的指标,两个指标都是越大越好。c.误诊率:又称假阳性率,表示实际未患病但被试验诊断为患者的概率,即非患者被诊断为阳性,反映非患者被错误诊断的可能性。d.漏诊率:又称假阴性率,表示实际患病但被试验诊断为非患病的概率,即患者被诊断为阴性,反映患者被遗漏诊断的可能性。③预测指标;④诊断试验的综合评价指标;⑤截断点的选择与ROC曲线;⑥提高诊断试验效率的方法;⑦诊断试验的正确应用。下载本文

显示全文
专题