视频1 视频21 视频41 视频61 视频文章1 视频文章21 视频文章41 视频文章61 推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37 推荐39 推荐41 推荐43 推荐45 推荐47 推荐49 关键词1 关键词101 关键词201 关键词301 关键词401 关键词501 关键词601 关键词701 关键词801 关键词901 关键词1001 关键词1101 关键词1201 关键词1301 关键词1401 关键词1501 关键词1601 关键词1701 关键词1801 关键词1901 视频扩展1 视频扩展6 视频扩展11 视频扩展16 文章1 文章201 文章401 文章601 文章801 文章1001 资讯1 资讯501 资讯1001 资讯1501 标签1 标签501 标签1001 关键词1 关键词501 关键词1001 关键词1501 专题2001
统计学知识点(完整)
2025-09-24 06:27:41 责编:小OO
文档
根本统计方法

第一章 概论

1. 总体〔Population 〕:根据研究目确实定的同质对象的全体〔集合〕;样本〔Sample 〕:从总体中随机抽取的局部具有代表性的研究对象。

2. 参数〔Parameter 〕:反映总体特征的统计指标,如总体均数、标准差等,用希腊字母表示,是固定的常数;统计量〔Statistic 〕:反映样本特征的统计指标,如样本均数、标准差等,采用拉丁字字母表示,是在参数附近波动的随机变量。

3. 统计资料分类:定量〔计量〕资料、定性〔计数〕资料、等级资料。

第二章 计量资料统计描述

1. 集中趋势:均数〔算术、几何〕、中位数、众数

2. 离散趋势:极差、四分位间距〔QR =P 75-P 25〕、标准差〔或方差〕、变异系数〔CV 〕

3. 正态分布特征:①X 轴上方关于X =μ对称的钟形曲线;②X =μ时,f(X)取得最大值;③有两个参数,位置参数μ和形态参数σ;④曲线下面积为1,区间μ±σ的面积为68.27%,区间μ±1.96σ的面积为95.00%,区间μ±2.58σ的面积为99.00%。

4. 医学参考值范围的制定方法:正态近似法:/2X u S α±;百分位数法:P 2.5-P 97.5。

第三章 总体均数估计和假设检验

1. 抽样误差〔Sampling Error 〕:由个体变异产生、随机抽样造成的样本统计量与总体参数的差异。抽样误差不可防止,产生的根本原因是生物个体的变异性。

2. 均数的标准误〔Standard error of Mean, SEM 〕:样本均数的标准差,计算公式:

/X σσ=

3. 降低抽样误差的途径有:①通过增加样本含量n ;②通过设计减少S 。

4. t 分布特征:

①单峰分布,以0为中心,左右对称;

②形态取决于自由度ν,ν越小,t 值越分散,t 分布的峰部越矮而尾部翘得越高;

③当ν逼近∞,X S 逼近X σ, t 分布逼近u 分布,故标准正态分布是t 分布的特例。

5. 置信区间〔Confidence Interval , CI 〕:按预先给定的概率〔1-α〕确定的包含总体参数的一个范围,计算公式:/2,X X t S αν±或/2,X X u S αν±。95%CI 含义:从固定样本含量的总体中进行重复抽样试验,根据每个样本可得到一个置信区间,那么平均有95%的置信区间包含了总体参数。

6. 假设检验的根本原理:小概率反证法的思想。

①反证法:从问题的对立面(H 0)出发间接判断要解决的问题(H 1)是否成立。

②小概率事件:在H 0成立的条件下计算检验统计量,根据概率分布确定检验水准α下P

7. 假设检验一般步骤:①建立假设〔反证法,H0和H1〕,确定检验水准〔α〕;②计算统计量:u, t,F;③确定概率值P,做出推断结论。

8. t检验需满足的条件:比拟的两个样本相互、均服从正态分布。

9. P的含义:是指从H0规定的总体随机抽样,抽得等于及大于(或/和等于及小于)现有样本获得的检验统计量(如t、u等)值的概率。

10. Ⅰ型错误〔Type Ⅰerror〕:拒绝了实际上成立的H0,这类“弃真〞的错误称为Ⅰ型错误,Ⅰ型错误的大小为检验水准α。Ⅱ型错误〔Type Ⅱerror〕:接受了实际上不成立的H0,这类“存伪〞的错误称为Ⅱ型错误,Ⅱ型错误的大小用β表示,1-β表示检验效能。α越小,β越大,增大样本量可以同时降低α和β。

11. 置信区间和假设检验的区别和联系:①可以通过判断置信区间是否包含零假设,判断单样本均数是否来自的总体;②置信区间不但能答复差异有无统计学意义,还可提示差异有无实际意义。③假设检验可提供置信区间不能提供的信息,如P值和检验效能等。

第四章方差分析

1. 方差分析的根本思想:根据研究目的和设计类型,把所有测量值的总变异按照处理因素和水平等分解成两局部〔组内变异和组间变异〕或更多局部,同时把对自由度相应进行分解,再进行比拟,评价由处理因素引起的变异是否具有统计学意义。

2. 方差分析的应用条件:各样本是相互的随机样本,均来自正态分布的总体,各样本的总体方差相等〔具有方差齐性〕。

3. 方差分析表:

变异来源SS νMS F P

组间变异 a g-1 a/(g-1) MS组间/MS组内

组内变异 b N-g b/(N-g)

总变异a+b N-1

4. g=2时,随机区组设计的方差分析与配对设计资料t检验等价,t=

5. 多个样本均数间的多重比拟:①LSD-t检验,即最小显著差异t检验,适用于一对或几对在专业上有特殊意义的样本均数间的比拟;②Dunnett-t检验:适用于g-1个实验组与一个对照组均数差异的多重比拟;③SNK-q检验:适用于多个样本均数两两之间的全面比拟。

第五章计数资料的统计描述

1. 相对数的类型:强度相对数〔率,如死亡率、发病率等〕;结构相对数〔构成比〕;相比照〔如性别比等〕

2. 应用相对数的考前须知:①结构相对数不能代替强度相对数;②计算相对数应有足够的数量;③正确计算合计率;④注意资料的可比性;⑤比照不同时期资料应注意客观条件是否相同;⑥样本率〔或构成比〕的抽样误差。

3. 标准化率〔Standardization rate〕:采用标准化法进行计算,消除数据内部构成的差异,使标化后的合计率具有可比性,这种经过标化后的合计率称为标准化率。

4. 标准化率的考前须知:①只适用于内部构成不同,影响总率的可比性的问题;②选择的标准不同,计算得到的标准化率也不同,多个标准化率比拟时,应选同一标准;③标准化率

已经不再反映当地的实际水平;④样本标准化率是样本值,存在抽样误差。比拟两样本标准化率,当样本量较小时,需做假设检验。

第六章 几种离散型变量的分布及应用

1. 二项分布X ~B (n , π)的适用条件:①每次试验只发生两种对立的可能结果之一;②每次试验产生某结果的概率π固定不变;③重复试验是相互的。

2. 二项分布的性质:①阳性次数X 的总体均数〔n μπ=〕、标准差〔σ=;

②样本率p 的均数〔p μπ=〕、标准差〔p S =率的标准误〕。③二项分布的正态近似条件:np 和n (1-p )均大于5。

3. 泊松分布X ~P (λ)的性质:①总体均数λ和总体方差σ2相等;②当n 很大,π很小,且np = λ为常数时,二项分布近似泊松分布;③λ≥20时,泊松分布近似正态分布;④泊松分布具备可加性。

第七章 χ2检验

1. χ2检验的根本思想:根据χ2分布特征,通过比拟实际频数与理论频数的差异,确定在H 0成立的条件下该差异由抽样误差造成是否为小概率事件,进而判断差异是否具有统计学意义。χ2值反映了实际频数与理论频数的吻合程度。

2. R×C 列联表中的各格子T≥1,并且1≤T <5的格子数不宜超过1/5格子总数,否那么可能产生偏差。处理方法有三种:①增加样本量,使理论频数增大;②根据专业知识,删除或合并行列;③采用Fisher 确切概率法分析。

3. 有序分组资料表线性趋势检验:

①双向无序的R ×C 列联表:多个样本率的比拟采用R×C 列联表的χ2检验;两个分类变量的关联性分析那么采用R×C 列联表的χ2检验和Pearson 列联系数进行分析。

②单向有序的R ×C 列联表:行有序而列无序:R×C 列联表的χ2检验;行无序而列有序,采用Wilcoxon 秩和检验。

③双向有序属性相同的R ×C 列联表:配对四格表的扩展,采用一致性检验〔Kappa 检验〕。 ④双向有序属性不同的R ×C 列联表:样本率的比拟采用Wilcoxon 秩和检验;相关性分析采用Spearman 相关分析;线性变化趋势分析采用有序分组资料的线性趋势检验或CMH χ2检验等。

第八章 非参数检验

1. 秩和检验的适用范围:①总体分布偏态的计量资料;②数据两端有不确定值;③等级资料;④各组离散程度相差悬殊,总体方差不齐的资料。

2. 非参数检验对总体分布的形状差异不敏感,只对总体分布位置差异敏感;非参数检验没有充分利用资料信息,较参数检验的检验效低。故能用参数检验尽量采用参数检验,不满足参数检验条件才使用非参数检验。

3. 不同数据类型的统计分析路径:

〔1〕样本均数与总体均数的比拟:正态,样本均数与总体均数的t 检验;非正态,Wilcoxon 符号秩检验。

〔2〕两样本均数比拟:①正态:两样本t 检验;②非正态:两样本的Wilcoxon 秩和检验;③配对设计差值正态,配对t 检验;④配对设计差值非正态,Wilcoxon 符号秩检验。

〔3〕多样本均数比拟:①正态〔方差齐〕,方差分析;②非正态 Kruskal-Wails H 检验;③非正态,重复测量资料的方差分析;④非非正态,Friedman M 检验

第九章 双变量回归和相关

1. 直线回归应满足的条件:自变量与因变量呈线性关系、观察值之间相互、因变量Y

随机正态、对任何X 因变量Y 的标准差相等。直线回归方程的一般形式为:ˆY

a bX =+,a 为截距,

b 为回归系数,回归系数的估计采用最小二乘法原那么〔Least Squares Method ,使残差平方和最小〕进行估计。

2. 决定系数〔coefficient of determination 〕:回归平方和与总平方和的比值,R 2=SS 回/SS 总。R 2取值0~1之间无单位,其数值大小反映回归奉献的相对程度,即总变异中回归模型能够解释的百分比。

3. 秩相关的应用适用范围:〔1〕不服从双变量正态分布而不宜作Pearson 相关分析;〔2〕总体分布型未知;〔3〕等级资料的相关分析。

4. 相关与回归的区别与联系区别

〔1〕区别:

① 资料:回归分析资料要求Y 为正态随机变量,X 为选定变量;相关分析资料X 、Y 服从双变量正态分布。

② 应用:回归分析是由一个变量值推算另一个变量值〔依存关系〕;相关分析只反映两个变量间的相互关系。

③ 回归系数b 与原度量单位有关,而相关系数r 无关。b 的绝对值越大,回归直线越陡,即X 变化1个单位时Y 的平均变化越大;r 的绝对值越大,所有点越趋近于一条直线,两变量的关系越密切,相关度越高。

〔2〕联系:

① r 与b 值可相互换算,YY XX l l b r =;

② r 与b 正负号一致;

③ r 与b 的假设检验等价:对于同一资料b r t t =,检验完全等价;

④ 回归可解释相关。相关系数的平方r 2(决定系数)是回归平方和与总的离均差平方和之比〔SS 回/SS 总〕。

5. 应用直线回归时的考前须知

〔1〕作回归分析要有实际意义,不能把毫无关联的两种现象作回归分析,必须对两种现象间的内在联系有所认识。

〔2〕在进行直线回归分析之前,应绘制散点图,当观察点的分布有直线趋势时,才适宜作直线回归分析,散点图还能提示资料有无异常点。异常点的存在往往对方程中的系数〔a 、b 〕的估计产生较大影响。因此,需对异常点进行复查。

〔3〕建立直线回归方程后,要对系数进行假设检验,以确定回归方程有无意义。

〔4〕直线回归方程的适用范围一般以自变量的取值范围为限,防止外延。获得自变量值的手段也应与建立方程时相同。否那么会产生较大偏差。

第十章 统计表和统计图

1. 统计表的根本要求

〔1〕标题:概括表的主要内容〔时间、地点、研究内容等〕,放在表的上方。表编号与标题间间隔一个汉字距离;如整个表指标统一,还应将指标的单位标在标题后面。

〔2〕标目:分别用横标目和纵标目说明每行和每列内容或数字的意义,标明指标的单位。通常描述的对象为横标目,内容〔指标〕为纵标目,从左向右读可以构成完整的一句话。 〔3〕线条:至少用3条线:顶线、底线和纵标目线。顶线和底线将表格与文章其他局部分隔开,纵标目线将标目的文字区与表格的数字区隔开,还可用横线将合计和两重纵标目隔开,其他竖线和斜线一概省去。顶线和底线线条粗细一般为1.5磅,其他线条一般为0.5磅。 〔4〕数字:用阿拉伯数字表示。无数字用“—〞表示,缺失数字用“…〞表示,数值为0者记为“0〞,不留空项。数字按小数点位数对齐,同一指标最好保存相同位数的小数位数。 〔5〕备注:表中数字区不要插入文字。必须说明者表“*〞,在表下方以备注的形式说明。

高级统计方法

第十二章 重复测量资料的方差分析

1. 重复测量设计与随机区组设计的区别:〔1〕重复测量设计中“处理〞是在区组〔受试者〕间随机分配,区组内的各时间点是固定的,不能随机分配;〔2〕重复测量设计区组内实验单位彼此不;

2. 球对称〔sphericity 〕:所有两两时间点变量间差值对应的方差相等,即重复测量的误差的协方差经正交比照变换后与单位矩阵成比例。

3. 重复测量资料方差分析的资料条件:

〔1〕正态性:处理因素的各水平样本个体间是相互的随机样本,其总体均数服从正态分布〔个体间,个体内不〕;

〔2〕方差齐性:相互比拟的各处理水平的总体方差相等,即具有方差齐同;

〔3〕各时间点组成的协方差阵具有球形性特征。

第十五章 多元线性回归分析

1. 偏回归系数〔partial regression coefficient 〕:多元线性回归模型中自变量X j 的系数βj ,表示在其他自变量保持不变时,X j 增加或减少一个单位是Y 的平均变化量。

2. 复相关系数〔multiple correlation coefficient 〕

:R =Y 与多个自变量

的线性相关程度,也是观察值Y 与估计值ˆY 之间的相关程度。假设只有一个自变量,R r =。

3. 标准化回归系数:对数据标准化后得到的标准化回归方程的回归系数即为标准化回归系数,j

j j Y S b b S ⎛⎫'= ⎪⎝⎭

,用来比拟各个自变量j X 对Y 的影响强度,在有统计学意义的前提下,标准化回归系数的绝对值越大说明相应自变量对Y 的作用越大。

4. 多元线性回归模型〔01122ˆm m Y X X X e ββββ=+++++〕应满足的条件:① Y 与

X 1,X 2,…,X m 之间具有线性关系;② 各例观察值Y i 相互;③ 残差e 服从正态分布。

5. 哑变量〔dummy variable 〕:在多元线性回归模型中,当自变量为多分类变量〔g 个水平〕时,需要将原来的多分类变量转化为〔g-1〕个哑变量并进行编码,每个哑变量只代表两个级别或多个级别间的差异。应用哑变量时要注意:① 哑变量同时存在,其统计学意义是相对而言的,不能采用常规的逐步回归进行变量选择;②可采用加与不参加哑变量的偏回归平方和F 检验确定哑变量有无意义。

6. 多重共线性〔collinearity 〕:某些自变量间存在较强的线性关系,使得一个或几个自变量可以由另外的自变量的线性关系表示,那么该变量与另外的自变量间存在多重共线性。多重共线性可能导致回归方程不稳定、参数估计值标准误变得很大、t 检验不准确、估计值的正负符号与实际不符等。

7. 交互作用:当某一自变量对因变量的作用大小与另一自变量的取值有关,那么这两个自变量有交互作用。是否考虑交互作用主要靠专业知识判断。为了检验两个自变量是否具有交互作用,普遍的做法是在模型中参加它们的乘积项〔作为交互项〕。

8. 线性回归分析的SAS 结果解释:

〔1〕线性回归方程:ˆ 2.994220.99733Y

x =+; 〔2〕该线性回归模型的统计学检验结果:模型的方差分析统计量F =6.91,P =0.0303<0.05,说明该线性回归模型具有统计学意义。

〔3〕R-Square=0.46353的意义:该线性回归模型可以解释因变量Y 的总变异的46.353%; 〔4〕回归系数估计值b =0.99733的意义:表示X 对Y 影响的大小,X 每改变一个单位,Y 改变0.99733个单位;其假设检验结果合方差分析结果的联系:方差分析结果说明X 与Y 之间存在的线性关系,t 检验结果说明计算得到的回归系数b 有统计学意义,在此问题中,二者是等价的,均说明该回归模型具有统计学意义。

〔5〕相关系数及其检验结果并解释该结果:r =0.68073,对r 进行t 检验得到P=0.0303<0.05,那么该相关系数具有统计学意义,说明X 与Y 之间具有中等强度的正相关关系。

第十六章 Logistic 回归分析

1. logistic 回归模型一般形式:011ln logit()exp()1m m P P X X P βββ⎛⎫==+++ ⎪-⎝⎭。将某

事件的阳性与阴性结果概率之比去自然对数称为logit 变换,记为logit (P )。

2. 回归系数j β采用最大似然估计〔maximum likelihood estimate, MLE ,使在一次抽样中获得现有样本的概率最大〕得到表示自变量X j 改变一个单位时logit P 的改变量。多变量调整后的优势比exp()j j OR β=,表示扣除了其他自变量的影响后危险因素的作用。OR j =1,说明X j 对疾病发生不起作用OR j >1,说明X j 是一个危险因素;OR j <1,说明X j 是一个保护因素,OR j 的1α-可信区间为:/2exp()j

j b b u S α±。

3. logistic 回归模型假设检验的方法:似然比法〔102(ln ln )G L L =-,适合单个和多个自变

量的假设检验〕、Wald 检验〔j j b b u S =或2

2j j b b S χ⎛⎫ ⎪= ⎪⎝⎭,适合单个自变量的假设检验〕和计分检验〔适合样本量较小的情况〕。变量筛选的方法:前进法、后退法、逐步法。

4. 条件logistic 回归:适用于1:M 配对设计资料,条件似然函数估计的是在M+1个观察对象中恰好第一个观察对象属于病例组的条件概率,它只估计了表示危险因素作用的j β,表示匹配组效应的常数项0β被消去。

5. 有序logistic 回归基于累积概率构建回归模型,g 个类别的因变量Y 的有序logistic 回归包括g-1个方程,这些方程的回归系数均相同,差异主要表达在各方程的常数项0β不同。在对因变量Y 赋值时,应将专业上最不利的等级赋最小值,最有利的等级赋最大值。

6. 多分类logistic 回归是二分类logistic 回归的扩展,即选择一个参照类别,拟合剩余各类别相对于参照类别的logistic 回归模型。

第十七章 生存分析

1. 生存分析的数据特点:〔1〕同时考虑生存时间和生存结局;〔2〕通常含有删失数据〔censoring ,可能的原因:①研究截止但终点事件仍未出现;②失去联系或其他原因导致失访;③死于其他“事件〞〕;〔3〕生存时间的分布通常不服从正态分布。

2. 统计学分析方法:由于生存时间一般不呈正态分布,且需考虑是否为删失值,所以生存分析有其独特的统计方法。

〔1〕非参数法:

① 生存率的估计采用Kaplan-Meier 法、寿命表法〔频数表资料〕;

② 两组或多组生存率的比拟,常用log-rank 检验〔时序法,权重1i ω=,对观察后期

差异敏感〕和Breslow 检验〔权重i i n ω=,i n 为期初人数,随生存时间增大而逐渐减小,Breslow 检验给观察早期差异更大权重,故对观察早期差异敏感〕。

〔2〕半参数法:多因素生存分析常采用Cox 比例风险模型〔前提条件:假定风险比值h (t )/h 0(t )为固定值,即协变量对生存率的影响不随时间的改变而改变。检验此前提的方法:①分类协变量每组的K-M 生存曲线无交叉;②协变量与生存时间的交互项无统计学意义等。其参数估计方法为最大似然法〕。

〔3〕参数法:指数分布法、Weibull 分布法等回归模型。

3. 多元线性回归、logistic 回归和Cox 回归的相同点和不同点

〔1〕相同点:

① 自变量可为连续变量和多分类变量,多分类变量需哑变量化,哑变量在模型中是一个整体,必须同时“进〞同时“出〞;

② 自变量间存在较强相关关系时可能导致多重共线性问题;

③ 自变量间可能存在交互作用,模型中通常采用自变量的乘积作为交互项;

④ 均可采用逐步回归筛选变量;

⑤ 均可进行影响因素分析、混杂因素校正、预测分析等。

〔2〕不同点:

第十八、十九章 判别分析和聚类分析

1. 判别分析(discriminant analysis):根据一批分类明确的样本在假设干指标上的观察值,建立一个关于指标的判别函数和判别准那么,然后根据这个判别函数和判别准那么对新的样本进行分类,并且根据回代判别的准确率评估它的实用性。

2. Fisher 判别准那么:它使得类间点的距离最大,而类内点的距离最小,适合于两类的判别分析;Bayes 判别准那么:它使得每一类中的每个样本都以最大的概率进入该类,适合于多类的判别分析。

3. 评估判别函数的判别效能:原始数据的分类要可靠准确;指标变量对判别函数的作用要显著;判别函数的回代错判率和事后概率错误率要小。

4. 聚类分析〔Cluster Analysis 〕:对于总体分类未知的一群事物依照“物以类聚〞思想,把性质相近的事物归入同一类,而把性质相差较大的事物归入不同类的一种统计分析方法。

5. 聚类分析和判别分析的区别和联系

〔1〕区别:

① 聚类分析可以对样本进行分类,也可以对指标进行分类;而判别分析只能对样本进行分类;

② 聚类分析事先不知道事物的类别,也不知道应分几类;而判别分析必须事先知道事物的类别,也知道应分几类;

③ 聚类分析不需要分类的历史资料,能直接对样本进行分类;而判别分析需要分类历史资料去建立判别函数,然后才能对样本进行分类。

〔2〕联系:先采用聚类分析获得各个个体的类别〔classification 〕;然后采用判别分析建立判别函数,对新个体进行类型识别〔(identification 〕

第二十章 主成分分析和因子分析 1. 主成分的性质

〔1〕主成分互不相关;

〔2〕主成分的奉献率和累积奉献率:奉献率越大,说明主成分综合原始指标信息的能力越强;累积奉献率越高,说明前k 个主成分综合原始资料信息的比例越高;

〔3〕主成分个数的选取:① 以累计奉献率确定:累积奉献率≥70%为宜;②以特征根值大小确定:特征根值≥1。

〔4〕因子荷载:因子荷载反映主成分与原始指标间密切程度与作用方向;

〔5〕样品的主成分得分:根据主成分表达式计算样品的主成分值,推断和评价样品的特性。

2. 因子模型的性质:

〔1〕公共度:共性方差反映全体原始指标X i 对所有公因子的依赖程度;

〔2〕因子奉献及因子奉献率:的值越大,那么F j 对原始指标的影响越大;

〔3〕因子荷载及因子荷载矩阵:因子荷载反映公因子与原始指标间密切程度与作用方向;

2. 主成分分析和因子分析的区别和联系

〔1〕联系:

① 都是根据变量之间内部相关性来提取主要信息,获得新的变量〔公因子变量和主成分变量〕,到达减少变量个数〔降维〕的目的;

② 主成分分析模型两端同时乘以A ',那么有X A F '=,即为无特殊因子的公因子模型; ③因子分析的结果〔主成分解〕即为主成分分析的结果,因子分析的主因子解也常常由主成分分析的结果作为的初始值计算。

〔2〕区别:

主成分分析是将m 个原变量提取I (I ≤m )个互不相关的主成分,准确计算各主成分的得分,其分析重点在于通过主成分综合原始变量的信息;

因子分析是提取I (I ≤m )个支配原变量的共性因子和1个特殊因子,各因子之间可以互不相关或相关,根据共性因子得分系数估计因子得分,其分析重点是通过寻找共性因子解

第二十一章典型相关分析

1.典型相关〔Canonical Correlation Analysis〕:是研究两组变量之间相关性的一种统计分析方法。是一种降维技术。

2. 典型相关分析根本思想:借助主成分分析的思想,分别计算得到两组变量的主成分,根据主成分综合原始变量信息的能力配对得到第i对典型相关变量〔U i,V i〕。两个第一主成分间的相关程度最大,即构成了第一对典型相关变量〔U1,V1〕。根据典型相关变量计算典型相关系数,更加全面得反映原来两组变量之间的整体相关性。

3. 典型相关系数〔canonical correlation coefficient〕:第i对典型相关变量间〔U i,V i〕的相关系数称为第i典型相关系数,反映了两组变量中存在的多种相关信息中第i大的一种。

医学研究的统计学设计

1.统计学设计内容:研究对象〔分组、设置对照、样本含量〕、处理因素、观察指标、数据的质量控制与管理、统计分析方法。

2. 研究设计的三要素:受试对象、处理因素、实验效应。

3. 实验设计的根本原那么:重复、对照、随机化

4. 随机的三个含义:

分组随机-均衡性:每个研究对象有同等时机被分配到各处理组

抽样随机-代表性:总体中每个观察个体有同等时机被抽取

实验顺序随机:每个研究对象先后接受处理的时机相同

5. 影响样本含量大小的因素:

样本含量的估计时,通常是由犯I类错误的概率α、检验效能1-β、个体值间的离散程度S、以及容许误差d来确定样本含量。

6. 常用的随机抽样方法:单纯随机抽样、系统抽样、分层抽样、整群抽样、多阶段抽样等。

7. 对照类型:、空白对照、实验对照、标准对照、相互对照、自身对照

诊断试验评价与ROC分析

1. 常用指标:正确百分率、灵敏度、特异度、Youden指数、阳性似然比、阴性似然比、阳性预测值、阴性预测值。

诊断结果 (T)

金标准〔D〕

合计病例〔D+〕对照(D-)

阳性〔T+〕TP(真阳性) FP(假阳性) TP+FP

阴性〔T-〕FN(假阴性) TN(真阴性) FN+TN

合计TP+FN FP+TN N

2. ①灵敏度与特异度取值范围均在0~1之间,其值不受患病率的影响;②Youden指数的取值范围在0~1之间,其值越接近于1,诊断准确性越好;③阳性似然比的取值范围为〔0, ∞〕,其值越大,检测方法证实疾病的能力越强;④阴性似然比的取值范围为〔0, ∞〕,其值越小,检测方法排除疾病的能力越好;⑤当灵敏度与特异度为常数时,增加患病率将增加阳性预测值,而降低阴性预测值。下载本文

显示全文
专题