健康管理师考试知识:考前冲刺之医学统计学
(一)统计学中的几个基本概念
1.总体和样本 根据研究目的确定的、同质的全部研究对象称作总体。如研究2003年中国45岁以上者的血清总胆固醇含量,测定值的全部构成了一个总体。总体中的个体数有限,称为有限总体;总体中的个体数无限,则为无限总体(假设总体、虚拟总体)。如研究糖尿患者的空腹血糖测定值,由于对时间和空间未加限制,全部糖尿患者的空腹血糖测定值则是一个无限总体。
根据随机化的原则从总体中抽出的有代表性的一部分观察单位组成的子集称作样本,如从糖尿病患者中随机抽取的一组患者,测得的空腹血糖测定值。抽取样本的过程称为抽样。用样本来推断总体的特征称作统计推断。
2.同质和变异 严格地讲,除了实验因素外,影响被研究指标的非实验因素相同被称为同质,但在人群健康的研究中有些非实验因素是难以控制或未知的,如遗传、营养、心理等。因此,在实际研究工作中,对被观测指标有影响的、主要的、可控制的非实验因素达到相同或基本相同就可以认为是同质。同质是研究的前提。
在同质的基础上,被观察个体之间的差异被称作变异。如同性别、同年龄、同地区同体重儿童的肺活量有大有小,称为肺活量的变异。变异性是统计数据的特性。
3.参数和统计量 总体的统计指标称为参数,如总体均数(∪),总体率(丌),总体标准差(巧)等;样本的统计指标称为统计量,如样本均数(x),样本率(p),样本标准差(s)等。如某地1995年全部正常成年男子的平均红细胞数(_u)即为总体参数,而从该总体中随机抽取的144名正常成年男子的平均红细胞数(s)为样本统计量。一般情况下,参数是未知的,需要用统计量去估计。用统计量推论参数的方法,统计学上称为参数估计和参数检验。
4.误差 医学科学研究中的误差,通常指测量值与真值之差,其中包括系统误差和随机测量误差;以及样本指标与总体指标之差,即抽样误差。
抽样研究时,只对样本进行观察研究,然后用样本信息推断总体特征。从同一总体中抽样,得到某变量值的统计量和总体参数之间有差别,称为随机抽样误差,简称抽样误差。抽样误差同样是不可避免的,但有一定的规律性。统计学中可以根据抽样误差的分布规律,对总体进行统计掌推断。
5.概率 概率是描述随机事件发生可能性大小的度量,常用P表示。P值的范围在0和l之间,P≤0. 05或P≤0.01的随机事件,通常称作小概率事件,即发生的可能性很小,统计学上认为一次抽样是不可能发生的。
(二)统计资料的类型
统计分析需要有足够量的反映不确定性的数据。无论用何种方式收集数据,都应根据研究目的,划清同质总体的范围,确定研究对象和观察单位。观察对象的特征或指标称为变量。对变量的测量或观察结果称为变量值。变量值可以是定量的,也可以是定性的,分为数值变量和分类变量。
数值变量的变量值是定量的,表现为数值的大小,一般有度量衡单位。如溃疡患者的年龄(岁)、身高(cm)、体重(kg)、血压(mmHg)等。这类变量的观察值构成的资料也被称为计量资料或定量资料。
分类变量的变量值是定性的,表现为互不相容的类别或属性。根据类别之间是否有程度上的差别,又分为无序分类变量和有序分类变量。
无序分类变量的各类别之间无程度上的差别,有二分类和多分类两种情况。二分类观察结果只有两种相互对立的属性,如阴性和阳性、男性和女性、死亡和存活、正常和异常等。多分类的定性观察结果有两种以上互不包容的属性,如血型分为A、B、O、AB型等;然后分别清点各类别中的例数,这样得到的数据资料称为计数资料或无序分类资料。计数资料一般没有度量衡单位,是一种间断性的资料。
有序分类变量的各类别之间有程度上的差别,如对患者的治疗效果,可分为显效、有效、无效和恶化4个等级,然后分别清点各等级中的患者人数,这种数据资料称为等级资料。等级资料是介于计量资料和计数资料之间,通过半定量方法测定得到的,也称半定量资料或有序分类资料。
(三)统计工作的基本步骤
研究设计、收集资料、整理资料和分析资料是统计工作的4个基本步骤。这4个步骤是紧密联系不可分割的,某一环节发生问题,都将影响最终的统计分析结果。
1.设计统计工作最关键的一步,是整个研究工作的基础。通常包括调查设计和实验设计。调查设计主要是了解现场工作的实际情况。实验设计主要是了解干预措施的效果,主要特点是随机、对照、干预、前瞻。
2.收集资料指选择得到资料的最佳途径和获取完整、准确、可靠资料的过程。
3.整理资料资料整理的目的是将收集到的原始资料系统化、条理化,便于进一步计算统计指标和深入分析。
4.分析资料根据研究设计的目的、要求、资料的类型和分布特征,选择正确的统计方法进行分析。常常从两个方面分析,一是进行统计描述,即计算平均值、发病率等;二是进行统计推断,即推断总体的特征,如推断总体均数等。