我们热爱生命科学!-生物行

第四章 平均数与变异指标- -第一节 平均数(2)

时间:2006-06-20 09:43来源:大众医药网 作者:admin 点击: 591次

  (二)定组距 先考虑组数。资料在100例以上的一般分10-15组。若例数较少,组数可相应少些;例数很多,组数可酌情多些,以能显示分布的规律为宜。此例拟分10组。将拟分的组数除极差(10.1/10≈1)得组距的约数。再调整到较方便的数如0.1、0.2、0.5,1、2、5、10、20、50……等。此例取组距为1。

  (三)写组段 取等于或略小于最小值的整数为第一组的下限。按组距依次写出各组段的下限及短横,见表4.3组段行,注意短横“-”不能略去。

  (四) 划线记数 像选举开票那样,将变量值逐个归入相应的组段,如将64.4归入“64-”组,63.8归入“63-”组。每归入一个变量值,在相应的组段内划一竖线,每逢第五线则作一横线跨在已划出的四条竖线上,这样五线连在一起最后计数时就很方便了。划完后将每个组段内的线条数写出,再将各组频数合计,频数表就编好了。

  若事先不能确定合适的组数,可先分细些,需要时再将相邻两组合并。而分粗了,再要分细,则只得重划。

  表4.4的资料编成频数表(见表4.3)后,可看出变量值的分布情况,若绘成直方图就更直观。从图4.1可看到横坐标约为66.5cm处直方最高,表示变量值围绕在66.5左右的最多;两侧对称下降,大于66.5和小于66.5的变量值个数基本相等。这种类型的分布为对称分布。第五章介绍的正态分布是其中最常见的一种。

图4.1 西安市7岁男童坐高分布

  此外,如图4.2,变量值愈小频数愈多图形呈“L”形,图4.3的频数集中在变量值较小的一边,右侧尾部拖得很长。后两种属偏态分布。这三种频数分布都只有一个高峰称单峰分布。为更准确地说明分布的特征,对形状相同的分布作出集中位置和离散程度的比较,就需计算频数分布的一些特别值。如平均数、百分位数、极差、标准差、变异系数等。

图4.2 某市1095天中居民意外死亡人数(1980-1982)

图 4.3 204名轧钢工人白细胞中大单核所占百分比

  二、众数、中位数、百分位数的意义及计算法

  (一)众数 出现次数最多的变量值,或频数表上频数最多组的组中值即为众数。如表4.3中坐高的众数是66.5cm。这样仅由观察所得的众数称为观察众数。同一资料常因所用组距不同和下限取值不同,观察众数稍有出入,故又称概约众数,与观察众数相对应的尚有理论众数。理论众数的算法根据频数曲线类型的不同而异,数学上为与极大值相应的横坐标。

  (二)中位数及百分位数

  1.中位数 将n个变量值从小到大排列后,居中的一数就是中位数,符号为M,有的书上用Md。它将变量值分为两半,一半比它小,一半比它大。

  X12<…n-1a

  当n为奇数时

             (4.1)

  当n为偶数时

(4.2)

  当资料呈明显偏态,或有个别的特小、特大值存在时,中位数的代表性往往比均数好。例如有5个变量值8、9、9、10、19。其中4个在9左右,但由于受数值19的影响,均数为11,不能很好代表中等水平。求中位数

  比较符合实际。

  根据频数表计算连续型变量的中位数可用式(4.3)或式(4.4)

  (4.3)

  或         (4.4)

  式中L、U分别为中位数所在组的下限及上限,A1为小于L的各组的累计频数,A2为大于U的各组的累计频数,fM、i分别为中位数所在组的频数和组距。现用表4.5说明计算步骤如下:

  (1)求出中位数的位置。在频数表上,数据已由小到大排好了。中位数将频数等分为2,因此先计算n/2,得中位数的位置。

  n/2=157/2=78.5

  (2)列出频数表、计算累计频数。列频数表时,组段的短横“-”写在两个组段下限之间,其意义仍与写在右边的相同,见表4.5第(1)栏。

  第(3)栏为累计频数。此例自上而下累计到略小于n/2为止得A1=41,表示住院天数为10天及以下的有41个人。若要知道第78.5人的变量值,就需要从10-15组内再累计(78.5-41=)37.5人。假定该组的49人在10-15天内均匀分布着(见图4.4),那么只要在10天上再加(78.5-41)/49个组距便是中位数了。所以

  用符号表示见式(4.3)。

  若将频数自下而上累计到略小于n/2为止,则得A2=67。也得出中位数在10-15组段内。

图4.4 中位数计算示意图

  (3)写出L或U、fM及i。

  (4)代入公式得M。

  例4.1 求杆菌痢疾治愈者157名住院天数的中位数。

  n/2=157/2=78.5

表4.5 杆菌痢疾治愈者的住院天数

  L=10或U=15,fM=49,i=5。

  代入公式

  杆菌痢疾治愈者住院天数的中位数为13.8天。

  中位数既然把频数等分为二,所以从另一端算起,用式(4.4)可得到同样的结果。

  此例若计算治愈者平均住院天数得17.9天。从频数表上可看到157名患者中住院天数少于15天的就有90名,占57.3%,因此中位数13.8天的代表性优于均数17.9天。

  2.百分位数 中位数将频数等分为二,亦称二分位数。若将频数等分为四,则称四分位数,共有三个四分位数,即第一、第二、第三四分位数。第二四分位数即中位数。同理,将频数等分为十或一百的分位数称十分位数或百分位数。其实上述各种分位数都可用百分位数表示。百分位数的符号为Px,X代表第X百分位。例如第一四分位数、中位数可分别以P25、P50表示。计算百分位数的方法与中位数相似,只是式(4.3)中的n/2以nx/100代替,M以X代替。

        (4.5)

  式中LX、fx、ix分别为Px所在组的下限、频数及组距。A为小于Lx各组的累计频数。

  例4.2,求例4.1中住院天数的P90

  (1)计算  

  (2)累计频数自上而下至略小于141.3,见表4.5第(4)栏,得A=135。知P90在30-35组内,因此Lx=30,i=5,fx=7

  (3)代入公式

  第90百分位数为34.5天,说明有90%的患者住院天数在34.5天以下。

  三、算术均数与几何均数的意义及计算方法

  (一)算术均数 简称均数。设观察了n个变量值X1,X2,……Xa,一般可直接用式(4.6)求样本均数X。

  式中∑是总和的符号,n是样本含量即例数。本书在不会引起误解的情况下简写成

  X=1/n∑X (4.6)

  例4.318-24岁非心脏疾患死亡的男子心脏重量(g)如下,求心重的均数。

350 320 260 380 270 235 285 300 300 200
275 280 290 310 300 280 300 310 310 320

  X=1/20(350+320+…+320)=5875/20=293.75g

  样本均数是总体均数的估计值,它有两个特性。(1)∑(X-X)=0,(2)∑(X-X)2为最小,前者读者

  可自证,后者证明如下:

  设:a≠X,则a=X±d d>0

  ∑(X-a)2=∑(X-X±d)2

        =∑[(X-X)±d]2

    =∑(X-X)2±2d∑(X-X)+Nd2

  从第一个特性知∑(X-X)=0,因此2d∑(X-X)=0,

  得

  ∑(X-a)2=∑(X-X)2+Nd2

(责任编辑:泉水)
顶一下
(13)
92.9%
踩一下
(1)
7.1%
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片