高级统计师考试《高级统计实务与案例分析》备考：数值数据的整理与显示

(资料图片仅供参考)

数据汇总整理与统计分析模块（五）数据汇总整理与统计分析

第一章统计数据的整理与显示

1.4 数值数据的整理与显示数值型数据包括定距数据和定比数据，在整理时通常要进行数据分组，按照某一标志分组。数据分组后，计算出各组总体单位的个数或数据出现的次数，称为频数（Frequency，亦称为次数）。把各个组及其相应的频数依一定的次序全部列出来，就形成了频数分布（Frequency distribution，亦称为次数分布）。统计总体按照某一标志分组以后，用以反映总体各单位分配情况的统计数列，称分配数列，又可称次数分配，或次数分布。1.4.1、分配数列一、概念在统计分组的基础上，将总体的所有单位按组归类整理，并按一定的顺序排列，形成总体单位在各组之间的分布，称之为频数分布、次数分布或分配数列。

二、分配数列的要素组别次数（频数）：分布在各组的总体单位数。各组的次数（频数）之和等于总体单位总数。频率（比重）：各组次数占总次数的比重。各组比重之和等于100%（或1）。分配数列实例我国土地状况分组表

按海拔分组（米）	面积（万平方公里）	占总面积比重（%）
500以下	241.7	25.18
500~1000	162.5	16.93
1000~2000	239.9	24.99
2000~3000	67.6	7.04
3000以上	248.3	25.86
合计	960.0	100.00
组别（变量）	次数（频数）	频率（比率）

三、分配数列的种类

1、按分组标志的性质不同品质变量数列：按品质变量分组形成数值变量数列：按数值编制分组形成2、数值变量数列又可分为：单项数列：每组只有一个变量值的变量数列组距数列：每组变量值是一段区间的变量数列组距数列等距数列异距数列单项式数列变量实例某市居民家庭按家庭人口数分组

家庭人口数（人）	家庭数（千户）	比重（%）
1	9.8	5.76
2	27.5	16.18
3	94.6	55.65
4	19.2	11.29
5	10.9	6.41
6	8.0	4.71
合计	170.0	100.00

数值变量分配数列实例某市餐饮业按营业额分组

家庭人口数（人）	家庭数（千户）	比重（%）
1	9.8	5.76
2	27.5	16.18
3	94.6	55.65
4	19.2	11.29
5	10.9	6.41
6	8.0	4.71
合计	170.0	100.00

四、分配数列的编制

1、概念术语（1）全距（R）=数列中最大变量值-最小变量值（2）组限：每一组的最大变量值与最小变量值上限：每一组的最大变量值下限：每一组的最小变量值（3）组距（d）：每一组的最大变量值与最小变量值之差组距=上限-下限（4）组数：数列中的分组个数（5）频数（次数）与频率（比重）（6）品质数列与变量数列（7）等距数列与异距数列（8）次数密度：单位组距内分布的总体单位数。公式：次数密度=各组次数/各组组距（9）开口组：缺上限或缺下限的组闭口组：上下限齐全的组（10）组中值及计算★★①闭口组临近组组限重合时：组中值=（上限+下限）/2临近组组限间断时：组中值=（下限+下组下限）/2②开口组缺上限时：组中值=下限+邻组组距/2缺下限时：组中值=上限-邻组组距/22、注意事项（1）组距最好为5或10的倍数。（2）最小组的下限略低于最小变量值，最大组的上限略高于最大变量值。（3）离散型变量分组，相邻组的组限可以间断，也可以重叠；连续型变量分组，相邻组的组限必须重叠。（4）组限重叠时，临界点的总体单位按“上限不在内”的原则归组。3、次数分布数列的编制步骤组数和组距的关系☆ 定性关系：全距一定的情况下，组数和组距呈反方向变动。☆ 定量关系：组数=全距/组距=R/d组距=R/（1+3.322lgN）式二为确定组距的经验公式，其中N代表组数。简单次数分布数列的编制实例数据资料某车间40名工人日产零件如下：65 72 66 57 90 86 83 68 7584 66 59 67 70 79 51 81 5478 86 94 64 77 74 76 96 6298 85 71 79 84 65 72 89 75◊ 编制步骤之一——数据排序并确定全距将数据从低到高排列，形成如下变量序列：51 54 57 59 62 64 65 65 66 6667 68 70 71 72 72 74 75 75 7676 77 78 78 79 81 83 84 84 8485 86 86 88 89 90 93 94 96 98计算全距=98-51=47◊ 编制步骤之二——确定变量数列的形式因变量值较多、变动幅度较大，适宜采用组距式数列。◊ 编制步骤之三——确定组数和组距【分析】全距为47，分为5组，组距为10。◊ 编制步骤之四——确定组限【分析】离散型变量分组，相邻组的组限可以重叠，也可间断，本例选择重叠。◊ 编制步骤之五——计算各组的频数和频率【分析】根据排序后的变量序列清点各数据区间的频数并计算比重，也可利用Excel统计软件进行。◊ 编制步骤之六——绘制表格

日产零件数量（件）	工人数（人）	比重（%）
50-60	4	10.00
60-70	8	20.00
70-80	13	32.50
80-90	10	25.00
90-100	5	12.50
合计	40	100.00

4、累计次数分布表（图）的编制（1）累计次数和累计频率反映总体单位分布特征的指标，用于说明总体中在某一变量值水平上下总共包含的总体单位次数和频率。（2）累计次数和频率的计算方法向上累计：是将各组的次数和频率，由变量值低的组向高的组累计。说明各组上限以下包含的总体单位数和比率。向下累计：是将各组的次数和频率，由变量值高的组向低的组累计。说明各组下限以上包含的总体单位数和比率。累计次数分布数列的编制实例根据简单次数分布数列的实例，重新编制的累计次数分布表如下：

日产零件数量（件）	工人数（人）	比重（%）	向上累计		向下累计
日产零件数量（件）	工人数（人）	比重（%）	次数	频数	次数	频数
50-60	4	10.00	4	10.00	40	100.00
60-70	8	20.00	12	30.00	36	90.00
70-80	13	32.50	25	62.50	28	70.00
80-90	10	25.00	35	87.50	15	37.50
90-100	5	12.50	40	100.00	5	12.50
合计	40	100.00	——	——	——	——

1.4.2、次数分布主要类型社会经济现象的分布主要有以下三种类型：（一）钟形分布/丘形特征：“两头小，中间大”，即靠近中间的变量值分布的次数多，靠近两端的变量值分布的次数少，其形状宛如一口古钟。种类：正态分布：左右两侧对称分布偏态分布左偏分布：存在极小变量值时曲线向左偏的非对称分布右偏分布：存在极大变量值时曲线向右偏的非对称分布（二）U形分布特征：靠近中间的变量值分布的次数少，靠近两端的变量值分布的次数多，其形状宛如英文字母U。（三）J形分布特征：次数随着变量值的增大而增多或随变量值的增大而减少，其形状宛如英文大写字母J。具体有正J形分布和反J形分布两种类型。+ 社会收入分配平等程度的衡量(洛伦茨曲\基尼系数）为了衡量一个国家的贫富差别程度，奥地利统计学家洛伦茨提出了一种被广泛使用的收入分配曲线——洛伦茨曲线。（最初用途是用与收入与财富分布的分析之中，现已被推广至产业内相对集中度的分析和计量。1、洛伦茨曲线的含义洛伦茨曲线是反映社会财富分配平等程度的曲线2、绝对平等线、绝对不平等线、洛伦茨曲线洛伦茨曲线：一个用来显示收入或财富不平等的程度的几何图形。显然，洛伦茨曲线越向横轴突出，它与完全平等曲线（通过原点的45度线）之间的面积越大，表明收入分配差距越大，即越不平等。当收入分配达到完全不平等时，洛伦茨曲线就成为折线。3、基尼系数基尼系数是意大利经济学家基尼于1912年提出的，定量测定收入分配差异程度，国际上用来综合考察居民内部收入分配差异状况的一个重要分析指标。它将研究对象按人均收入由低到高进行排序，分成若干组，计算每组人口比重（Pi）、每组收入比重（Wi）和累计比重（Qi），利用公式计算出来。基尼系数是根据洛伦茨曲线计算出的反映社会收入分配均等化的指标。当A=0时，基尼系数=0，绝对平等当B=0时，基尼系数=1，绝对不平等1>基尼系数>0基尼系数越小，收入分配越平等基尼系数越大，收入分配越不平等国际上用来分析和反映居民收入分配差距的方法和指标很多。基尼系数由于给出了反映居民之间贫富差异程度的数量界线，可以较客观、直观地反映和监测居民之间的贫富差距，预报、预警和防止居民之间出现贫富两极分化，因此得到世界各国的广泛认同和普遍采用。国际通用标准（0.4为警戒线，0.6为危险线）

基尼系数	收入分配公平程度
小于0.2	绝对平等
0.2-0.3	比较平等
0.3-0.4	基本合理
0.4-0.5	差距较大
0.5以上	差距悬殊

联合国基尼系数排名（2007/2008年版）2003年至2008年，中国基尼系数分别为 0.479、0.473、0.485、0.487、0.484和0.491。随后，自2009年开始逐年回落，分别为：2009年0.490，2010年0.481，2011年0.477，2012年0.474，2013年0.473，2014年0.469。