FRM论坛 - Powered by Discuz! Board

调用此过程可进行频数分布表的分析。频数分布表是描述性统计中最常用的方法之一，此外还可对数据的分布趋势进行初步分析。

[例4-1]调查100名健康女大学生的血清总蛋白含量（g%）如下表，试作频数表分析。

7.43 7.88 6.88 7.80 7.04 8.05 6.97 7.12 7.35 8.05

7.95 7.56 7.50 7.88 7.20 7.20 7.20 7.43 7.12 7.20

7.50 7.35 7.88 7.43 7.58 6.50 7.43 7.12 6.97 6.80

7.35 7.50 7.20 6.43 7.58 8.03 6.97 7.43 7.35 7.35

7.58 7.58 6.88 7.65 7.04 7.12 8.12 7.50 7.04 6.80

7.04 7.20 7.65 7.43 7.65 7.76 6.73 7.20 7.50 7.43

7.35 7.95 7.35 7.47 6.50 7.65 8.16 7.54 7.27 7.27

6.72 7.65 7.27 7.04 7.72 6.88 6.73 6.73 6.73 7.27

7.58 7.35 7.50 7.27 7.35 7.35 7.27 8.16 7.03 7.43

7.35 7.95 7.04 7.65 7.27 7.72 8.43 7.50 7.65 7.04

激活数据管理窗口，定义血清总蛋白含量的变量名为X，然后输入血清总蛋白含量的原始数据，结果见图4.1。

激活Statistics菜单，选Summarize中的Frequencies...命令项，弹出Frequencies对话框（图4.2）。现欲对血清总蛋白含量值进行频数表分析，故在对话框左侧的变量列表中选x，点击钮使之进入Variable(s)框。同时可点击Format...钮弹出Frequencies：Format对话框，在Order by栏中有四个选项：Ascending values为根据数值大小按升序从小到大作频数分布；Descending values为根据数值大小按降序从大到小作频数分布；Ascending counts为根据频数多少按升序从少到多作频数分布；Descending counts为根据频数多少按降序从多到少作频数分布。在Page Formal栏中可定义结果输出的格式。本例选Ascending values项后点击Continue钮返回Frequencies对话框。

点击Statistics...钮，弹出Frequencies:Statistics对话框（图4.3），可点击相应项目，要求系统在作频数表分析的基础上，附带作各种统计指标的描述，特别是可进行任何水平的百分位数计算。本例要求计算四分位数(Quartiles)、均数(Mean)、中位数(Median)、众数(Mode)、总和(Sum)、标准差(Std.deviation)、方差(Variance)、全距 (Range)、最小值(Minimum)、最大值(Maximum)、标准误(S.E.mean)、偏度系数（Skewness）和峰度系数(Kurtosis)，选好后点击Continue钮返回Frequencies对话框。

点击Charts...钮，弹出Frequencies:Charts对话框，用户可选两种图形，一是直条图（Bar chart），适用于非连续性的变量；另一是直方图（Histogram），适用于连续性的变量。本例要求对变量x绘制直方图，故选择Histogram项，并要求绘制正态曲线（With normal curve），点击Continue钮返回Frequencies对话框，再点击OK钮即可。

系统对变量x的原始数据作频数分布表，Value为原始值、Frequency为频数、Percent为各组频数占总例数的百分比、Valid percent为各组频数占总例数的有效百分比、Cum Percent为各组频数占总例数的累积百分比。

X Valid Cum

Value Label Value Frequency Percent Percent Percent

6.43 1 1.0 1.0 1.0

6.50 2 2.0 2.0 3.0

6.72 1 1.0 1.0 4.0

6.73 4 4.0 4.0 8.0

6.80 2 2.0 2.0 10.0

6.88 3 3.0 3.0 13.0

6.97 3 3.0 3.0 16.0

7.03 1 1.0 1.0 17.0

7.04 7 7.0 7.0 24.0

7.12 4 4.0 4.0 28.0

7.20 7 7.0 7.0 35.0

7.27 7 7.0 7.0 42.0

7.35 11 11.0 11.0 53.0

7.43 8 8.0 8.0 61.0

7.47 1 1.0 1.0 62.0

7.50 7 7.0 7.0 69.0

7.54 1 1.0 1.0 70.0

7.56 1 1.0 1.0 71.0

7.58 5 5.0 5.0 76.0

7.65 7 7.0 7.0 83.0

7.72 2 2.0 2.0 85.0

7.76 1 1.0 1.0 86.0

7.80 1 1.0 1.0 87.0

7.88 3 3.0 3.0 90.0

7.95 3 3.0 3.0 93.0

8.03 1 1.0 1.0 94.0

8.05 2 2.0 2.0 96.0

8.12 1 1.0 1.0 97.0

8.16 2 2.0 2.0 99.0

8.43 1 1.0 1.0 100.0

------ ------- -------

Total 100 100.0 100.0

接着输出各基本统计指标，其中均数为7.366, 标准误为0.039, 中位数为7.350, 众数为7.350, 标准差为0.394, 方差为0.155, 峰度系数为0.034, 峰度系数的标准误为0.478, 偏度系数为0.06, 偏度系数的标准误为0.241, 全距为2.000, 最小值为6.430, 最大值为8.430, 25%位数为7.120, 50%位数为7.350, 75%位数为7.580，共100个观察值，无缺失值。

Mean 7.366 Std err .039 Median 7.350

Mode 7.350 Std dev .394 Variance .155

Kurtosis .034 S E Kurt .478 Skewness .060

S E Skew .241 Range 2.000 Minimum 6.430

Maximum 8.430

Percentile Value Percentile Value Percentile Value

25.00 7.120 50.00 7.350 75.00 7.580

Valid cases 100 Missing cases 0

从上述内容可知，系统在未特别指定的情形下，频数分布表是按照原始数值逐一作频数分布的，这与日常需要的等距分组、且组数保持在8～15组的要求不符。为此，在调用Frequencies过程命令之前，可先对原始数据进行算术处理：已知最小值为6.430，最大值为8.430，全距为2.000，故可要求分成10组，起点为6.4，组距为0.2。选Transform菜单Recode项的Into Different Variable...命令项，在弹出的Recode Into Different Variable对话框中选x点击钮使之进入Numeric Variable®Output Variable框，在Output Variable栏的Name处输入x1，点击Change钮表示新生成的变量名为x1。点击Old and New Values钮弹出Recode Into Different Variable:Old and New Values对话框，在Old value栏内选Range项，输入第一个分组的数值范围：6.4～6.599，在New value栏内输入新值：6.4，点击Add钮，依此将各组的范围及对应的新值逐一输入，最后点击Continue钮返回Recode Into Different Variable对话框，再点击OK钮即完成。系统在原数据库中生成一新变量为x1，这时调用Frequencies过程命令将输出等距分组且组数为10的频数分布表。

Valid Cum

Value Label Value Frequency Percent Percent Percent

6.40 3 3.0 3.0 3.0

6.60 5 5.0 5.0 8.0

6.80 8 8.0 8.0 16.0

7.00 12 12.0 12.0 28.0

7.20 25 25.0 25.0 53.0

7.40 23 23.0 23.0 76.0

7.60 10 10.0 10.0 86.0

7.80 7 7.0 7.0 93.0

8.00 6 6.0 6.0 99.0

8.40 1 1.0 1.0 100.0

------- ------- -------

Total 100 100.0 100.0

Valid cases 100 Missing cases 0

X Valid Cum

Value Label Value Frequency Percent Percent Percent

6.43 1 1.0 1.0 1.0

6.50 2 2.0 2.0 3.0

6.72 1 1.0 1.0 4.0

6.73 4 4.0 4.0 8.0

6.80 2 2.0 2.0 10.0

6.88 3 3.0 3.0 13.0

6.97 3 3.0 3.0 16.0

7.03 1 1.0 1.0 17.0

7.04 7 7.0 7.0 24.0

7.12 4 4.0 4.0 28.0

7.20 7 7.0 7.0 35.0

7.27 7 7.0 7.0 42.0

7.35 11 11.0 11.0 53.0

7.43 8 8.0 8.0 61.0

7.47 1 1.0 1.0 62.0

7.50 7 7.0 7.0 69.0

7.54 1 1.0 1.0 70.0

7.56 1 1.0 1.0 71.0

7.58 5 5.0 5.0 76.0

7.65 7 7.0 7.0 83.0

7.72 2 2.0 2.0 85.0

7.76 1 1.0 1.0 86.0

7.80 1 1.0 1.0 87.0

7.88 3 3.0 3.0 90.0

7.95 3 3.0 3.0 93.0

8.03 1 1.0 1.0 94.0

8.05 2 2.0 2.0 96.0

8.12 1 1.0 1.0 97.0

8.16 2 2.0 2.0 99.0

8.43 1 1.0 1.0 100.0

------ ------- -------

Total 100 100.0 100.0

Mean 7.366 Std err .039 Median 7.350

Mode 7.350 Std dev .394 Variance .155

Kurtosis .034 S E Kurt .478 Skewness .060

S E Skew .241 Range 2.000 Minimum 6.430

Maximum 8.430

Percentile Value Percentile Value Percentile Value

25.00 7.120 50.00 7.350 75.00 7.580

Valid cases 100 Missing cases 0

Valid Cum

Value Label Value Frequency Percent Percent Percent

6.40 3 3.0 3.0 3.0

6.60 5 5.0 5.0 8.0

6.80 8 8.0 8.0 16.0

7.00 12 12.0 12.0 28.0

7.20 25 25.0 25.0 53.0

7.40 23 23.0 23.0 76.0

7.60 10 10.0 10.0 86.0

7.80 7 7.0 7.0 93.0

8.00 6 6.0 6.0 99.0

8.40 1 1.0 1.0 100.0

------- ------- -------

Total 100 100.0 100.0

Valid cases 100 Missing cases 0