sp 17中文版统计分析典型实例精粹_spss统计分析实例

2020-02-29 其他范文 下载本文

sp 17中文版统计分析典型实例精粹由刀豆文库小编整理,希望给你工作、学习、生活带来方便,猜你可能喜欢“spss统计分析实例”。

第3章 SPSS基础统计描述

SPSS基础统计描述是进行统计分析的基础和前提。使用一些数学统计量来直观地描述原始数据的集中程度、离散状况和分布情况,之后就可以对数据的总体特征进行较为准确的归纳,从而便于选择合适的统计分析方法。基础统计描述主要包括数据描述、频数分析、探索分析、交叉列联表分析、P-P图、Q-Q图等,下面将具体介绍。

3.1 数理统计量概述

SPSS在描述性统计分析中,提供了多个统计量来描述数据特征,这些统计量包括均值、中位数、众数、方差、标准差、四分位数、十分位数、百分位数、峰度系数、偏度系数等。在进行描述性统计分析之前,首先要对这些统计量在统计学上的定义及其计算公式有所了解。

3.1.1 均值(Mean)和均值标准误差(S.E.Mean)

均值(平均数、平均值)表示的是某个变量所有取值的集中趋势或平均水平。例如,某班学生数学考试的平均成绩、公司员工的平均收入、某年级学生的平均身高、某高校高招录取平均分等。

平均数有总体平均数和样本平均数之分。

总体平均数:若一组数据X1,X2,……,XN代表一个大小为N的有限总体,则其总体平均数为:

样本平均数:若一组数据x1,x2,……,xn代表一个大小为n的有限样本,则其样本平均数为: 样本数据是从总体数据中抽取出来的,但在不同次抽样中得到的样本是不同的。虽然在一定程度上,样本数据可以反映总体数据的特征,但由于抽样等原因,样本数据是总体数据的随机变量。同样,虽然样本均值可以反映总体数据的特征,但在不同次抽样中所得的样本均值是不同的,并且它们与总体均值间存在差异。

均值标准误差(Standard Error of Mean,S.E.Mean,简称标准误)就是描述这些样本均值与总体均值之间平均差异程度的统计量。

3.1.2 中位数(Median)

中位数是将总体数据的各个数值按大小顺序排列,居于中间位置的变量,用Median表示。中位数将所有的数据等分成两半,中位数两端的数据个数相同,因此它也被称为二分位数。中位数的确定,仅仅取决于它在数列中的位置,不受极端值的影响,因此可以用它表示总体的一般水平。同时,中位数比算术平均数具有更好的稳定性。

一个大小为N的数列,要求其中位数,首先应把该数列按大小顺序排列,如果N为奇数,那么该数列的中位数就是 位置上的数;如果N为偶数,中位数则是该数列中第 与第 位置上的两个数值的平均数。3.1.3 众数(Mode)

众数是指总体数据中出现次数最多的变量,用Mode表示。它同样不受数据极端值的影响,从而在一定程度上提高了平均水平的代表性。例如,制衣厂可以根据消费者所需服装尺码的众数来安排生产。此外,如果众数的值出现的频数或频率较大,那么说明众数的代表性就越高,数列的集中趋势也就越显著。

确定众数没有明确的公式,一般只能用手工统计,故较为烦琐。SPSS所提供的统计功能可以减少诸如此类烦琐的过程。

众数、中位数与算术平均数之间存在一定的关系,这种关系决定于总体分布的状况。当总体分布呈对称的钟形分布时,算术平均数位于分布曲线的对称点上,而该点又是曲线的最高点和中心点,因此,众数、中位数和算术平均数三者相等。当总体分布呈非对称的钟形分布时,由于这三种平均数受极端数值影响程度的不同,因而它们的数值就存在一定的差别,但三者之间仍有一定的关系。当分布右偏时,算术平均数受偏高数值影响较大,其位置必然在众数之右,中位数在众数与算术平均数之间。反之,当次数分布左偏时,算术平均数受偏小数值的影响较大,其位置在众数之左,中位数仍在众数与算术平均数之间。以上的均值、中位数和众数都是反映数据集中趋势的统计量。3.1.4 全距(Range)

全距,又称极差,是数据的最大值(Maximum)与最小值(Minimum)之间的绝对差,借以表明总体标志值最大可能的差异范围。全距越长,说明数据越离散;反之,全距越小,说明数据越集中。

用符号表示全距的计算公式为:

全距的缺点在于其方法过于粗略,因为它只考虑总体两端数值的差异,没有考虑中间数值差异的情况,因而它是测定离散程度的一种粗略的方法,不能全面反映总体数据的差异程度。要充分利用每一个数据的信息,就需要利用方差和标准差。

3.1.5 方差(Variance)和标准差(Standard Deviation)

方差是总体所有变量值与其算术平均数偏差平方的平均值,它表示了一组数据分布的离散程度的平均值。标准差是方差的平方根,它表示了一组数据关于平均数的平均离散程度。

其中,为总体平均数,为样本平均数,N为总体的个数,n为样本的个数。虽然标准差有计量单位,而方差无计量单位,但两者的作用一样,故在此仅介绍标准差。标准差用平方的方法消除了正负号,因而它是最常用、最重要的离散趋势统计量。标准差越大,表示变量值之间的差异越大,各数据距离均值越远,则平均数的代表性就越低。反之,标准差越小,表示变量值之间的差异越小,各数据距离均值较近,则平均数的代表性就越高。

标准差在实际生活中也有广泛的应用。例如,可以用标准差来测定居民收入分配的差异程度,还可以用来反映平均收支、平均结余、平均产量等经济变量的代表性等。

全距、方差和标准差都是反映数据离散趋势的统计量。3.1.6 峰度(Kurtosis)和偏度(Skewne)

峰度是描述总体中所有取值分布形态陡缓程度的统计量。这个统计量需要与正态分布相比较,峰度为0表示该总体数据分布与正态分布的陡缓程度相同;峰度大于0表示该总体数据分布与正态分布相比较为陡峭,为尖顶峰;峰度小于0表示该总体数据分布与正态分布相比较为平坦,为平顶峰。峰度的绝对值数值越大表示其分布形态的陡缓程度与正态分布的差异程度越大。

峰度的具体计算公式为:

偏度与峰度类似,它也是描述数据分布形态的统计量,其描述的是某总体取值分布的对称性。这个统计量同样需要与正态分布相比较,偏度为0表示其数据分布形态与正态分布的偏斜程度相同;偏度大于0表示其数据分布形态与正态分布相比为正偏或右偏,即有一条长尾巴拖在右边,数据右端有较多的极端值;偏度小于0表示其数据分布形态与正态分布相比为负偏或左偏,即有一条长尾拖在左边,数据左端有较多的极端值。偏度的绝对值数值越大表示其分布形态的偏斜程度越大。

偏度的具体计算公式为:

3.1.7 四分位数(Quartiles)、十分位数(Deciles)和百分位数(Percentiles)四分位数是将一组数据由小到大(或由大到小)排序后,用3个点将全部数据分为4等份,与这3个点位置上相对应的数值称为四分位数,分别记为Q1(第一四分位数)、Q2(第二四分位数,即中位数)、Q3(第三四分位数)。其中,Q3到Q1之间的距离的一半又称为四分位差,记为Q。四分位差越小,说明中间部分的数据越集中;四分位数越大,则意味着中间部分的数据越分散。

与四分位数类似,十分位数是将一组数据由小到大(或由大到小)排序后,用9个点将全部数据分为10等份,与这9个点位置上相对应的数值称为十分位数,分别记为D1,D2,……,D9,表示10%的数据落在D1下,20%的数据落在D2下,……,90%的数据落在D9下。

同理,百分位数是将一组数据由小到大(或由大到小)排序后分割为100等份,与99个分割点位置上相对应的数值称为百分位数,分别记为P1,P2,……,P99,表示1%的数据落在P1下,2%的数据落在P2下,……,99%的数据落在P99下。

通过四分位数、十分位数和百分位数,可以大体看出总体数据在哪个区间内更为集中,也就是说,它们在一定程度上可以反映数据的分布情况。

上面的峰度系数、偏度系数和四分位数、十分位数、百分位数,都是反映数据分布状况的统计量。3.2 数据描述

描述性统计分析是对数据进行基础性的描述。通过得出的数据的平均值(Mean)、和(Sum)、标准差(Std deviation)、最大值(Max)、最小值(Min)、方差(Variance)、全距(Range)、均值标准误差(S.E.Mean)、峰度(Kurtosis)、偏度(Skewne)等统计量,来估计原始数据的集中程度、离散状况和分布情况。

数据描述功能的操作步骤如下:

打开【分析】(Analyze)菜单,选择【描述统计】(Descriptive Statistics)命令下的【描述】(Descriptives)命令,如图3-1所示。

这里,需要提醒的是如果数据文件尚未打开,【分析】(Analyze)菜单下的任一功能都不能使用,SPSS会弹出一个对话框,如图3-2所示,提醒用户打开文件。打开文件后,【分析】(Analyze)菜单下的统计功能才能正常使用。选择【描述】(Descriptives)命令后,SPSS将打开“描述性”(Descriptives)对话框,如图3-3所示。在该主对话框中,用户可以通过单击 按钮从左边原变量中选择一个或者几个变量进入右边的“变量”(Variable(s))列表框中。

对话框底部有一个“将标准化得分另存为变量”(Save standardized values as variables)复选框,选择该项,将对“变量”(Variable(s))列表框中被选中变量的数据进行标准化,然后将标准化的结果保存到新变量中。新变量的变量名为原变量的变量名前面添加字母“z”,并被添加在数据编辑窗口中变量的最后一列。

数据标准化的计算公式为:

通过标准化,可以将均值为、标准差为 的原变量转化成均值为0、标准差为1的新变量。

“描述性”(Descriptives)主对话框的下端有5个按钮,如果还未将左边原变量中的变量添加至“变量”(Variable(s))列表框中,则【确定】(OK)和【粘贴】(Paste)按钮为灰白显示,不可单击,但【重置】(Reset)、【取消】(Cancel)和【帮助】(Help)按钮可以单击。通过单击【重置】(Reset)按钮,用户可以将已进入右框的变量全部转移至左框的变量列表中,重新进行选择。

单击【选项】(Options)按钮,将打开“描述:选项”(Descriptives:Options)对话框,如图3-4所示。在该对话框中,用户可以选择所要统计的统计量和图表输出方式。具体对话框中各选项的意义如下:

(1)在对话框中最上面一行是均值(Mean)和合计(Sum)。

(2)离散(Dispersion)栏中的统计量包括:

标准差(Std Deviation)最小值(Minimum)

方差(Variance)最大值(Maximum)

范围(极差)(Range)均值的标准误(S.E.Mean)

(3)分布(Distribution)栏中的统计量包括:

峰度(Kurtosis)偏度(Skewne)

(4)显示顺序(Display Order)栏中,用户可以自行选择输出变量的排序方式,包括: 变量列表(Variable List):在结果输出窗口中,用户选择输出的变量将按照变量在数据编辑窗口中原来的排列顺序进行排列。

字母顺序(Alphabetic):在结果输出窗口中,用户选择输出的变量将按照变量名的字母排列顺序进行排列。

按均值的升序排序(Ascending Means):SPSS将计算每个输出变量的平均值,并按照平均值从小到大对输出变量的顺序进行排列。

按均值的降序排序(Descending Means):SPSS将计算每个输出变量的平均值,并按照平均值从大到小对输出变量的顺序进行排列。

用户可在“选项”(Options)对话框第一行、离散(Dispersion)栏和分布(Distribution)栏中,选中所需统计的统计量(可多项选择)。SPSS默认的描述统计量包括均值、标准差、最小值、最大值。在“显示顺序”(Display Order)一栏里,用户只可选择一种变量排序方式,SPSS的默认选项为“变量列表”(Variable List)。

进行选择后,单击【继续】(Continue)按钮,即可返回“描述性”(Descriptives)主对话框。

单击【确定】(OK)按钮,即可在结果输出窗口中得到描述性统计分析结果输出表格。

3.3 频数分析

对于一组数据,考察不同的数值出现的频数,或者是数据落入指定区域内的频数,可以了解数据的分布状况。从SPSS15.0开始就提供了“频数分析”这一功能。通过频数分析,用户在得到描述性统计结果的同时,还能了解变量取值的分布情况,从而使总体数据的分布通过频数分析得到更为清晰、准确的输出。

频数分析的具体操作步骤如下:

打开数据文件,选择【分析】(Analyze)菜单,单击【描述统计】(Descriptive Statistics)命令下的【频率】(Frequencies)命令。SPSS将弹出“频率”(Frequencies)主对话框,如图3-5所示。在该主对话框中,同样可以通过单击 按钮从左边的原变量中选择一个或者几个变量进入右边的“变量”(Variable(s))列表框中。

对话框底部有一项“显示频率表格”(Display frequency tables)复选框,SPSS默认选择此项。选择此项后,输出结果将显示频数分布表,否则只显示直方图,不显示频数分布表。

“频率”主对话框的右方有3个按钮,从上到下依次为【统计量】(Statistics)按钮、【图表】(Charts)按钮和【格式】(Format)按钮。单击可进入对应对话框。

单击【统计量】按钮,打开“频率:统计量”(Frequencies:Statistics)对话框,如图3-6所示。在该对话框中,用户可以选择所要统计的统计量。对话框中各选项的具体意义如下:

(1)百分位值(Percentile Values)栏为复选项,在此栏中可选择多项。

四分位数(Quartile)

割点(Cut points):选择此项,在后面的文本框中输入数值,假设为N(N为在2 100之间的整数),则计算并显示N分位数。

百分位数(Percentile(s)):选择此项,在后面的文本框中输入数值,可以有选择地显示百分位数。在文本框中可以输入0到100之间的数,输入后,单击【添加】(Add)按钮,将对应的百分位数添加到方框内的列表框中,利用【更改】(Change)按钮和【删除】(Remove)按钮,可以对列表框中的选项进行修改和删除。

(2)离散(Dispersion)栏(复选项):

标准差(Std Deviation)最小值(Minimum)方差(Variance)最大值(Maximum)

范围(极差)(Range)均值的标准误(S.E.Mean)

(3)集中趋势(Central Tendency)栏(复选项):

均值(Mean)、中位数(Median)、众数(Mode)、合计(Sum)。

“集中趋势”栏下方有一个“值为组的中点”(Values are group midpoints)复选框,如果假设数据已经分组,而且数据取值为初始分组的中点,选择此项,将计算百分位数统计和数据的中位数。

(4)分布栏(Distribution)(复选项):

峰度(Kurtosis)、偏度(Skewne)。

用户在“频率:统计量”对话框中单击选中所要统计的统计量后,单击【继续】(Continue)按钮,即可返回主对话框。

单击【图表】(Charts)按钮,打开“频率:图表”(Frequencies:Charts)对话框,如图3-7所示。

在该对话框中,用户可以选择频数分析的图表类型。该对话框中各选项的具体意义如下:

(1)图表类型(Chart Type)(单选项):无(None)(系统默认选项)、条形图(Bar charts)、饼形图(Pie charts)、直方图(Histograms)。

如果选择输出“直方图”,可以选择是否在输出的直方图中添加正态分布曲线。如果需要输出正态分布曲线,则可勾选“带正态曲线”(With normal curve)复选框。(2)图表值(Chart Values)(单选项组):可选择图形中分类值的表现形式。

频率(Frequencies):如果图表类型是直方图,则直方图的纵轴为频数;如果图表类型是饼形图,则饼形图中每块表示属于该组观测值的频数。

百分比(Percentage):如果图表类型是直方图,则直方图的纵轴为百分比;如果图表类型是饼形图,则饼形图中每块表示该组的观测量数占总数的百分比。

用户在“频率:图表”对话框中选择图表类型和图表分类值后,单击【继续】(Continue)按钮,即可返回主对话框。

单击【格式】(Format)按钮,打开“频率:格式”(Frequencies:Format)对话框,如图3-8所示。在该对话框中,用户可以设置频率分布表的输出格式。对话框中各选项的意义如下:

(1)排序方式(Order by)栏:单选项组,用户可以选择频数分布表中数值及其对应频率的排列顺序。

按值的升序排序(Ascending values):系统默认选项,频数分布表中将按照数值从小到大排列。

按值的降序排序(Descending values):频数分布表中将按照数值从大到小排列。

按计数的升序排序(Ascending counts):频数分布表中将按照计数从小到大排列。

按计数的降序排序(Descending counts):频数分布表中将按照计数从大到小排列。

如果用户在“频率:图表”对话框中选择输出直方图,频数分布表将按照数值顺序排列。

(2)多个变量(Multiple Variables)栏:单选项组,当“频率(Frequencies)”主对话框的“变量”(Variable(s))列表框中有多个变量时,利用“多个变量”栏可以设置表格的显示方式。

比较变量(Compare variables):系统默认选项,SPSS将所有变量的描述统计的结果显示在同一张表格中,方便用户进行比较分析。

按变量组织输出(Organize output by variable):SPSS将对应每个变量分别输出单独的描述统计表格。

在“频率:格式”对话框的底端,有一个“最大类别数”(Suppre tables with more than n categories)文本框。通过输入数值,确定频数表输出的方位,即输出数据的组数不得大于窗口中输入的数值。分类数最大参数的默认值是10。用户在“频率:格式”对话框中进行选择后,单击【继续】(Continue)按钮,即可返回“频率”主对话框。一般情况下,对“频率:格式”对话框的选项都默认为系统默认值,不作调整。

单击【确定】(OK)按钮,即可在结果输出窗口中得到频数分布表、描述性统计分析输出表格和用户选择的对应的输出图形。

3.4 探索分析

探索分析是在对数据的基本特征统计量有初步了解的基础上,对数据进行的更为深入详细的描述性观察分析。它在一般描述性统计指标的基础上,增加了有关数据其他特征的文字与图形描述,显得更加细致与全面,有助于用户思考对数据进行进一步分析的方案。主要的分析如下:

(1)观察数据的分布特征:通过绘制箱锁图和茎叶图等图形,直观地反映数据的分布形式和数据的一些规律,包括考察数据中是否存在异常值等。过大或过小的数据均有可能是奇异值、影响点或错误数据。寻找异常值,并分析原因,然后决定是否从分析中删除这些数据。因为奇异值和影响点往往对分析的影响较大,不能真实地反映数据的总体特征。

(2)正态分布检验:检验数据是否服从正态分布。很多检验能够进行的前提即总体数据分布服从正态分布。因此,检验数据是否符合正态分布,就决定了它们是否能用只对正态分布数据适用的分析方法。

(3)方差齐性检验:用Levene检验比较各组数据的方差是否相等,以判定数据的离散程度是否存在差异。例如在进行独立右边的T检验之前,就需要事先确定两组数据的方差是否相同。如果通过分析发现各组数据的方差不同,还需要对数据进行方差分析,那么就需要对数据进行转换使得方差尽可能相同。Levene检验进行方差齐性检验时,不强求数据必须服从正态分布,它先计算出各个观测值减去组内均值的差,然后再通过这些差值的绝对值进行单因素方差分析。如果得到的显著性水平(Significance)小于0.05,那么就可以拒绝方差相同的假设。

探索分析的具体操作步骤如下:

打开数据文件,选择【分析】(Analyze)菜单,单击【描述统计】(Descriptive Statistics)命令下的【探索】(Explore)命令,SPSS将弹出“探索”(Explore)对话框,如图3-9所示。

在“探索”(Explore)对话框中,左边的变量列表为原变量列表,通过单击 按钮可选择一个或者几个变量进入右边的“因变量列表”(Dependent List)框、“因子列表”(Factor List)框和“标注个案”(Label Cases by)列表框。因变量是用户所研究的目标变量。因子变量是影响因变量的因素,例如分组变量。标注个案是区分每个观测量的变量,如雇员的ID等。例如,研究同一班级男生和女生的身高差距时,就可将“身高”变量列入“因变量列表”(Dependent List)框中,将“性别”列入“因子列表”(Factor List)框中,同时将学生的“学号”变量列入“标注个案”(Label Cases by)列表框中。

如果有多个分组变量进入“因子列表”列表框中,那么会以分组变量的各种取值进行组合分组。如两个分组变量各有2种取值,那么输出的结果就会有4种组合分组。

在对话框下端的“输出”(Display)框中有三个选项:

两者都(Both):默认选项,表示同时输出描述统计量的统计表格和图形。选择此项将激活右边的【统计量】(Statistics)和【绘制】(Plots)按钮。

统计量(Statistics):表示只输出统计表格,不输出图表。选择此项将激活右边的【统计量】(Statistics)按钮,【绘制】(Plots)按钮不被激活。

图(Plots):表示只输出图表,不输出统计表格。选择此项将激活右边的【绘制】(Plots)按钮,【统计量】(Statistics)按钮不被激活。

单击【统计量】(Statistics)按钮,打开“探索:统计量(Explore:Statistics)”对话框,如图3-10所示。在该对话框中,4个选择项分别如下:

描述性(Descriptives):选择此项,将生成描述性统计表格。表中显示样本数据的描述统计量,包括平均值、中位数、5%调整平均数、标准误、方差、标准差、最大值、最小值、组距、四分位数、峰度、偏度及峰度和偏度的标准误。此项为默认选项,在下面的“均值的置信区间”(Confidence Interval for Mean)文本框中,用户还可输入数值指定均值的置信区间的置信度,系统默认的置信度为95%。

M-估计量(M-estimators):选择此项,将计算并生成稳健估计量。M估计在计算时对所有观测量赋予权重,随观测量距分布中心的远近而变化,通过给远离中心值的数据赋予较小的权重来减小异常值的影响。

界外值(Outliers):选择此项,将输出分析数据中的5个最大值和5个最小值作为异常嫌疑值。

百分位数(Percentiles):选择此项,将计算并显示指定的百分位数,包括5%、10%、25%、50%、75%、90%和95%等。

“探索:统计量”对话框中的4个选项为复选框,用户可进行多项选择,单击【继续】(Continue)按钮,即可返回“探索”主对话框。

单击【绘制】(Plots)按钮,打开“探索:图”(Explore:Plots)对话框,如图3-11所示。“探索:图”对话框中有如下4个选择组:

(1)箱图(Boxplots)栏(单选项组):箱图,又称箱锁图。如果用户在“探索”主对话框的“因变量列表”(Dependent List)框中输入了多个变量名,则在此选择组中进行选择,可确定箱锁图的生成方式。箱锁图中,底部的水平线段是数据的最小值(异常点除外),顶部的水平线段是数据的最大值(异常点除外),中间矩形箱子的底所在的位置是数据的第一个四分位数(即25%分位数),箱子顶部所在位置是数据的第三个四分位数据(即75%分位数)。箱子中间的水平线段刻画的是数据的中位数(即50%分位数)。

按因子水平分组(Factor levels together,系统默认):选择此项,将为每个因变量创建一个箱锁图,在每个箱锁图内根据分组变量的不同水平的取值创建箱形单元。

不分组(Dependents together):选择此项,将为每个分组变量的水平创建一个箱锁图,在每个箱锁图内用不同的颜色区分不同因变量所对应的箱形单元,方便用户进行比较。

无(None):选择此项,不创建箱图。

(2)描述性(Descriptive)栏(复选项):选择该组内的选项,可以生成茎叶图和(或)直方图。在箱图(Boxplots)组内选择的选项不同,则生成的茎叶图和直方图也不相同。选择“按因子水平分组”单选按钮时,在创建茎叶图和(或)直方图时,首先会根据因变量的不同进行分类,为每一个因变量对应的不同分组变量的不同水平创建一个茎叶图和(或)直方图;选择“不分组”单选按钮时,在创建茎叶图和(或)直方图时,则首先根据不同分组变量水平的不同,为每一个因变量创建一个茎叶图和(或)直方图。

茎叶图(Stem-and-leaf,系统默认):茎叶图主要由3个部分组成,即频率(Frequency)、茎(Stem)和叶(Leaf),在图中按从左到右的顺序依次排列,在图的底端,注明了茎的宽度(Stem Width)和每一叶所代表的观测量数(Each Leaf)。茎叶图中,茎表示数据的整数部分,叶表示数据的小数部分(小数位数只有一位,频数的数值有多大,则对应的小数就有多少个),将茎和叶的数值组合起来再乘以茎宽,便是该数据的值。由于茎叶图不仅仅能表示数据的频数分布,还能近似地表示数据的大小,因此它比直方图表达的信息更全面。

直方图(Histogram):直接绘制直方图的步骤详见第10章。

(3)带检验的正态图(Normality plots with test,复选框):选择此项,将进行正态性检验,并生成正态Q-Q概率图和无趋势正态Q-Q概率图。

(4)伸展与级别Levene检验(Spread vs level with Levene Test)栏(单选项组):对所有的展布-水平图进行方差齐性检验和数据转换,同时输出回归直线的斜率及方差齐性的Levene检验,但如果没有指定分组变量,则此选项无效。

无(None):不进行Levene检验,系统默认。选择此项,SPSS将不产生回归直线的斜率和方差齐性检验。

幂估计(Power Estimation):对每组数据产生一个中位数的自然对数及四个分位数的自然对数的散点图。

已转换(Transformed):变换原始数据,用户可在后面的参数框中选择数据变换类型。

未转换(Untransformed):不变换原始数据时选择此项。

用户在“探索:图”对话框中进行选择后,单击【继续】(Continue)按钮,即可返回“探索”主对话框。

单击【选项】(Options)按钮,打开“探索:选项”(Explore:Options)对话框,如图3-12所示。在该对话框中,可选择缺失值的处理方式,SPSS提供了3种处理方式:

按列表排除个案(Exclude cases listwise,系统默认):选择此项,对所有的分析过程剔除分组变量和因变量中所有带有缺失值的观测量数据;

按对排除个案(Exclude cases pairwise):同时剔除带缺失值的观测量及与缺失值有成对关系的观测量。在当前分析过程中用到的变量数据中剔除带有缺失值的观测量数据,在其他分析过程中可能包含缺失值;

报告值(Report values):选择此项,将分组变量的缺失值单独分为一组,在输出频数表的同时输出缺失值。

用户在“探索:选项”对话框中进行选择后,单击【继续】(Continue)按钮,即可返回“探索”主对话框。

单击【确定】(OK)按钮,即可在结果输出窗口中得到探索分析过程的数据概述、基本统计描述表、极端值列表、正态分布检验、方差齐性检验、茎叶图、直方图、箱锁图、正态分布Q-Q图、离散正态分布Q-Q图等图表。

3.5 交叉列联表分析

在实际分析中,除了需要对单个变量的数据分布情况进行分析外,还需要掌握多个变量在不同取值情况下的数据分布情况,从而进一步深入分析变量之间的相互影响和关系,这种分析就称为交叉列联表分析。当所观察的现象同时与两个因素有关时,如某种服装的销量受价格和居民收入的影响,某种产品的生产成本受原材料价格和产量的影响等,通过交叉列联表分析,可以较好地反映出这两个因素之间有无关联性及两个因素与所观察现象之间的相关关系。

因此,数据交叉列联表分析主要包括两个基本任务:一是根据收集的样本数据,产生二维或多维交叉列联表;二是在交叉列联表的基础上,对两个变量间是否存在相关性进行检验。要获得变量之间的相关性,仅仅靠描述性统计的数据是不够的,还需要借助一些表示变量间相关程度的统计量和一些非参数检验的方法。

常用的衡量变量间相关程度的统计量是简单相关系数,但在交叉列联表分析中,由于行列变量往往不是连续变量,不符合计算简单相关系数的前提条件。因此,需要根据变量的性质选择其他的相关系数,如Kendall等级相关系数、Eta值等。

SPSS提供了多种适用于不同类型数据的相关系数表达,这些相关性检验的零假设都是:行和列变量之间相互独立,不存在显著的相关关系。根据SPSS检验后得出的相伴概率(Concomitant Significance)判断是否存在相关关系。如果相伴概率小于显著性水平0.05,那么拒绝零假设,行列变量之间彼此相关;如果相伴概率大于显著性水平0.05,那么接受原假设,行列变量之间彼此独立。

在交叉列联表分析中,SPSS所提供的相关关系的检验方法主要有以下3种:

(1)卡方(χ2)统计检验:常用于检验行列变量之间是否相关。计算公式为:

其中,f0表示实际观察频数,fe表示期望频数。

卡方统计量服从(行数 1)(列数 1)个自由度的卡方统计。SPSS在计算卡方统计量时,同时给出相应的相伴概率,由此判断行列变量之间是否相关。

(2)列联系数(Contingency coefficient):常用于名义变量之间的相关系数计算。计算公式由卡方统计量修改而得,公式如下:(3)系数(Phi and Cramer's V):常用于名义变量之间的相关系数计算。计算公式由卡方统计量修改而得,公式如下:

系数介于0和1之间,其中,K为行数和列数较小的实际数。

交叉列联表分析的具体操作步骤如下:

打开数据文件,选择【分析】(Analyze)菜单,单击【描述统计】(Descriptive Statistics)命令下的【交叉表】(Crotabs)命令。“交叉表”(Crotabs)主对话框如图3-13所示。

在该主对话框中,左边的变量列表为原变量列表,通过单击 按钮可选择一个或者几个变量进入右边的“行”(Row(s))变量列表框、“列”(Column(s))变量列表框和“层”(Layer)变量列表框中。如果是二维列联表分析,只需选择行列变量即可,但如进行三维以上的列联表分析,可以将其他变量作为控制变量选到“层”(Layer)变量列表框中。有多个层控制变量时,可以根据实际的分析要求确定它们的层次,既可以是同层次的也可以是逐层叠加的。

在“交叉表”对话框底端有两个可选择项:

显示复式条形图(Display clustered bar chart):指定绘制各个变量不同交叉取值下关于频数分布的柱形图;

取消表格(Suppre table):不输出列联表的具体表格,而直接显示交叉列联表分析过程中的统计量,如果没有选中统计量,则不产生任何结果。所以,一般情况下,只有在分析行列变量间关系时选择此项。

该对话框的右端有4个按钮,从上到下依次为【精确】(Exact)按钮、【统计量】(Statistics)按钮、【单元格】(Cells)按钮和【格式】(Format)按钮。单击可进入对应的对话框。

单击【精确】(Exact)按钮,打开“精确检验”(Exact Tests)对话框,如图3-14所示。

该对话框提供了3种用于不同条件的检验方式来检验行列变量的相关性。用户可选择以下3种检验方式之一:

仅渐近法(Asymptotic only):适用于具有渐近分布的大样本数据,SPSS默认选择该项。

Monte Carlo(蒙特卡罗法):此项为精确显著性水平值的无偏估计,无需数据具有渐近分布的假设,是一种非常有效的计算确切显著性水平的方法。在“置信水平”(Confidence Level)参数框内输入数据,可以确定置信区间的大小,一般为90、95、99。在“样本数”(Number of samples)参数框中可以输入数据的样本容量。

精确(Exact):观察结果概率,同时在下面的“每个检验的时间限制为”(Time limit per test)的参数框内,选择进行精确检验的最大时间限度。

用户在本对话框内进行选择后,单击【继续】(Continue)按钮即可返回“交叉表”主对话框。一般情况下,“精确检验”(Exact Tests)对话框的选项都默认为系统默认值,不作调整。单击【统计量】(Statistics)按钮,打开“交叉表:统计量”(Crotabs:Statistics)对话框,如图3-15所示。

在该对话框中,用户可以选择输出合适的统计检验统计量。对话框中各选项的意义如下:

(1)卡方(Chi-square)检验复选框:检验列联表行列变量的独立性检验,也被称为Pearson chi-square检验、χ2检验。

(2)相关性(Correlations)检验复选框:输出列联表行列变量的Pearson相关系数或Spearman相关系数。

(3)名义(Nominal)栏:适用于名称变量统计量。

相依系数(Contingency coefficient):即Pearson相关系数或Spearman相关系数。

Phi 和Cramer变量(系数):常用于名义变量之间的相关系数计算。计算公式由卡方统计量修改而得,如公式(3.13)所示。ψ系数介于0和1之间,其中,K为行数和列数较小的实际数。Lambda(λ系数):在自变量预测中用于反映比例缩减误差,其值为1时表明自变量预测因变量好,为0时表明自变量预测因变量差。

不定性系数(Uncertainty coefficient):以熵为标准的比例缩减误差,其值接近1时表明后一变量的信息很大程度上来自前一变量,其值接近0时表明后一变量的信息与前一变量无关。

(4)有序(Ordinal)栏:适用于有序变量的统计量。

Gamma(伽马系数,γ系数):两有序变量之间的关联性的对称检验。其数值界于0和1之间,所有观察实际数集中于左上角和右下角时,取值为1,表示两个变量之间有很强的相关;取值为0时,表示两个变量之间相互独立。

Somers'd值:两有序变量之间的关联性的检验,取值范围为[-1,1]。

Kendall s tau-b值:考虑有结的秩或等级变量关联性的非参数检验,相同的观察值选入计算过程中,取值范围为[-1,1]。Kendall s tau-c值:忽略有结的秩或等级变量关联性的非参数检验,相同的观察值不选入计算过程,取值范围界为[-1,1]。

(5)按区间标定(Nominal by interval)栏:适用于一个名义变量与一个等距变量的相关性检验。

Kappa系数:检验数据内部的一致性,仅适用于具有相同分类值和相同分类数量的变量交叉表。

Eta值:其平方值可认为是因变量受不同因素影响所致方差的比例。

风险(相对危险度):检验事件发生和某因素之间的关联性。

McNemar检验:主要用于检验配对的资料率(相当于配对卡方检验)。

(6)Cochran's and Mantel-Haenszel统计量复选框:适用于在一个二值因素变量和一个二值响应变量之间的独立性检验。

用户在“交叉表:统计量”对话框中进行选择后,单击【继续】(Continue),即可返回“交叉表”(Crotabs)主对话框。一般情况下,对“交叉表:统计量”对话框内的选项不作选择或选择较为常用的卡方检验。

单击【单元格】(Cells)按钮,打开“交叉表:单元显示”(Crotabs:Cell Display)对话框,如图3-16所示。在该对话框中,用户可以指定列联表单元格中的输出内容。SPSS17.0默认在交叉列联表中输出实际的观察值,但观察值有时候不能确切地反映事物的实质,因此还需要输出其他的数据项。对话框中各选项的具体意义如下:

(1)计数(Counts)栏:

观察值(Observed):系统默认选项,表示输出为实际观察值。

期望值(Expected):表示输出为理论值。

(2)百分比(Percentages)栏:

行(Row)百分比:以行为单元,统计行变量的百分比。

列(Column)百分比:以列为单元,统计列变量的百分比。

总计(Total)百分比:行列变量的百分比都进行输出。

(3)残差(Residuals)栏: 未标准化(Unstandardized):输出非标准化残差,为实际数与理论数的差值。

标准化(Standardized):输出标准化残差,为实际数与理论数的差值除以理论数。

调节的标准化(Adjusted standardized):输出修正标准化残差,为标准误确定的单元格残差。

(4)非整数权重(Noninteger Weights)栏:

四舍五入单元格计数(Round cell counts,系统默认):将单元格计数的非整数部分的尾数四舍五入为整数。

截短单元格计数(Truncate cell counts):将单元格计数的非整数部分的尾数舍去,直接化为整数。

四舍五入个案权重(Round case Weights):将观测量权数的非整数部分的尾数四舍五入为整数。

截短个案权重(Truncate case Weights):将观测量权数的非整数部分的尾数舍去,化为整数。

无调节(No adjustments):不对计数数据进行调整。

用户在“交叉表:单元显示”对话框中进行选择后,单击【继续】(Continue)按钮,即可返回“交叉表”主对话框。一般情况下,对“交叉表:单元显示”对话框的选项都默认为系统默认值,不作调整。

单击【格式】(Format)按钮,打开“交叉表:表格格式”(Crotabs:Table Format)对话框,如图3-17所示。

在该对话框中,用户可以指定列联表的输出排列顺序。对话框中各选项的具体意义如下:

在行序(Row Order)栏中有如下两个选项: 升序(Ascending):系统默认,以升序显示各变量值;

降序(Descending):以降序显示各变量值。

用户在该对话框中进行选择后,单击【继续】(Continue)按钮,即可返回“交叉表”主对话框。

在“交叉表”对话框中单击【确定】(OK)按钮,可在输出窗口中得到数据概述、交叉列联表、卡方检验表、交叉分组下频率分布柱形图、相对危险性估计等图表。

3.6 比率分析

比率分析主要用于对两个变量间变量值的比率变化进行描述分析,适用于定距型变量(scale)。例如,可以对受处分的学生和没受处分的学生的上网时间与用计算机的时间进行比率分析。

比率分析生成比率变量,并对该比率变量计算基本描述性统计量(如均值、中位数、标准差、全距等),进而刻画出比率变量的集中趋势和离散程度。除此之外,SPSS17.0还提供了其他对比描述指标,大致也属于集中趋势描述指标和离散程度描述指标的范畴。

打开数据文件,选择【分析】(Analyze)菜单,单击【描述统计】(Descriptive Statistics)命令下的【比率】(Ratio)命令。打开“比值统计量”(Ratio Statistics)对话框(软件翻译为“比值”,但准确的术语应是“比率”),如图3-18所示。在该主对话框中,左边的变量列表为原变量列表,通过单击 按钮可选择一个或者几个变量进入右边的“分子”(Numerator)变量列表框、“分母”(Denominator)变量列表框和“组变量”(Group Variable)列表框中。进行不同组间的比率比较时,需要将变量分组,将变量选择到“组变量”(Group Variable)列表框中后,可以选择将变量按照分组变量进行升序或者降序排列。

“比值统计量”对话框的左下角有如下两个复选框:

显示结果(Display results,系统默认)

将结果保存到外部文件(Save results to external file):如果选择该项,【文件】(File)按钮被激活,单击【文件】(File)按钮可将输出结果保存至用户指定的位置。

该对话框的右下角是【统计量】(Statistics)按钮,单击它将打开“比率统计量:统计量”(Ratio Statistics:Statistics)对话框。

单击【统计量】(Statistics)按钮,打开“比率统计量:统计量”对话框,如图3-19所示。在该对话框中,用户可以选择比率变量计算基本描述性统计量(如均值、中位数、标准差、全距等),并描述比率变量的集中趋势和离散程度。对话框中各选项的具体意义如下:

(1)集中趋势(Central Tendency)栏(复选项):

中位数(Median)

均值(Mean)

权重均值(Weighted Mean):指两变量均值的比。

置信区间(Confidence intervals):默认置信区间的置信度为95%。

(2)离散(Dispersion)栏(复选项)

AAD(Average Absolute Deviation,平均绝对离差),其计算公式为:

其中,Ri是比率数,M是比率变量的中位数,N为样本数。

COD(Coefficient of Dispersion,离散系数),其计算公式为:

PRD(Price-related Differential,相关价格微分):是比率均值与加权比率均值的比。

中位数居中COV(Median Centered COV):计算公式为: 均值居中COV(Mean Centered COV):通常意义下的变异系数,即标准差除以均值。

(3)集中指数(Concentration Index)栏:

在以下比例之间(Ratios Between):通过在低比例(Low Proportion)和高比例(High Proportion)后面的文本框中输入数值,可以控制比率的范围。输入后,单击【添加】(Add)按钮,将对应的比率范围添加到方框内的列表框中,利用【更改】(Change)按钮和【删除】(Remove)按钮,可以对列表框中的选项进行修改和删除。

在以下比例之内(Ratios Within):通过在中位数的%(% of median)前面的文本框中输入数值,可以控制比率相对于中位数的范围。输入后,单击【添加】(Add)按钮,将对应的比率限制条件添加到方框内的列表框中,利用【更改】(Change)按钮和【删除】(Remove)按钮,可以对列表框中的选项进行修改和删除。

用户在本对话框中进行选择后,单击【继续】(Continue)按钮,即可返回“比值统计量”(Ratio Statistics)主对话框。

在“比值统计量”主对话框中单击【确定】(OK)按钮,可在输出窗口中得到分组描述结果和比率分析结果等图表。

3.7 P-P图和Q-Q图

P-P图是根据变量的累积比例与指定分布的累积比例之间的关系所绘制的图形。通过P-P图可以检验数据是否符合指定的分布。当数据符合指定分布时,P-P图中各点近似呈一条直线。如果P-P图中各点不呈直线,但有一定规律,可以对变量数据进行转换,使转换后的数据更接近指定分布。

Q-Q图同样可以用于检验数据的分布,所不同的是,Q-Q图是用变量数据分布的分位数与所指定分布的分位数之间的关系曲线来进行检验的。

由于P-P图和Q-Q图的用途完全相同,只是检验方法存在差异,SPSS17.0中用于做出P-P图的对话框和用于做出Q-Q图的对话框完全一致,下面将对两者统一加以说明。具体操作步骤如下:

打开数据文件,选择【分析】(Analyze)菜单,单击【描述统计】(Descriptive Statistics)命令下的【P-P图】(P-P Plots)或【Q-Q图】(Q-Q Plots)命令。“P-P图”(P-P Plots)、“Q-Q图”(Q-Q Plots)的对话框分别如图3-20和图3-21所示。

在“P-P图”(P-P Plots)或“Q-Q图”(Q-Q Plots)对话框中,最左边的变量列表为原变量列表,通过单击 按钮可选择一个或者几个变量进入位于对话框中间的“变量”(Variables)列表框中。根据这些变量数据可创建P-P图或Q-Q图,并进行分布检验。

“P-P图”或“Q-Q图”对话框的中下方和右方有5个选项栏,选项栏中各选项的意义如下:

(1)转换(Transform)栏(复选项):

自然对数转换(Natural log transform):选择此项,对当前变量的数据取自然对数,即将原有变量转换成以自然数e为底的对数变量。

标准值(Standardize values):选择此项,将当前变量的数据转换为标准值,即转换后变量数据的均值为0,方差为1。差分(Difference):选择此项,对当前变量的数据进行差分转换,即利用变量中连续数据之间的差值来转换数据。选择此项以后,后面的文本框变为可用,在其中输入一个正整数,以确定转换的差分度,默认值为1。

季节性差分(Seasonally difference):用于确定指明计算时间序列的季节差分。只有在对当前变量的数据序列定义了周期(通过主菜单中的【数据】(Data)菜单中的【定义日期】(Define Dates)选项定义)以后才可用,如果当前周期为0,将不能计算季节差分。选择此项,在后面的文本框中输入正整数,然后根据该正整数所确定的范围来计算该范围内数据的差值,并用该差值来转换原数据。

需要注意的是,这些数据转换并不改变变量中的变量值,只影响正态概率图。

(2)检验分布(Test Distribution)栏:可选择不同的分布类型,检验变量数据是否符合所选分布。单击选项分布栏下的箭头可选择不同的分布类型。SPSS默认的检验分布是正态分布(Normal)。

P-P图(或Q-Q图)可检验的分布包括:

贝塔分布(Beta)T分布(Student t)

卡方分布(Chi-square)伽马分布(Gamma)

指数分布(Exponential)半正态分布(Half-normal)

Logistic分布(Logistic)拉普拉斯分布(Laplace)

对数正态分布(Lognormal)威布尔分布(Weibull)

正态分布(Normal)均匀分布(Uniform)

帕累托分布(Pareto)

dt:在该文本框中输入正整数,表示所选分布的自由度。

(3)分布参数(Distribution Parameters)栏:在该栏中可输入所选分布类型的参数,选择的分布不同,参数输入窗口也不同。

从数据中估计(Estimate from data):为系统默认选项。选择此项,系统将自动从数据中推测数据分布的参数,否则就要在该选项下方的参数框中根据需要自行指定。位置(Location)参数窗口:选择正态分布时,用户自行输入位置参数。

比例(Scale)参数窗口:选择正态分布时,用户自行输入比例参数。

(4)比例估计公式(Proportion Estimation Formula)栏(单选项组)

以上公式中,n表示观测量的数目,r是从1到n的秩次。

(5)为结指定的秩(Rank Aigned to Ties)栏(单选项组):

均值(Mean):用连接值的平均秩指定顺序。

高(High):用连接值的最大秩指定顺序。

低(High):用连接值的最小秩指定顺序。

强制打开结(Break ties arbitrarily):忽略观测量权重的影响。

3.8 图表绘制

进行数字统计分析时,有时我们需要绘制统计图表,把资料所反映的变化趋势、数量多少、分布状态和相互关系等形象直观地表现出来,以便于读者的阅读、比较和分析。SPSS的【图形】(Graphs)菜单提供了绘制图表的功能,主要包括3个子菜单:【图表建立】(Chart Builder)命令相当于图表向导,它对SPSS的绘图功能作了粗略的介绍,初学者可以大致了解SPSS的绘图能力;【交互图表】(Interactive)命令主要涵盖了SPSS各种复杂的交互性图表;【旧对话框】(Legacy Dialogs)命令主要包括多种SPSS传统的常用的统计报表,下面重点讲解。

3.8.1 条形图

条形图(Bar Charts),又称带形图或柱形图,它是利用相同宽度的条形的长短或高低来表现统计数据大小或变动的统计图。

绘制条形图的具体操作步骤如下:

打开【图形】(Graphs)菜单,选择【旧对话框】(Legacy Dialogs)命令下的【条形图】(Bar Charts)命令,SPSS将弹出“条形图”(Bar Charts)导航对话框,如图3-22所示。

在该导航对话框中,用户可以选择条形图的类型,并定义条形图中数据的表达方式。

SPSS将条形图大致分为3种类型:

简单(Simple):单式条形图,各个条形相互独立; 复式条形图(Clustered):分组条形图,每组的相邻两个或多个条形左右连接,以方便进行组间比较;

堆积面积图(Stacked):分段条形图,同一组的条形图上下连接,以方便进行组与组之间的互相比较。

在图3-22下部的“图表中的数据为”(Data in Chart are)栏,用户可以选择的条形图中数据的表达类型如下:

个案组摘要(Summaries for groups of cases):用分类值作图,条形图中每一条代表观测量的一个分类;

各个变量的摘要(Summaries of separate variables):用变量值作图,条形图中每一条代表一个变量;

个案值(Values of individual cases):用单元值作图,条形图中每一条代表一个观察值。

通过以上3个条形图类型和3个数据的表达方式的不同搭配,SPSS可以生成9种不同的条形图。本书以用户选择“简单”(Simple)条形图和“个案组摘要”(Summaries for groups of cases)为例,阐述条形图的绘制步骤,如果用户需要制作其他类型的条形图,请参看简单条形图绘制的类似步骤。

单击【定义】(Define)按钮,进入正式的条形图定义对话框“定义简单条形图:个案组摘要”(Define Simple Bar:Summaries for groups of cases)对话框,如图3-23所示。根据用户所选的条形图类型和数据表达方式的不同,出现的对话框名称也不同,但对话框的主体内容大致相同。

在该对话框中,用户可以选择条形图绘制的相关细节。

“条的表征”(Bar Present)栏中,用户可以选择以下条形图中条所代表的统计量:

个案数(N of cases):按照分组变量分组后各组的观测量个数;

个案数的%(% of cases):按照分组变量分组后各组的观测量个数占总观测量个数的百分比;

累积个数:观测量数的累计数目;

累积%:观测量数的累计百分比;

其他统计量(Other statistics):用户可以自行定义条形图中的统计量。选中该选项,下面的“变量”(Variable)列表框被激活,用户需要通过单击 按钮从左边原变量中选择一个分析变量进入“变量”(Variable)列表框中,然后单击【更改统计量】(Change Statistics)按钮,SPSS将弹出“统计量”(Statistic)对话框,如图3-24所示。

在该对话框中,用户可以选择需要计算的描述统计量作为条形图中的统计量。对话框中的描述统计量包括:

值的均值(Mean of values):按照分组变量分组后,以分析变量的均值作为条形图中的统计量;

值的中位数(Median of values):按照分组变量分组后,以分析变量的中位数作为条形图中的统计量;

值的众数(Mode of values):按照分组变量分组后,以分析变量的众数作为条形图中的统计量;

个案数(Number of cases):按照分组变量分组后,以分析变量的样本个数作为条形图中的统计量;

值的和(Sum of values):按照分组变量分组后,以分析变量数据的总和作为条形图中的统计量;

标准差(Standard deviation):按照分组变量分组后,以分析变量的标准差作为条形图中的统计量;

方差(Variance):按照分组变量分组后,以分析变量的方差作为条形图中的统计量; 最小值(Minimum value):按照分组变量分组后,以分析变量的最小值作为条形图中的统计量;

最大值(Maximum value):按照分组变量分组后,以分析变量的最大值作为条形图中的统计量;

累计求和(Calculative sum):按照分组变量分组后,以分析变量的累计总和作为条形图中的统计量。

在该对话框的中部,用户可以在“值”(Value)文本框中输入数值或者百分数,然后选择相关选项,SPSS将对数值或百分数上侧或下侧的观测量按照大小进行筛选。

在该对话框的下部,用户可以在“低”(Low)和“高”(High)文本框中输入数值或者百分数,然后选择对应选项,SPSS将按照大小对观测量在限定范围内进行筛选。

对话框底部的“值是组中点”(Values are grouped midpoints)复选框只有在用户选择“值的中位数”(Median of values)或者“百分位”(Percentile)时,才被激活。选中该选项,则表明数据分布为频数分布表的格式,输出的条形图中的统计量为分组的中值。

选择条形图中的统计量后,单击【继续】(Continue)按钮,即可返回到“定义简单条形图:个案组摘要”主对话框中。

接下来,需要指定做图变量。在“类别轴”(Category Axis)列表框中,用户需要通过单击 按钮从左边原变量中选择一个变量作为分类变量(也称为分组变量)。条形图中每个条形的长度分别代表对应各组的统计量的值。

模板(Template):用户可以选中该选项,并单击【文件】(File)按钮选择模板文件,作为散点图的格式模板。

单击【标题】(Titles)按钮,打开“标题”(Titles)对话框,如图3-25所示。在该对话框中,用户可以定义散点图的标题、子标题和脚注。

(1)标题(Title)和子标题(Subtitle):通过输入,用户可以定义两行标题和一行子标题。标题和子标题将在散点图上方显示。用户也可以在结果输出窗口中定义标题。

(2)脚注(Footnote):通过输入,用户可以定义两行脚注,脚注将在散点图下方显示。

输入标题后,单击【继续】(Continue)按钮,即可返回“定义简单条形图:个案组摘要”主对话框中。

单击【选项】(Options)按钮,打开“选项”(Options)对话框,如图3-26所示。

在该对话框中,用户可以指定缺失值的处理方式和误差条的设定形式。

(1)缺失值(Miing Values)栏:用户可以定义分析中对缺失值的处理方式,包括按列表排除个案(Exclude cases listwise)和按变量顺序排除个案(Exclude cases variable by variable)。为尽可能充分利用数据,SPSS默认选择前者。

(2)误差条图的表征(Error Bars Represent)栏:用户可以选择设定置信区间(Confidence intervals)、标准误(Standard Error)或者标准差(Standard deviation)条件,并显示误差条图。

指定缺失值的处理方式和误差条的设定形式后,单击【继续】(Continue)按钮,即可返回“定义简单条形图:个案组摘要”主对话框中。

在“定义简单条形:个案组摘要”主对话框中,单击【确定】(OK)按钮,即可在结果输出窗口中得到简单条形图。

3.8.2 线图 线图(Line Charts),又称曲线图,它是利用点的高低来表明数据升降情况的一种统计图。通过将不同阶段的数据点连接,可以更清晰地表明数据的变化趋势。线图主要用于时间序列分析、数据分配情况比较和两变量依存关系的分析等。

绘制线图的具体操作步骤如下:

打开【图形】(Graphs)菜单,选择【旧对话框】(Legacy Dialogs)命令下的【线图】(Line Charts)命令,SPSS将弹出“线图”(Line Charts)导航对话框,如图3-27所示。

在该导航对话框中,用户可以选择线图的类型,并定义线图中数据的表达方式。

SPSS将线图大致分为3种类型:

(1)简单(Simple):单线图,一个图形中只有一条水平走向的折线;

(2)多线线图(Multiple):多线图,一个图形中有多条水平走向的折线;

(3)垂直线图(Drop-line):垂线图,一个图形中有多组水平走向的数据,但在水平方向上不予以连接,而只是在垂直方向上将同一时间点的数据予以连接。

图表中的数据为(Data in Chart are)栏:用户可以选择以下的条形图中的数据表达类型: 个案组摘要(Summaries for groups of cases):用分类值作图,线图中每一条线代表观测量的一个分类;

各个变量的摘要(Summaries of separate variables):用变量值作图,线图中每一条线代表一个变量;

个案值(Values of individual cases):用单元值作图,线图中每一条线代表一个观察值。

通过以上3个线图类型和3个数据表达类型的不同搭配,SPSS可以生成9种不同的线图。本书以用户选择“简单”线图和“个案组摘要”为例,阐述线图的绘制步骤。

单击【定义】(Define)按钮,进入正式的定义对话框“定义简单线图:个案组摘要”(Define Simple Line:Summaries for groups of cases)对话框,如图3-28所示。根据用户所选的线图类型和数据表达类型的不同,出现的对话框名称也不同。

在该对话框中,用户首先需要指定绘图变量,即通过单击 按钮从左边原变量中选择多个需要绘制折线图的变量进入右边的“线的表征”(Lines Represent)中。绘图变量的数值将在线图的纵轴上表示。同时,用户需要指定分类变量。用户可以选择以“个案数”(Case number),即观测量的编号作为分类变量,也可以选中“变量”(Variable)选项,然后单击 按钮选择一个变量作为分类变量。例如,在时间序列分析中,用户就可以将时间变量作为分类变量。分类变量的数值将在线图的横轴上表示。

本对话框的其他部分及单击【标题】(Title)按钮所弹出的“标题”(Title)对话框都与“定义简单条形图:个案组摘要”(Define Simple Bar:Summaries for Groups of Cases)对话框完全相同,此处不再赘述。

在“定义简单线图:个案组摘要”主对话框中,单击【确定】(OK)按钮,即可在结果输出窗口中得到线图。

3.8.3 面积图

面积图(Area Charts),又称区域图,是用面积来表现连续性的频数分布的统计图。面积越大,频数越多,反之亦然。制作面积图的原始数据大多为频数分布表。

绘制面积图的具体操作步骤如下:

打开【图形】(Graphs)菜单,选择【旧对话框】(Legacy Dialogs)命令下的【面积图】(Area Charts)命令,SPSS将弹出“面积图”(Area Charts)导航对话框,如图3-29所示。

在该导航对话框中,用户可以选择面积图的类型,并定义面积图中数据的表达方式。

SPSS将面积图大致分为以下两种类型:

(1)简单(Simple):简单面积图,图形中只有一个区域表示频数大小;

(2)堆积面积图(Stacked):图形由多个不同颜色的区域从下到上堆积而成,不同的区域表示不同类型的频率大小。

“面积图”(Area Charts)导航对话框中的“图表中的数据为”(Data in Chart are)栏与条形图、线图的导航对话框该栏的内容相同,不再赘述。

通过以上两个面积图类型和三个数据表达类型的不同搭配,SPSS可以生成6种不同的面积图。本书以用户选择“简单”面积图和“个案组摘要”为例,阐述面积图的绘制步骤。单击【定义】(Define)按钮,进入“定义简单面积图:个案组摘要”(Define Simple Area:Summaries for groups of cases)对话框,如图3-30所示。根据用户所选的面积图类型和数据表达方式的不同,出现的对话框名称也不同。

本对话框与“定义简单条形图:个案组摘要”(Define Simple Bar:Summaries for Groups of Cases)对话框几乎完全相同,此处不再赘述。

在本主对话框中,单击【确定】(OK)按钮,即可在结果输出窗口中得到面积图。

3.8.4 饼形图

饼形图(Pie Charts)是用扇形的大小来表示数值大小的统计图。饼形图简单易懂,并且便于比较,因此,饼形图的制图过程使用最为广泛。

绘制饼形图的具体操作步骤如下:

打开【图形】(Graphs)菜单,选择【旧对话框】(Legacy Dialogs)命令下的【饼图】(Pie Charts)命令,SPSS将弹出“饼图”(Pie Charts)导航对话框,如图3-31所示。在该导航对话框中,用户可以定义饼形图中数据的表达方式。

“饼图”导航对话框中只有“图表中的数据为”(Data in Chart are)一栏,并且与条形图、线图、面积图的导航对话框该栏的内容相同,此处不再赘述。

根据3个不同的数据表达方式,SPSS可以生成3种不同的面积图。本书以用户选择“个案组的摘要”(Summaries for groups of cases)为例,阐述饼形图的绘制步骤,如果用户需要制作其他类型的饼图,请举一反三学习类似的步骤。

单击【定义】(Define)按钮,进入“定义饼图:个案组摘要”(Define Pie:Summaries for groups of cases)对话框,如图3-32所示。根据用户所选的数据表达方式的不同,出现的对话框名称也不同。

在本对话框中,用户可以选择饼形图绘制的相关细节。

分区的表征(Bar Present)栏:用户可以选择饼形图中扇形切片所代表的统计量。

个案数(N of cases):按照分组变量分组后各组的观测量个数。个案数的%(% of cases):按照分组变量分组后各组的观测量个数占总观测量个数的百分比。

变量和(Sum of variables):按照分组变量分组后,用户可以选择另一变量并以该变量的总和作为切片统计量的表达方式。选中该选项,下面的“变量”(Variable)列表框被激活,用户需要通过单击 按钮从左边原变量中选择一个计算总和的变量进入“变量”(Variable)列表框中。

在“定义分区”(Define Slices by)列表框中,用户需要单击 按钮从左边原变量列表中指定一个分类变量作为不同扇形的识别变量。

该对话框的其他部分及【标题】(Title)按钮、【选项】(Options)按钮都与“定义简单条形图:个案组摘要”(Define Simple Bar:Summaries for Groups of Cases)对话框完全相同,此处不再赘述。

在本对话框中,单击【确定】(OK)按钮,即可在结果输出窗口中得到饼形图。

3.8.5 高低图

高低图(High-Low Charts)是用多个垂直线段来表示数值区域的统计图,例如一组测定值的范围(最小值-最大值)、95%置信区间(下限-上限)、±1.96·SD(低值-均值-高值)等。

绘制高低图的具体操作步骤如下:

打开【图形】(Graphs)菜单,选择【旧对话框】(Legacy Dialogs)下的【高低图】(High-Low Charts)命令,SPSS将弹出“高-低图”(High-Low Charts)导航对话框,如图3-33所示。

在该导航对话框中,用户可以选择高低图的类型,并定义高低图中数据的表达方式。

《sp 17中文版统计分析典型实例精粹.docx》
将本文的Word文档下载,方便收藏和打印
推荐度:
sp 17中文版统计分析典型实例精粹
点击下载文档
相关专题 spss统计分析实例 统计分析 精粹 实例 spss统计分析实例 统计分析 精粹 实例
[其他范文]相关推荐
    [其他范文]热门文章
      下载全文