Board logo

标题: Spss及统计笔记 [打印本页]

作者: spss_SAS    时间: 2005-11-1 22:05     标题: Spss及统计笔记

Spss及统计笔记
一、 预备知识
1、 变量类型
2、 缺失值
3、 统计方法
4、 假设检验
二、 spss分析
1、 卡方分析(定类变量是否存在某种关联性)
2、 相关分析(研究变量间联系的密切程度)
3、 方差分析(重要的定性分析方法)
4、 回归分析(研究某变量对另一变量的影响强度,重要的定量分析方法)
5、 因子分析(研究变量的相关性)
6、 聚类/集群分析(研究样本/变量的相似性)
7、 Compare Means过程

一、 预备知识
1、 变量类型
定类变量(又称分类变量/离散变量):仅仅代表不同类事物,例如性别
定序变量:代表按照事物某特性排序下的分类,例如教育程度,态度量度
定距/定比变量:变量的值之间可以比较大小,两个值的差有实际意义。
其中,定距/定比变量的区别,定距变量=0,不表示“没有”,定比变量=0,表示“没有”,在spss中,没有太大的区别。
2、 缺失值
10%以下,可接受范围
替代模式:
1样本统计量(各类平均值)替代
2统计模型计算出的值替代
3删除整个个案
4仅在相应分析中作必要的删除,将有缺失值的个案保留(exlude case pairwise)
3、 统计方法
一个变量:frequency频数、descriptive众数、中位数、均值、标准差
两个变量:卡方分析(x2 /crosstabs),研究分类变量间是否存在关联性的常用方法
单因素方差分析(one way anova,F检验)
简单相关分析(pwarson相关系数r值)
一元线性回归分析(regression / linear)
多个变量:判别分析、聚类分析、因子分析、多元线性回归
注:1、频数/百分比中,有效百分比(valid percent)指频数对有效个案数(所谓有效个案数,即样本量减去缺失个案数)的比例。
2、Sig 显著度p值:显著性水平一般是0.05,也有取0.01的
4、 假设检验
假设检验包括参数检验(定量),其中包括单样本及双样本(独立样本、配对样本)检验;
非参数检验(非定量),好像是针对不服从正态分布的变量,,同样有单样本、双样本检验。
二、 spss分析
1、 卡方分析(定类变量是否存在某种关联性)
原假设:两个定类变量是互相独立,互不关联。
列联表(频数和百分数),原假设成立的前提下,可以计算出列联表中的频数应该是多少(期望频数),比较观测频数与期望频数的差,用卡方(x2)统计量来检验:
差值大,卡方检验结果显著,拒绝原假设,即两变量存在某种关联,具体如何关联,要看列联表中数据的分布形态
差值小,原假设成立,卡方检验结果不显著,不能拒绝原假设,不能轻易下不关联的结论
注:ü卡方检验受样本量的影响很大;
ü对变量取值的不同分类会引起卡方值的改变,
ü对定距/定比变量,要先将变量取值分组归类,才能用卡方分析,用recode命令
2、 相关分析(研究变量间联系的密切程度)
具体看另外一篇笔记,总之先记得analye-correlate-bivarinte比较常用。
中间会得到简单相关系数,对于这个系数是否正确,还要排除相关系数为0的可能,里面的sig检验就是针对两者相关系数0的原假设的,p值<0.05,则相关系数成立,出现一个星号,显著水平在5%-1%之间,两个星号,在1%以下。
一般我们当然希望p值小,多个星号了。其实我感觉首先用图形看看,就可以知道相关系数是否为0了(为0就是根本没有相关性了,图很乱的。)
3、 方差分析(重要的定性分析方法)
分类:单因素、多因素。
单因素方差分析(F分析检验)
研究一个变量是否依赖于另一个变量,前者叫因变量independent,后者叫自变量depengdent,又叫因素。
原理:
单因素的方差分析是按照自变量或因素的不同联值将样本分为几组,比较这几组的因变量的均值。一般情况下,这几个因变量的均值肯定不相等,这种不相等,可能由于这几组数据对应的总体均值的确存在差异,也可能仅仅由于数据的随机波动造成。通过方差的假设分析,可以判断数据的差异是由于何种原因造成,从而做定性判断(因素间的关系,影响的强度)。
原假设:几组数据总体均值没有差异,观察差异由数据随机波动造成。
求出组间变差及组内变差,要看两者比率(略加变化就可得F统计量)是否足够大,以决定是否拒绝原假设,当sig(p值)>0.05,则原假设成立,因素没有影响,当sig<0.05,则 拒绝原假设,此题具有鉴别度,因素有影响,变量有差别。
注:因为是求均值,单因素方差分析的因变量显然是定距/定比变量
方差分析的部分内容见compare means-one way anova。
方差分析检验各组样本均值间是否具有显著性差异,检验几个因素谁有影响,谁的影响大,每个因素不同水平有无区别,哪个水平影响大。
比较对象,2个,在方差齐,正态分布之类条件下,使用T检验
比较对象,对于2个,在正态分布之类条件下,使用方差分析
细节:1、选入变量denpengdent variable(因变量)及 Fixed factor(固定自变)
其他random factor,随机因变量(需分类变量才行)
covariate,协变量(需连续型数值变量)
wls weight,加权变量
post hocxxx选项是研究多因素之间关系的,其实也用得少。
Model Full factorial/custom(交互作用的研究、维度)感觉用得多是custom /main effert,用full的话,得全部的交互关系,也用不着那么多的。
4、 回归分析(研究某变量对另一变量的影响强度,重要的定量分析方法)
定量分析,预测,数学表达式,有线性、曲线、非线性、logistic等分析
1、 一元线性回归,y=a+bx,y是估计值,a是截距,b是斜率,回归系数
R2判定系数,R2为回归模型所能解释的因变量变异性的百分比,例如R2=0.77,即y的变异有77%是由x引起,这个判定系数在0-1之间,是用来判断回归直线的拟合优度的好坏。(它的前提假设很多,其中随机误差要求无自相关性,y服从正态分布)
2、 多元线性回归,y=b0+b1x1+b2x2+……+bnxn,其中b0是常数项,b1、b2等是偏回归系数。R复相关系数,R2为判断系数,在分析过程中,调用anova分析,p<0.05,回归系数不为0,即回归方差有意义,其实个人感觉作图看看很清楚了,不一定要检验的。
5、 因子分析(研究变量的相关性)
根据因变量(经常是心理态度指标方面的题项)之间关系密切与否,予以分群,它的目的一般在于减少变量。它的数学式与多元回归分析很接近。
步骤:
1、 定义问题,样本最少要求是变量数的4-5倍
2、 构造相关矩阵
3、 确定因子分析方法,其实默认主成分分析居多
4、 确定因子数,在于取平衡,一般来说,用系统默认的贡献度大于1.0,则因子太少,累计贡献度低,要求累计贡献度很大,例如大于80%,这样因子又太多,无法达到减少因子的目的,另外,因子本身需要有较好的解释,不能够无法解释,没有专业、实际的意义。
5、 因子旋转,其实默认的正交(Vxxx)居多
6、 解释因子
7、 计算或选择
8、 判断
6、 聚类/集群分析(研究样本/变量的相似性)
将变量属性相似程度较高的观察值加以分群,使得集群与集群间的差异性达到最大,而同一集群内观察值同构性很高。聚类分析一般用来减少样品。它也可以对变量进行集群。但好像很少用到。
K-xxx,快速聚类较简单,
而对于分层聚类(Hxxx-Cxxx)有下面的入门问题需要注意:
聚类分析中的冰柱图icicle如何看?
根据想划分的nembers of clusters,在图上划一横线,属于同一类的则在一起不被分开。
要看懂Cluster凝结的stage,明白每一步集群,都是以合并后编号小者为新观察值的编号。
注:欧氏距离,指每一变量差值平方和的平方根,其实这些都无所谓,知道是距离单位即可。
注:样品聚类,即Q型聚类,变量聚类,即R型聚类
7、 Compare Means过程
原假设:差异是由随机误差造成,变量数据间无显著性差异
检验:>0.05,假设成立,相同,无显著性差异;<0.05,拒绝假设,不同,有显著性差异
下面是compare neans的几个命令,各自的适用范围。
1、 Means(单变量描述)
单变量综合描述统计量的计算,可以分组求均值,例如,提交不同性别的工资均值,不做假设检验的,可做预先分析使用。
2、 one-sample T test(单变量与常量检验)
单样本:总体,检验样本是否来自总体,常用的是检验单变量与给定常量有无差异。
3、 independent-sample T test(单变量2个水平)
检验两个相关独立样本是否来自具有相同均值的总体。
与下面的配对T检验的不同在于其比较两组水平数量不同或来源不明,而配对比较的两组数据数量相同。
过程中,首先有F检验方差分析过程,sig>0.05,则表示方差齐,如果方差不齐,在最后检验表中,最后一张表中,要看“not assumed”的sig值,而不是“assumed”的sig值大于0.05与否。
4、 paired-sampled T test(单变量2个水平,配对个数)
检验两个相关配对样本是否来自具有均值相等的总体,和独立样本检验很象的。
通常是对同一观察对象在试验前和试验后观测的结果进行比较,例如想比较培训前后职工的工作效率。变量的水平可包含2个以上,不过感觉一般是比较单变量两个水平的居多。
5、 one-way anova(一维/一元方差分析,单变量多个水平)
检验单变量多组(多水平,2组以上)独立的组是否来自均值相同的总体。例如比较不同减肥的三种方案是否有显著性差异。
6、 对于多变量的差异性检验,使用general linear model
(本质是与one-way anova相似的方差分析,多个变量多个水平,一般还是2个变量)。

注:
对于分类变量,用crosstabs做卡方检验。
对于比较变量分布不明,或者明显是非正态分布的,考虑使用Nonparametic Tests下的命令处理。

作者: dsyujn    时间: 2005-11-3 12:35

没想到有这么好的论坛,谢谢


作者: daylily326    时间: 2005-11-4 21:32

这么多多的好东东,以后一定的常来!谢谢!
作者: liuRG    时间: 2005-11-8 14:43     标题: [原创]

很好
作者: msw1982    时间: 2005-11-13 12:23

我要下载 但还得有积分:(


作者: misswangle    时间: 2005-11-16 14:57


我要下载 但还得有积分:(


作者: yijian13    时间: 2005-11-20 19:35

没想到有这么好的论坛,谢谢


作者: foxdog    时间: 2005-12-5 19:02

东西呢?在哪里...
作者: tsuwen    时间: 2006-4-5 16:26

ding
作者: 孤独木舟    时间: 2006-4-15 20:01

太好了!谢谢!


作者: keyuanhong    时间: 2006-4-17 11:45

不知道东西在哪,骗人不是哦。怎么积分啊,发帖子?


作者: hnscding    时间: 2006-4-26 21:38

hao
作者: turgun    时间: 2006-6-4 16:46

东西在哪里?
作者: yian7103    时间: 2006-6-7 17:33

很好
作者: yian7103    时间: 2006-6-7 17:38

很好,但如何下载?
作者: wjuu    时间: 2006-10-21 14:05     标题: thank you very much

ts
作者: yanjiu1982    时间: 2006-11-9 15:21

真是好东东,楼主辛苦了。
作者: zhengly66    时间: 2006-11-25 22:48

谢谢!

DING!


作者: yuyule    时间: 2006-12-19 14:54

谢谢啊

以后常光顾啊

这么好的论坛

斑竹都辛苦了


作者: 葛洪    时间: 2007-1-10 10:50

11
作者: freeson    时间: 2007-1-15 17:30

ding
作者: freeson    时间: 2007-1-15 17:31

ding
作者: lm1937    时间: 2007-1-27 10:20

好心人啊


作者: bluerui    时间: 2007-4-18 10:25

好论坛


作者: nixiaofeng    时间: 2007-5-29 11:31

这个论坛很好,下载东西都不需要积分的


作者: hitzhangym    时间: 2007-5-30 20:20

精品啊


作者: joannao    时间: 2008-1-3 23:30

kankan
作者: ocelb    时间: 2008-4-21 01:46

hard~~~~
作者: qlzhan    时间: 2008-6-5 03:37

where
作者: iloveccx    时间: 2008-11-9 11:53

谢谢啊,非常感谢您的帮助
作者: Lance2098    时间: 2008-12-3 10:44

就这么多么
作者: huashan83    时间: 2009-2-13 18:48

谢谢了!




欢迎光临 FRM论坛 (http://frmspace.com/) Powered by Discuz! 7.2