| 
 UID12768 帖子3 主题2 积分62 在线时间0 小时 注册时间2005-11-5 
 | 
2#
 
 发表于 2005-11-6 20:19 
 | 只看该作者 
| 二、 spss分析 1、 卡方分析(定类变量是否存在某种关联性)
 原假设:两个定类变量是互相独立,互不关联。
 列联表(频数和百分数),原假设成立的前提下,可以计算出列联表中的频数应该是多少(期望频数),比较观测频数与期望频数的差,用卡方(x2)统计量来检验:
 差值大,卡方检验结果显著,拒绝原假设,即两变量存在某种关联,具体如何关联,要看列联表中数据的分布形态
 差值小,原假设成立,卡方检验结果不显著,不能拒绝原假设,不能轻易下不关联的结论
 注:ü卡方检验受样本量的影响很大;
 ü对变量取值的不同分类会引起卡方值的改变,
 ü对定距/定比变量,要先将变量取值分组归类,才能用卡方分析,用recode命令
 2、 相关分析(研究变量间联系的密切程度)
 具体看另外一篇笔记,总之先记得analye-correlate-bivarinte比较常用。
 中间会得到简单相关系数,对于这个系数是否正确,还要排除相关系数为0的可能,里面的sig检验就是针对两者相关系数0的原假设的,p值<0.05,则相关系数成立,出现一个星号,显著水平在5%-1%之间,两个星号,在1%以下。
 一般我们当然希望p值小,多个星号了。其实我感觉首先用图形看看,就可以知道相关系数是否为0了(为0就是根本没有相关性了,图很乱的。)
 3、 方差分析(重要的定性分析方法)
 分类:单因素、多因素。
 单因素方差分析(F分析检验)
 研究一个变量是否依赖于另一个变量,前者叫因变量independent,后者叫自变量depengdent,又叫因素。
 原理:
 单因素的方差分析是按照自变量或因素的不同联值将样本分为几组,比较这几组的因变量的均值。一般情况下,这几个因变量的均值肯定不相等,这种不相等,可能由于这几组数据对应的总体均值的确存在差异,也可能仅仅由于数据的随机波动造成。通过方差的假设分析,可以判断数据的差异是由于何种原因造成,从而做定性判断(因素间的关系,影响的强度)。
 原假设:几组数据总体均值没有差异,观察差异由数据随机波动造成。
 求出组间变差及组内变差,要看两者比率(略加变化就可得F统计量)是否足够大,以决定是否拒绝原假设,当sig(p值)>0.05,则原假设成立,因素没有影响,当sig<0.05,则 拒绝原假设,此题具有鉴别度,因素有影响,变量有差别。
 注:因为是求均值,单因素方差分析的因变量显然是定距/定比变量
 方差分析的部分内容见compare means-one way anova。
 方差分析检验各组样本均值间是否具有显著性差异,检验几个因素谁有影响,谁的影响大,每个因素不同水平有无区别,哪个水平影响大。
 比较对象,2个,在方差齐,正态分布之类条件下,使用T检验
 比较对象,对于2个,在正态分布之类条件下,使用方差分析
 细节:1、选入变量denpengdent variable(因变量)及 Fixed factor(固定自变)
 其他random factor,随机因变量(需分类变量才行)
 covariate,协变量(需连续型数值变量)
 wls weight,加权变量
 post hocxxx选项是研究多因素之间关系的,其实也用得少。
 Model Full factorial/custom(交互作用的研究、维度)感觉用得多是custom /main effert,用full的话,得全部的交互关系,也用不着那么多的。
 4、 回归分析(研究某变量对另一变量的影响强度,重要的定量分析方法)
 定量分析,预测,数学表达式,有线性、曲线、非线性、logistic等分析
 1、 一元线性回归,y=a+bx,y是估计值,a是截距,b是斜率,回归系数
 R2判定系数,R2为回归模型所能解释的因变量变异性的百分比,例如R2=0.77,即y的变异有77%是由x引起,这个判定系数在0-1之间,是用来判断回归直线的拟合优度的好坏。(它的前提假设很多,其中随机误差要求无自相关性,y服从正态分布)
 2、 多元线性回归,y=b0+b1x1+b2x2+……+bnxn,其中b0是常数项,b1、b2等是偏回归系数。R复相关系数,R2为判断系数,在分析过程中,调用anova分析,p<0.05,回归系数不为0,即回归方差有意义,其实个人感觉作图看看很清楚了,不一定要检验的。
 5、 因子分析(研究变量的相关性)
 根据因变量(经常是心理态度指标方面的题项)之间关系密切与否,予以分群,它的目的一般在于减少变量。它的数学式与多元回归分析很接近。
 步骤:
 1、 定义问题,样本最少要求是变量数的4-5倍
 2、 构造相关矩阵
 3、 确定因子分析方法,其实默认主成分分析居多
 4、 确定因子数,在于取平衡,一般来说,用系统默认的贡献度大于1.0,则因子太少,累计贡献度低,要求累计贡献度很大,例如大于80%,这样因子又太多,无法达到减少因子的目的,另外,因子本身需要有较好的解释,不能够无法解释,没有专业、实际的意义。
 5、 因子旋转,其实默认的正交(Vxxx)居多
 6、 解释因子
 7、 计算或选择
 8、 判断
 6、 聚类/集群分析(研究样本/变量的相似性)
 将变量属性相似程度较高的观察值加以分群,使得集群与集群间的差异性达到最大,而同一集群内观察值同构性很高。聚类分析一般用来减少样品。它也可以对变量进行集群。但好像很少用到。
 K-xxx,快速聚类较简单,
 而对于分层聚类(Hxxx-Cxxx)有下面的入门问题需要注意:
 聚类分析中的冰柱图icicle如何看?
 根据想划分的nembers of clusters,在图上划一横线,属于同一类的则在一起不被分开。
 要看懂Cluster凝结的stage,明白每一步集群,都是以合并后编号小者为新观察值的编号。
 注:欧氏距离,指每一变量差值平方和的平方根,其实这些都无所谓,知道是距离单位即可。
 注:样品聚类,即Q型聚类,变量聚类,即R型聚类
 7、 Compare Means过程
 原假设:差异是由随机误差造成,变量数据间无显著性差异
 检验:>0.05,假设成立,相同,无显著性差异;<0.05,拒绝假设,不同,有显著性差异
 下面是compare neans的几个命令,各自的适用范围。
 1、 Means(单变量描述)
 单变量综合描述统计量的计算,可以分组求均值,例如,提交不同性别的工资均值,不做假设检验的,可做预先分析使用。
 2、 one-sample T test(单变量与常量检验)
 单样本:总体,检验样本是否来自总体,常用的是检验单变量与给定常量有无差异。
 3、 independent-sample T test(单变量2个水平)
 检验两个相关独立样本是否来自具有相同均值的总体。
 与下面的配对T检验的不同在于其比较两组水平数量不同或来源不明,而配对比较的两组数据数量相同。
 过程中,首先有F检验方差分析过程,sig>0.05,则表示方差齐,如果方差不齐,在最后检验表中,最后一张表中,要看“not assumed”的sig值,而不是“assumed”的sig值大于0.05与否。
 4、 paired-sampled T test(单变量2个水平,配对个数)
 检验两个相关配对样本是否来自具有均值相等的总体,和独立样本检验很象的。
 通常是对同一观察对象在试验前和试验后观测的结果进行比较,例如想比较培训前后职工的工作效率。变量的水平可包含2个以上,不过感觉一般是比较单变量两个水平的居多。
 5、 one-way anova(一维/一元方差分析,单变量多个水平)
 检验单变量多组(多水平,2组以上)独立的组是否来自均值相同的总体。例如比较不同减肥的三种方案是否有显著性差异。
 6、 对于多变量的差异性检验,使用general linear model
 (本质是与one-way anova相似的方差分析,多个变量多个水平,一般还是2个变量)。
 
 注:
 对于分类变量,用crosstabs做卡方检验。
 对于比较变量分布不明,或者明显是非正态分布的,考虑使用Nonparametic Tests下的命令处理。
 
 | 
 |