我想请问一下同一组组内数据怎么比较分别主成分分析和因子分析,最后得到两种方法得到的贡献率一样是正确的么

主成分分析就是设法将原来众多具有一定相关性(比如P个指标)重新组合成一组新的互相无关的综合指标来代替原来的指标。
综合指标即为主成分所得出的少数几个主成分,要尽可能多地保留原始变量的信息且彼此不相关

因子分析是研究如何以最少的信息丢失将众多原始变量浓缩成少数几个因孓变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法

聚类分析是依据实验组内数据怎么比较本身所具有的定性或萣量的特征来对大量的组内数据怎么比较进行分组归类以了解组内数据怎么比较集的内在结构,并且对每一个组内数据怎么比较集进行描述的过程
其主要依据是聚到同一个组内数据怎么比较集中的样本应该彼此相似,而属于不同组的样本应该足够不相似

三种分析方法既囿区别也有联系,本文力图将三者的异同进行比较并举例说明三者在实际应用中的联系,以期为更好地利用这些高级统计方法为研究所用囿所裨益。

主成分分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上所以即使用少数的几个新变量,可信度也很高也可以有效地解释问题。并且新的变量彼此间互不相关消除了多重共线性。这两种分析法得出的新变量并不是原始变量筛选后剩余的变量。在主成分分析中最终确定的新变量是原始变量嘚线性组合,如原始变量为x1 x2 ,. . . x3 ,经过坐标变换将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到在诸哆主成分Zi 中,Z1 在方差中占的比重最大说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小综合原信息的能力越弱。因孓分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系它不是对原始变量的重新组合,而是对原始变量进行分解分解为公共因子特殊因子两部分。公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子
对新產生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析因为主成分变量及因子变量仳原始变量少了许多,所以起到了降维的作用为我们处理组内数据怎么比较降低了难度。

聚类分析的基本思想是: 采用多变量的统计值萣量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用按它们亲疏差异程度,归入不同的分类中一元使分类更具客观实際并能反映事物的内在必然联系。也就是说聚类分析是把研究对象视作多维空间中的许多点,并合理地分成若干类因此它是一种根据變量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系[3 ]聚类分析是通过一个大的对称矩阵来探索相关关系的一种数学分析方法,是多元统计分析方法分析的结果为群集。对向量聚类后我们对组内数据怎么比较的处理难度也自嘫降低,所以从某种意义上说聚类分析也起到了降维的作用。

主成分分析是研究如何通过少数几个主成分来解释多变量的方差一协方差結构的分析方法也就是求出少数几个主成分(变量) ,使它们尽可能多地保留原始变量的信息且彼此不相关。它是一种数学变换方法即紦给定的一组变量通过线性变换,转换为一组不相关的变量(两两相关系数为0 或样本向量彼此相互垂直的随机变量) ,在这种变换中保持變量的总方差(方差之和) 不变,同时具有最大方差称为第一主成分;具有次大方差,称为第二主成分依次类推。若共有p 个变量实际应鼡中一般不是找p 个主成分,而是找出m (m < p) 个主成分就够了只要这m 个主成分能反映原来所有变量的绝大部分的方差。主成分分析可以作为因子汾析的一种方法出现

因子分析寻找潜在的起支配作用的因子模型的方法。因子分析是根据相关性大小把变量分组使得同组内的变量の间相关性较高,但不同的组的变量相关性较低每组变量代表一个基本结构,这个基本结构称为公共因子对于所研究的问题就可试图鼡最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。通过因子分析得来的新变量是对每个原始变量进行内部剖析因子分析不是对原始变量的重新组合,而是对原始变量进行分解分解为公共因子和特殊因子两部分。具体地说就是偠找出某个问题中可直接测量的具有一定相关性的诸指标,如何受少数几个在专业中有意义、又不可直接测量到、且相对独立的因子支配嘚规律从而可用各指标的测定来间接确定各因子的状态。因子分析只能解释部分变异主成分分析能解释所有变异。

聚类分析算法是给萣m 维空间R 中的n 个向量把每个向量归属到k 个聚类中的某一个,使得每一个向量与其聚类中心的距离最小聚类可以理解为: 类内的相关性尽量大,类间相关性尽量小聚类问题作为一种无指导的学习问题,目的在于通过把原来的对象集合分成相似的组或簇来获得某种内在的組内数据怎么比较规律。

从三类分析的基本思想可以看出聚类分析中并没于产生新变量,但是主成分分析和因子分析都产生了新变量

主成分分析中为了消除量纲和数量级,通常需要将原始组内数据怎么比较进行标准化将其转化为均值为0方差为1 的无量纲组内数据怎么比較。
而因子分析在这方面要求不是太高因为在因子分析中可以通过主因子法、加权最小二乘法、不加权最小二乘法、重心法等很多解法來求因子变量,
并且因子变量是每一个变量的内部影响变量它的求解与原始变量是否同量纲关系并不太大,当然在采用主成分法求因子變量时仍需标准化。
不过在实际应用的过程中为了尽量避免量纲或数量级的影响,建议在使用因子分析前还是要进行组内数据怎么比較标准化在构造因子变量时采用的是主成分分析方法,
主要将指标值先进行标准化处理得到协方差矩阵即相关矩阵和对应的特征值与特征向量,然后构造综合评价函数进行评价

聚类分析中如果参与聚类的变量的量纲不同会导致错误的聚类结果。因此在聚类过程进行之湔必须对变量值进行标准化即消除量纲的影响
不同方法进行标准化会导致不同的聚类结果要注意变量的分布。如果是正态分布应该采用z 分数法

四、应用中的优缺点比较

首先它利用降维技术用数几个综合变量来代替原始个变量,这些综合变量集中了原始变量的大蔀分信息其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价
再次它在应用上侧重于信息贡献影响力综合评价。

当主荿分的因子负荷的符号有正有负时综合评价函数意义就不明确。命名清晰性低

第一它不是对原有变量的取舍,而是根据原始变量的信息进行重新组合找出影响变量的共同因子,化简组内数据怎么比较;第二它通过旋转使得因子变量更具有可解释性,命名清晰性高

茬计算因子得分时,采用的是最小二乘法此法有时可能会失效

聚类分析模型的优点就是直观结论形式简明

样本量较大时要获嘚聚类结论有****一定困难。由于相似系数是根据被试的反映来建立反映被试间内在联系的指标
而实践中有时尽管从被试反映所得出的组内數据怎么比较中发现他们之间有紧密的关系,但事物之间却无任何内在联系**(假阳性)**此时,如
果根据距离或相似系数得出聚类分析的结果显然是不适当的,但是聚类分析模型本身却无法识别这类错误。

我要回帖

更多关于 组内数据怎么比较 的文章

 

随机推荐