barriers / 阅读 / 详情

试用主分量分析方法提取澜沧江兰坪地区铜矿化蚀变遥感信息

2023-08-24 18:29:21
共1条回复
tt白

李昌国 张玉君

(地矿部航空物探遥感中心,北京)

摘要:通过图像影像特征分析,并经地面调查证实,澜沧江兰坪地区铜矿化蚀变与围岩存在反射波谱特性差异,即在TM5(近红外)波段(1.55μm~1.75μm)蚀变岩呈高反射率。以此为依据,进行了提取与铜矿化蚀变相关的TM遥感信息的计算机图像处理技术方法研究。实践证明,该区主分量分析处理图像效果最佳。图像上显示的色调异常,通过与红土涧矿区地质勘查资料对比和根据兰坪地区图像上典型地物样区色调理论分析。评价了遥感异常的地质意义。由于图像预处理(几何校正、亮度拉伸、多元统计,最佳波段组合选择等)是针对澜沧江兰坪全区的特征进行的,故处理方法在全区内均有一定适用性。本文综合公式2、图4、表4、彩版附图11(5)等实际材料较详细地介绍了有关提取铜矿化蚀变遥感色调异常信息的方法技术。

关键词:主分量分析 澜沧江兰坪地区 铜矿化蚀变 遥感信息

一、问题的提出

随着航天遥感资料在地学领域应用的逐步深入,根据内生金属矿床热液蚀变产物的光谱特征,通过TM数据计算机图像处理,提取与矿化蚀变相关的遥感色调异常信息,引导勘查金属矿床,在国内外已引起极为广泛的关注[1][5]。1992年春,李昌国同志在进行部直科定91—39号云南省兰坪—云龙找钾研究项目的野外考察时,对该地一些铜矿点周围的特殊地质地貌特征产生了浓厚兴趣,如彩版附图11(1)摄于红土涧地区,在该彩片上左下角和右上角部位均依稀可辨出民采铜矿硐,其周围植被稀疏,残坡积物和土壤颜色较外围地区变浅、变黄、变红,而且规模甚大,景观特征明显,肉眼即能观察到,但该区山高、坡陡、谷深,交通不便,地质工作程度较低,因而萌生了研究从TM数据提取与铜矿化蚀变相关的遥感信息(可简称铜矿化蚀变遥感信息)的想法。

为此,根据该区22件岩矿标本波谱曲线,研究了铜矿化蚀变岩矿的波谱特性;选用1990年12月20日收录的TM7数据进行了图像处理,在图像上选择典型地物样区,分析了典型地物反射波谱特征,并以此为依据,通过多次试验,对用主分量分析法提取铜矿化蚀变遥感信息进行了探讨;对澜沧江流域兰坪盆地西缘从小格拉至金满一带面积约944km2的区域及宝丰、温井、乔后、顺荡井、师井、红土涧等子区TM图像进行了以主成分分析为主的图像处理,获得了可供参考的反映矿化蚀变的异常图像,其中红土涧子区得到814队同期地质工作的证实。

李昌国同志对此工作十分投入,在1993年置数次咯血而不顾,坚持野外考察,无情的癌魔迫使他于1994年春中断了这项正在进行的卓有成效的研究,除红土涧子区外,其他子区均未来得及实地验证。李昌国同志不幸谢世后,笔者根据他遗留下来的大量记录、图像及未竟的报告手稿,以红土涧子区为例,整理成本文,供交流参考,其他子区所获得图像不能一一刊载,但可通信交流。该区图像的地质解译尽管还有待深化,但所研究的十分珍贵的方法经验若能被借鉴,将是对亡灵的告慰。

二、地质背景

试验区位于云南澜沧江流域兰坪盆地西缘小格拉至金满一带。本区构造上属三江构造带,西侧有一条古板块缝合线——长期活动的澜沧江深断裂,纵贯南北。本区曾经历了华力西、印支、燕山、喜山多期构造运动,致使褶皱、断裂、岩浆岩十分发育,并形成一批沉积、内生金属矿床[2]。特别是中晚三叠纪时,沿澜沧江断裂发生大规模中性岩浆(安山岩)喷发,与该区铜矿的形成具有密切的关系。

目前发现的铜矿化主要集中分布于中三叠统上兰组、中侏罗统花开左组及下白垩统南新组层位中。铜矿体呈脉状、透镜状、似层状,大部分矿化均伴有硅化、铁白云石化等热液蚀变。该区由于山陡谷深,地表切割严重,基岩出露良好,矿化蚀变带广泛分布,其残坡积物分布更广,植被又常较稀疏,给开展遥感地质勘查创造了一定条件。

该区地质工作程度较低,目前仅评价完一处中型铜矿床(金满),因此,利用遥感信息圈定找矿靶区,对缩小勘查范围、加速勘查进程具有十分重要意义。

三、岩矿样品采集及反射波谱测定

为了研究利用TM数据提取铜矿化蚀变遥感色调异常信息的可能性和依据,在区内采集了岩矿石标本22件,用IRIS型波谱测试仪测定了这些标本的反射波谱,并按TM波段计算平均反射率。现将有代表性的7种岩性标本的反射率数据列入表1,并绘成曲线图1。

表1 典型岩矿石TM各波段平均反射率统计表(单位:%)

续表

注: 平均反射率;δ—方差

图1 区内典型岩矿石波谱平均反射率曲线(曲线编号及其标本岩性均见表1)

根据反射波谱特征,该区岩矿石反射波谱曲线大体上可分为三大类:第一类(波谱曲线编号1、2、3)为含铜矿化岩石(铜矿石)反射波谱曲线,其特征是:在TM1—TM4波段反射率变化不大,在TM5波段反射率最高,而在TM7又下降了约1/4,许多文献[1]均将此现象解释为由于羟基(OH)、 在矿化带及蚀变带中广泛存在,而OH 对TM7(2.08μm一2.35μm)波段电磁波有较强吸收,故矿化蚀变带的TM7亮度值较低。第二类为火成岩或沉积岩的反射波谱,其特征表现为反射率较低,且无明显反射峰,与矿化岩石标本反射波谱区别鲜明。第三类为铁染或硅化石英砂岩的反射波谱曲线(图1中4、5号曲线),特征是反射率从TMI至TM5逐渐增高,TM7波段略有下降,其TM1反射率较第一类为低,可能是由于Fe离子对0.45μm波段电磁波的强收吸所造成。

以上三类岩矿石反射波谱曲线特征说明,铜矿化蚀变岩与正常岩石反射光谱有一定差异,这就是利用遥感数据来提取铜矿化蚀变信息,并指导寻找铜矿的依据。

四、TM图像预处理

为有效地对图像上代表性地类样区进行波谱分析和找矿信息提取,图像首先需进行一系列预处理,如几何校正、亮度值动态范围拉伸、合成图像波段最优组合选择、比例尺计算等。而且为了便于对兰坪—云龙全区进行拼图和各地类亮度值对比以及重复某些数值运算,预处理是针对全区特征进行的。

从北京卫星地面站1990年12月20日收录的七个波段TM数据选取了兰坪—云龙全区范围(约3072×4096像素,相当于6×8帧512像素×512像素的子区范围)的图像。以地形图作为控制,对图像进行几何校正。然后统计全区图像范围内每一波段像元亮度的最小值和最大值,将各波段的亮度值分别进行线性扩展,拉伸到0~255;再将经过几何校正和扩展拉伸的七个独立波段TM数据,形成七个波段TM图像数据文件。以此为源,再截取出1个兰坪幅(1024像素×1024像素)七波段基础图像文件,做为重点研究图像。

为了获得一幅含有最大信息量、波段之间信息相关性最小、显示效果最佳的三波段彩色合成图像,利用式(1)中的组合相关因子Q做为选择最优波段组合的尺度和依据,通过求出组合相关因子Q的最大值来进行最优波段组合选择。

张玉君地质勘查新方法研究论文集

式中,Si为i波段方差或离差,也称为变异;ri为波段间的相关系数。

利用式(1)计算,选择的澜沧江兰坪幅TM彩色合成图像最优三波段组合为TM5、TM4、TM3或TM4、TM5、TM7两种方案。

本工作采取逐步提高研究详细程度的方法,逐级截取并放大图像,从澜沧江兰坪全区图像(彩版附图11(5))截取兰坪幅子区图像(彩版附图11(3));从兰坪幅子区截取拉井幅亚子区:再从拉井幅亚子区图像中截取红土涧幅小子区(彩版附图11(4))。其比例尺也逐级增大。

五、主要地类影像亮度值特征分析

从比例尺为1∶20万的兰坪幅TM4(R)、TM5(G)、TM7(B)彩色合成图像上,选取了11个地类影像样区(其位置见彩版附图11(3))。每一地类样区像元亮度值,按样区内全部像元亮度值平均求得,并做成图2。

从图2可见,其中4号、5号、6号曲线,形态与图1中的第一类岩矿石反射光谱曲线十分相似,即TM5呈反射峰,TM7略下降,这三条曲线样区对应地面岩石均有不同程度的矿化蚀变,所不同的是在TM4处形态有所变化,如曲线6样区对应于地面红土涧铜矿点,且地表有一定植被覆盖(见彩版附图11(1)左下角),由于植被的近红外波段“陡坡效应”引起TM4亮度值变化,且TM4亮度值较4、5号曲线高,而TM3亮度值则较5号曲线低,这就是植被干扰所致。图2中9号和11号曲线,呈现十分典型的植物反射波谱特征,这两条曲线样区对应于地面稠密茂盛的植被区,但是两条曲线各波段亮度值高低仍有差别,可能植被类型尚有一定差别。图2中10号和3号曲线,其影像样区对应地面均为泥灰岩,但分别处于地面的阴坡和阳坡部位,故亮度值有高低之分,但在

图2 兰坪地区几种岩石及植被样区的TM亮度值曲线(亮度值是经过拉伸的)

1—白村—羊村附近J3泥岩;2—松登附近K2泥岩、粉砂岩;3—羊村附近J2泥灰岩;4—裸露红层,无植被覆盖;5—浅色矿化石英砂岩;6—红土涧矿区铜矿化蚀变白云质灰岩,有少量植被;7—拉井ZK2附近的Ey红层;8—洋芋山附近T3火山碎屑岩;9—茂盛植被覆盖区;10—吉祥附近J2泥灰岩;11—茂盛植被覆盖区

TM4处均呈弱反射峰。图2中1号和2号曲线呈高亮度值特征,TM3呈反射峰,TM4呈吸收谷,该曲线样区对应地面岩类为泥岩、粉砂岩。图2中8号和7号曲线亮度值偏低,曲线平缓,这两条曲线样区对应地面岩类为火山碎屑岩和红色含盐地层。以上特征构成提取铜矿化蚀变信息的依据。

六、铜矿化蚀变遥感信息提取

遥感技术虽然具有获取信息宏观概括性强,且覆盖面积大和可定期重复观测等优点。但是,直接指示矿床或矿体产出的例子却非常罕见。这首先因为地质成矿过程是极其复杂的,其次由于当前遥感技术的空间和波谱分辨率还有限。以致遥感数据反映的矿产信息常常十分微弱,背景地质信息却非常强,因此提取矿产信息就成为遥感地质的首要任务和难题,而且试图建立一种数学公式(简单的或复杂的),通过计算机对遥感图像进行处理,达到提取矿化信息的目的,常常亦不能奏效。我们曾采用图像处理技术中常用的累试法,通过比值法、彩色座标系变换、非监督分类、六个波段或七个波段KL转换(即主分量分析)等[4]试图突山TM数据中所包含的微弱矿化遥感信息,效果均不佳。最后较成功地利用四波段(TM1-TM4-TM5-TM7及TM1-TM3-TM4-TM5两种组合)主分量分析方法提取了铜矿化蚀变遥感信息。

6.1 KL变换

主分量分析在图像处理技术中,即是通过KL变换来实现的。众所周知,通常几乎每一种多元分析法都要求对复杂的问题进行简化,即以牺牲一些信息为代价,来降低复杂集合的维数,或者说通过变换,舍弃一些次要参数,达到“从树木看森林”的目的[3]。尽管在数学上,主分量分析的定义及运算是严格的,但TM数据KL转换结果反映的地质意义却是十分复杂的,排列在前面的主分量反映的是广泛分布的地层、岩性、构造、植被等地物信息,而序号大的主分量则反映某些宏观上较次要的信息。通过研究发现数个地区矿化蚀变信息常常包含在这些次要信息之中。因此本文采用的主分量分析方法不同于常规的以压缩维数来突出主要信息为目的的主分量分析;而是采取避开主要信息,利用微弱的次要分量信息的途径,并探究其特殊的地质含义的方法,因此不是采用“从树木看森林”的思路,而采用“从树叶变化看虫害”的思路。

表2 KL变换特征值及特征向量

具体做法是对图像进行KL变换。各主分量与原波段像元亮度值的线性相关系数就是统计所得本征向量的各分量,各主分量的相对变异即是统计所得之本征值,对澜沧江兰坪地区两幅1024像元×1024像元四波段图像,TM1、TM4、TM5、TM7和TM1、TM3、TM4、TM5分别进行了 KL变换,以TM1、TM3、TM4、TM5数据的变换结果之地质意义更易阐明,虽然从最优组合角度来看,TM1、TM4、TM5、TM7组合所包含的信息量更大,但这一组合中没有TM3,而TM3对于压制植被影响有特殊意义。澜沧江兰坪地区TM1、TM3、TM4、TM5四个波段像元亮度值KL变换统计结果见表2,第一至第四主分量所含信息量分别为:87%、9.7%、2.8%和0.5%。

6.2 异常图像成图

由于本次研究目的主要是研究在主分量分析结果中那些序号大,而信息量占次要地位的分量之地质意义,一般异常信息多包含在第四(KL P4)、第三(KL P3)分量中,它们与各TM波段像元亮度值的线性函数关系如式(2):

张玉君地质勘查新方法研究论文集

故异常图像采用彩色合成方法形成,即采用KL P4(R)、KL P3(G)与TM3/TM4(B)进行彩色合成。彩版附图11(3)即是从澜沧江兰坪异常图像中截取出的兰坪幅子区图像。TM3/TM4(R34)比值的意义在于减少地形影响及压制植被干扰,彩色合成时将其赋予蓝色,对衬托地质总背景有利。KL P4、KL P3信息构成虽明确,但其地质意义却并不直观,根据各地类影像样区彩色合成的色彩理论计算,可以判断各类色调的地质意义,并进一步结合实地查证结果,对异常图像的各色调作出定性评价。

6.3 典型地物样区彩色合成色调理论计算

按(2)式计算兰坪地区各典型地物样区TM1、TM3、TM4、TM5四个波段像元亮度值的KL P4、KL P3,KL P2(见表3)。

根据表3列出的P4(R)、P3(G)、R34(B)的数据,可以大致估计各样区在彩色合成图像上应呈现的色调。再将以上样区在1:20万兰坪地区遥感色调异常图像(彩版附图11(3))上标出,正如预计的那样,其色调基本与表3中理论推测的色调吻合,因此可以判断该图上,红色、紫红色调可解译为铜矿化蚀变异常区;黄、绿色调主要属植被和泥灰岩分布区,其他各岩性呈现白、青、蓝色调(表3)。

表3 各样区TM图像KL变换主分量值和TM3/TM4一览表

6.4 红土涧子区的初步地质验证

从彩版附图11(3)图像上截取红土涧子区(128像素×128像素)并放大四倍,获1∶5万红土涧子区异常图像(彩版附图11(4))。经对比研究,云南814队填制的1∶5万地质简图(图3)中的Ⅲ、Ⅳ、V号浅色铜矿化层均落入彩版附图11(4)的深红色区,其中Ⅳ号浅色铜矿化层为本矿区主要矿层,长约1000m,平均厚2.34m,平均品位2.14%,最高达6.12%,地表可见孔雀石、蓝铜矿、黑铜矿、斑铜矿、辉铜矿等矿物,以浸染状、晕散状、薄膜状和细脉状产于浅色石英砂岩粒间及裂隙中,含矿层内矿化连续性较好。Ⅳ号浅色铜矿化层长度、厚度均大于Ⅲ号,但铜矿化差,品位低,仅为0.02%~0.04%,地表局部可见少量蓝铜矿、孔雀石等。V号铜矿化层处于层间破碎带中,长650m,宽40m左右,品位在2.08%~12.77%之间。深部主要铜矿物以辉铜矿为主,地表则以孔雀石、蓝铜矿、黑铜矿为主,矿体呈脉状、豆荚状、串珠状及似层状。

表4 异常吻合率

图3 云南省兰坪县拉井(红土涧)铜矿地质简圈

点划线方框为红土涧子区铜矿化、蚀变遥感色调异常图像(彩版附图11(4))对应位置(据814队资料)

1—古新统果郎组;2—始新统云龙组;3—上白垩统曼宽河组;4—下白垩统南新组;5—上侏罗统坝注路组;6—中侏罗统花开左组;7—背斜轴;8—正断层;9—逆断层;10—性质不明断层;11—铜矿层;12—浅色层(铜矿化)

Ⅰ号浅色铜矿化层部分与异常图像上的淡玫瑰色调区吻合,该矿化层品位较低,为0.27%~0.8%,且矿化不连续,地表断续可见孔雀石、蓝铜矿等铜矿物。

Ⅱ号浅色调矿化层及部分I号矿化层在彩版附图11(4)上无紫红色调异常显示,可能是受到山体阴影掩盖,尚待进一步研究。

此外,在彩版附图11(3)黄色方框内的东北角有一块三角形深玫瑰色调区,对应地质图为拉马山北(已超出图3范围)地区,814队追踪到含铜浅色层两层,共长2400m,厚4m~4.2m,品位为0.31%~1.71%,该矿化层在异常图像上也有玫瑰红色色调异常反映。

根据色调异常分布与铜矿化层面积对比统计,两者吻合率见表4。

从表4可知,红土涧矿区地质勘查结果与遥感色调异常的吻合率为89.3%。但对有异常而无矿化的问题未进行统计研究,显然异常范围是大于矿化范围的,此问题十分复杂,目前由于未能对异常逐一查证和研究,故两者吻合程度尚有待进一步探讨。但一般地说,对于预测不能像勘查那样要求,期待预测结果完全准确,正如任何一种物探信息的多解性一样。

综上所述,可以有依据地认为,利用主分量分析在澜沧江兰坪地区提取铜矿化蚀变遥感信息是可行的,有效性甚高。

七澜沧江兰坪异常图像的改进

在制作1024像素×1024像素澜沧江兰坪地区异常改进图像(彩版附图11(5))时,进行了双重KL变换,目的是为了进一步减少第一次KL变换P3、P4分量间的相关性,起到“提纯”异常的作用,取TM6的负值做为地质背景的衬托。即分别对TM1、TM3、TM4、TM5四个波段和TM1、TM4、TM5、TM7四个波段进行KL变换,然后分别从获得的主分量中选取P3、P4两个主分量再进行KL变换,各又获得两个主分量(PP1、PP2),从TM1、TM3、TM4、TM5双重KL变换获得的两个主分量中选取PP2,从TM1、TM4、TM5、TM7双重 KL变换获得的两个主分量中选取PP1,和TM6一起分别赋予R、B、G,进行假彩色合成,生成澜沧江地区兰坪异常图像(彩版附图11(5),其处理流程如下图:

图4 澜沧江兰坪地区TM异常图像处理流程图

两种波段组合双重KL变换所得主分量本征值及本征向量见表2、表5、表6、表7。

表5 TM1、TM3、TM4、TM5二次KL变换特征值

表6 KL变换特征值及特征向量

表7 TM1、TM4、TM5、TM7二次KL变换特征值

彩版附图11(5)上的红色调的地质意义在6.4和6.3节中已有详细讨论。它也是铜矿化蚀变遥感信息。彩版附图11(5)上黄色调是PP与TM6取负后的高值区的合成色调,也就是与低温区有关的色调,主要反映山的阴坡信息,由于6.4一节讨论山体阴坡铜矿化异常实例较少,故尚不能充分肯定黄色调也是铜矿化蚀变信息的显示。彩版附图11(5)上绿色背景(-TM6)色调衬托地质地形概貌,由于彩色合成将TM1、TM4、TM5、TM7 KL变换后的第三、四分量,再做二次KL变换,获得的第一主分量(PP1),赋于蓝色,故判断彩版附图11(5)上蓝色调主要反映泥岩信息(根据6.4、6.3节阐述的原理)。

通过以上讨论,我们感兴趣的主要是异常图像上的红色调异常。这些红色调异常主要反映铜矿化蚀变信息,它们主要沿澜沧江横断裂延伸呈羽状集群展布。这些异常直观地显示了铜矿化蚀变区面积的大小,它与矿脉或矿层出露规模成正相关。彩版附图11(5)上还标出了一些地名代号,便于与地理、地质图对比。由于该图是压缩显示,零散的异常点也有所丢失,若以四幅拼接或放大扫描输出就更清晰了。除金满(彩版附图11(5)上代号11,下同)和红土涧(15)为已知矿床外,在象鼻村(3)、科登涧(4)、岩头(5)、温登(6)、下屋罗—新华(8)、萤娥(10)、计夺鸡(12)、元宝山—孝金窝(13)、羊村—白村(16)等地附近所显现的红色调异常,也可能预示有铜矿化存在。

地质研究对象无比复杂、变化无穷,矿化蚀变信息相对又十分微弱;试想用某一种或几种数学(图像处理技术)方法进行运算,从而得出充分的具普遍意义的解,是超越当前科技水平的。但是我们仍然可以针对某些特定的地区,简化问题,寻找出一组适当的图像处理技术(数学工具)将微弱的矿化蚀变信息相对纯净地提取出米。

本文得到本中心丁群同志的宝贵意见,云南遥感站张昕、814地质队李金星和刘基富等同志曾参与图片解译、计沦,特此致谢。

参考文献

[1]刘燕君等.东坪式金矿盲矿矿体的多元信息预测研究,国土资源遥感,1994,(1):15~22

[2]肖荣阁等.云南中新生代地质与矿产.北京:海洋出版社,1993

[3]M.肯德尔等.多元分析.北京:科学出版社,1983

[4]Zhang Yu-Jun.Digital inaage processing of airborne radiometric and magnetic datafrom central Chaidamu Basin.UAS:Tulsa,An Overview of Exploration Geophysics in China.American Society of Exploration Geophysics,1989,517-535

[5]M.P.Ekstrom.Digital Image Processing Techniques.USA:Academic Press,Inc,1984

A STUDY FOR EXTRACTION OF THE Cu-MINERALIZA-TION ALTERATION INFORMATION IN LANCANGJIANG-LANPING REGION BY PRINCIPLE COMPONENT ANALYSIS OF REMOTE SENSING DATA

Li Chang guo,Zhang Yu jun

(MGMR,Centerfor Aero Geophysics ond Remote Sensing,Beijing,100083)

Abstract It was confirmed by sampling in site and on image, that there are anomalous characteristics of spectra(high reflection in NIR TM51.55μm-1.75um)in the Lancangjiang Lanping Region.It provides the scientific basis for the experimental research of image processing techniques for extraction of the TM RS information,related to the Cu-mineralization and alteration.The best results were got by the principle component analysis.The geologic nature of the anomalies was evaluated by comparison with the geological work in Hong tujian area and by the theoretical calculation of the image sampling.Becuse of the fact, that the image preprocessing(the geometric restoration, the brightness scaling, the multivariate statistics, the optimized choice of TM channels etc.)was accomplished for the whole region uniformly.So it is reasonable to consider, that the obtained processing technique is also applicable for the whole region.And this paper describes it withfull and accurate table(4),formulas(2), graphics(4)and colour images(5).

Key words Principle component analysis,Lancangjiang Lanping region, Cu mineralization alteration Remote sensing information

原载《国土资源遥感》,1997,No.1。

相关推荐

主成分分析法原理

主成分分析法原理如下:主成分分析, 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。主成分分析首先是由K.皮尔森(Karl Pearson)对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法。
2023-08-18 03:06:301

主成分分析的基本思想

主成分分析的基本思想介绍如下:主成分分析的原理是设法将原来变量重新组合成一组新的相互无关的几个综合变量,同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。主成分分析的主要作用1.主成分分析能降低所研究的数据空间的维数。2.有时可通过因子负荷aij的结论,弄清X变量间的某些关系。3.多维数据的一种图形表示方法。4.由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。5.用主成分分析筛选回归变量。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Va(rF1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。拓展:主成分分析是指通过将一组可能存在相关性的变量转换城一组线性不相关的变量,转换后的这组变量叫主成分。主成分分析步骤:1、对原始数据标准化,2、计算相关系数,3、计算特征,4、确定主成分,5、合成主成分。
2023-08-18 03:06:541

主成分分析和因子分析是什么?

主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。主成分分析,是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关.通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。主成分分析和因子分析的不同:1、原理不同:主成分分析是利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个不相关的综合指标(主成分),即每个主成分都是原始变量的线性组合,使得主成分比原始变量具有某些更优越的性能,从而达到简化系统结构,抓住问题实质的目的。而因子分析更倾向于从数据出发,描述原始变量的相关关系,是由研究原始变量相关矩阵内部的依赖关系出发,把错综复杂关系的变量表示成少数的公共因子和仅对某一个变量有作用的特殊因子线性组合而成。2、线性表示方向不同:主成分分析中是把主成分表示成各变量的线性组合,而因子分析是把变量表示成各公因子的线性组合。3、假设条件不同:主成分分析不需要有假设条件;而因子分析需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子之间也不相关,共同因子和特殊因子之间也不相关。
2023-08-18 03:07:161

主成分分析的原理

在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法。
2023-08-18 03:07:351

主成分分析法

在对灾毁土地复垦效益进行分析时,会碰到众多因素,各因素间又相互关联,将这些存在相关关系的因素通过数学方法综合成少数几个最终参评因素,使这几个新的因素既包含原来因素的信息又相互独立。简化问题并抓住其本质是分析过程中的关键,主成分分析法可以解决这个难题。(一)主成分分析的基本原理主成分分析法(Principal Components Analysis,PCA)是把原来多个变量化为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理方法,即通过对原始指标相关矩阵内部结果关系的研究,将原来指标重新组合成一组新的相互独立的指标,并从中选取几个综合指标来反映原始指标的信息。假定有n个评价单元,每个评价单元用m个因素来描述,这样就构成一个n×m阶数据矩阵:灾害损毁土地复垦如果记m个因素为 x1,x2,…,xm,它们的综合因素为 z1,z2,…,zp(p≤m),则:灾害损毁土地复垦系数lij由下列原则来决定:(1)zi与zj(i≠j,i,j=1,2,…,p)相互无关;(2)z1是x1,x2,…,xm的一切线性组合中方差最大者,依此类推。依据该原则确定的综合变量指标z1,z2,…,zp分别称为原始指标的第1、第2、…、第p个主成分,分析时可只挑选前几个方差最大的主成分。(二)主成分分析法的步骤(1)将原始数据进行标准化处理,以消除原始数据在数量级或量纲上的差异。(2)计算标准化的相关数据矩阵:灾害损毁土地复垦(3)用雅克比法求相关系数矩阵R的特征值(λ1,λ2,…,λp)和与之相对应的特征向量 αi=(αi1,αi2,…,αip),i=1,2,…,p。(4)选择重要的主成分,并写出其表达式。主成分分析可以得到P个主成分,但是由于各个主成分的方差与其包含的信息量皆是递减的,所以在实际分析时,一般不选取P个主成分,而是根据各个主成分所累计的贡献率的大小来选取前K个主成分,这里的贡献率是指某个主成分的方差在全部方差中所占的比重,实际上也是某个特征值在全部特征值合计中所占的比重。即:灾害损毁土地复垦这说明,主成分所包含的原始变量的信息越强,贡献率也就越大。主成分的累计贡献率决定了主成分个数K的选取情况,为了保证综合变量能包括原始变量的绝大多数信息,一般要求累计贡献率达到85%以上。另外,在实际应用过程中,选择主成分之后,还要注意主成分实际含义的解释。如何给主成分赋予新的含义,给出合理的解释是主成分分析中一个相当关键的问题。一般来说,这个解释需要根据主成分表达式的系数而定,并与定性分析来进行有效结合。主成分是原来变量的线性组合,在这个线性组合中各变量的系数有正有负、有大有小,有的又大小相当,因此不能简单地把这个主成分看作是某个原变量的属性作用。线性组合中各变量系数的绝对值越大表明该主成分主要包含了该变量;如果有几个大小相当的变量系数时,则认为这一主成分是这几个变量的综合,而这几个变量综合在一起具有什么样的实际意义,就需要结合具体的问题和专业,给出合理的解释,进而才能达到准确分析的目的。(5)计算主成分得分。根据标准化的原始数据,将各个样品分别代入主成分表达式,就可以得到各主成分下的各个样品的新数据,即为主成分得分。具体形式可如下:灾害损毁土地复垦(6)依据主成分得分的数据,则可以进行进一步的统计分析。其中,常见的应用有主成分回归,变量子集合的选择,综合评价等。(三)主成分分析法的评价通过主成分分析法来评价复垦产生的效益,可将多个指标转化成尽可能少的综合性指标,使综合指标间互不相干,既减少了原指标信息的重叠度,又不丢失原指标信息的总含量。该方法不仅将多个指标转化成综合性指标,而且也能对每个主成分的影响因素进行分析,从而判别出影响整个评价体系的关键因素,并且主成分分析法在确定权重时可以科学地赋值,以避免主观因素的影响。需要注意的是,主成分分析法虽然可以对每个主成分的权重进行科学、定量的计算,避免人为因素及主观因素的影响,但是有时候赋权的结果可能与客观实际有一定误差。因此,利用主成分分析法确定权重后,再结合不同专家给的权重,是最好的解决办法。这样可以在定量的基础上作出定性的分析,通过一定的数理方法将两种数据结合起来考虑。
2023-08-18 03:07:521

主成分分析法适用于哪些问题?

主成分分析法适用于人口统计学、数量地理学、分子动力学模拟、数学建模、数理分析等问题,是一种常用的多变量分析方法。主成分分析作为基础的数学分析方法,其实际应用十分广泛。主成分分析,是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量或因素,因为每个变量都在不同程度上反映这个课题的某些信息。主成分分析法原理在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,将重复的变量关系紧密的变量删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法。
2023-08-18 03:08:261

主成分分析法(PCA)

3.2.2.1 技术原理主成分分析方法(PCA)是常用的数据降维方法,应用于多变量大样本的统计分析当中,大量的统计数据能够提供丰富的信息,利于进行规律探索,但同时增加了其他非主要因素的干扰和问题分析的复杂性,增加了工作量,影响分析结果的精确程度,因此利用主成分分析的降维方法,对所收集的资料作全面的分析,减少分析指标的同时,尽量减少原指标包含信息的损失,把多个变量(指标)化为少数几个可以反映原来多个变量的大部分信息的综合指标。主成分分析法的建立,假设xi1,xi2,…,xim是i个样品的m个原有变量,是均值为零、标准差为1的标准化变量,概化为p个综合指标F1,F2,…,Fp,则主成分可由原始变量线性表示:地下水型饮用水水源地保护与管理:以吴忠市金积水源地为例计算主成分模型中的各个成分载荷。通过对主成分和成分载荷的数据处理产生主成分分析结论。3.2.2.2 方法流程1)首先对数据进行标准化,消除不同量纲对数据的影响,标准化可采用极值法 及标准差标准化法 ,其中s= (图3.3);图3.3 方法流程图2)根据标准化数据求出方差矩阵;3)求出共变量矩阵的特征根和特征变量,根据特征根,确定主成分;4)结合专业知识和各主成分所蕴藏的信息给予恰当的解释,并充分运用其来判断样品的特性。3.2.2.3 适用范围主成分分析不能作为一个模型来描述,它只是通常的变量变换,主成分分析中主成分的个数和变量个数p相同,是将主成分表示为原始变量的线性组合,它是将一组具有相关关系的变量变换为一组互不相关的变量。适用于对具有相关性的多指标进行降维,寻求主要影响因素的统计问题。
2023-08-18 03:08:421

PCA主成分分析原理

在多点地质统计学中,数据样板构成了一个空间结构,不同方向节点就是一个变量。一个数据事件就是由众多变量值构成的整体。在进行数据事件相似性计算与比较时,需要逐点计算其差异;在进行聚类时亦要对所有数据事件进行比较,导致计算效率非常低下。因此很有必要挖掘数据事件内部结构,将其变量进行组合,求取特征值,并用少量特征值完成数据事件的聚类,有效提高储层建模效率。因此,PCA主成分分析被引入到多点地质统计学中。主成分分析(Pirncipal Component Analysis,PCA)是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。PCA的目标是寻找r(r<n)个新变量,使它们反映事物的主要特征,压缩原有数据矩阵的规模。每个新变量是原有变量的线性组合,体现原有变量的综合效果,具有一定的实际含义。这r个新变量称为“主成分”,它们可以在很大程度上反映原来n个变量的影响,并且这些新变量是互不相关的,也是正交的。通过主成分分析,压缩数据空间,将多元数据的特征在低维空间里直观地表示出来。假设x=[x1,x2,…,xp]′是一个p维的随机向量,它遵从正态分布x~N(u,σ2)。导出主成分的问题就是寻找x的线性函数a′x,并使a′x的相应的方差最大。多点地质统计学原理、方法及应用因此,在代数上就是寻找一个正交矩阵a,使a′a=1,并使方差:多点地质统计学原理、方法及应用设矩阵A的特征值为λ1≥λ2≥…≥λp≥0对应λi的特征向量记为ui,令Up×p=多点地质统计学原理、方法及应用则U是正交矩阵,即UU′=I,由于A是实对称矩阵,所以有多点地质统计学原理、方法及应用故多点地质统计学原理、方法及应用当a=u1时,多点地质统计学原理、方法及应用因此,当a=u1时,就满足了方差最大的要求,等于相应的特征值λ1。同理,可推广到一般:多点地质统计学原理、方法及应用并且协方差为多点地质统计学原理、方法及应用这就是说,综合变量的系数aj是协方差矩阵A的特征值λj对应的特征向量ju,综合变量Fj的重要性等同于特征值λj,这样,就可以用少数几个变量来描述综合变量的性质。
2023-08-18 03:08:521

什么是利用加权主成分分析法来描述

利用加权主成分分析法描述两个或多个。主成分分析法原理如下:主成分分析,是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。主成分分析首先是由K·皮尔森(Karl Pearson)对非随机变量引入的,尔后H·霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。
2023-08-18 03:09:211

主成分分析法与因子分析法的区别?

主成分分析和因子分析都是信息浓缩的方法,即将多个分析项信息浓缩成几个概括性指标。因子分析在主成分基础上,多出一项旋转功能,该旋转目的即在于命名,更容易解释因子的含义。如果研究关注于指标与分析项的对应关系上,或是希望将得到的指标进行命名,SPSSAU建议使用因子分析。主成分分析目的在于信息浓缩(但不太关注主成分与分析项对应关系),权重计算,以及综合得分计算。如希望进行排名比较,计算综合竞争力,可使用主成分分析。SPSSAU可直接使用这两种方法,支持自动保存因子得分及综合得分,不需要手动计算。
2023-08-18 03:09:473

主成分分析和层次分析法的区别是什么?

层次分析法:主成分分析和层次分析两者计算权重的不同,AHP层次分析法是一种定性和定量的计算权重的研究方法,采用两两比较的方法,建立矩阵,利用了数字大小的相对性,数字越大越重要权重会越高的原理,最终计算得到每个因素的重要性。主成分分析(1)方法原理及适用场景主成分分析是对数据进行浓缩,将多个指标浓缩成为几个彼此不相关的概括性指标(主成分),从而达到降维的目的。主成分分析可同时计算主成分权重及指标权重。(2)操作步骤使用SPSSAU【进阶方法-主成分分析】。如果计算主成分权重,需要用到方差解释率。具体加权处理方法为:方差解释率除累积方差解释率。比如本例中,5个指标共提取了2个主成分:主成分1的权重:45.135%/69.390%=65.05%主成分2的权重:24.254%/69.390%=34.95%如果是计算指标权重,可直接查看“线性组合系数及权重结果表格”,SPSSAU自动输出了各指标权重占比结果。其计算原理分为三步:第一:计算线性组合系数矩阵,公式为:loading矩阵/Sqrt(特征根),即载荷系数除以对应特征根的平方根;第二:计算综合得分系数,公式为:累积(线性组合系数*方差解释率)/累积方差解释率,即上一步中得到的线性组合系数分别与方差解释率相乘后累加,并且除以累积方差解释率;第三:计算权重,将综合得分系数进行归一化处理即得到各指标权重值。
2023-08-18 03:10:021

主成分分析法介绍

1、主成分分析(PrincipalComponentAnalysis,PCA),是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。2、在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。3、主成分分析首先是由K.皮尔森(KarlPearson)对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。
2023-08-18 03:10:161

因子分析法和主成分分析法的区别与联系是什么?

因子分析与主成分分析的异同点:都对原始数据进行标准化处理; 都消除了原始指标的相关性对综合评价所造成的信息重复的影响; 构造综合评价时所涉及的权数具有客观性; 在信息损失不大的前提下,减少了评价工作量公共因子比主成分更容易被解释; 因子分析的评价结果没有主成分分析准确; 因子分析比主成分分析的计算工作量大 主成分分析仅仅是变量变换,而因子分析需要构造因子模型。主成分分析:原始变量的线性组合表示新的综合变量,即主成分;因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。
2023-08-18 03:10:262

如何用主成分分析法确定指标权重?

您知道怎么做了吗、我现在也遇到了系数为负,该如何归一化的问题~~·
2023-08-18 03:10:343

因子分析和主成分分析区别

主成分分析:主成分分析可以简单的总结成一句话:数据的压缩和解释。常被用来寻找判断某种事物或现象的综合指标,并且给综合指标所包含的信息以适当的解释。在实际的应用过程中,主成分分析常被用作达到目的的中间手段,而非完全的一种分析方法。这也是为什么SPSS软件没有为主成分分析专门设置一个菜单选项,而是将其归并入因子分析。因子分析:鉴于主成分分析现实含义的解释缺陷,统计学斯皮尔曼又对主成分分析进行扩展。因子分析在提取公因子时,不仅注意变量之间是否相关,而且考虑相关关系的强弱,使得提取出来的公因子不仅起到降维的作用,而且能够被很好的解释。因子分析与主成分分析是包含与扩展的关系首先解释包含关系。在SPSS软件“因子分析”模块的提取菜单中,提取公因子的方法很多,其中一种就是主成分。由此可见,主成分只是因子分析的一种方法。其次是扩展关系。因子分析解决主成分分析解释障碍的方法是通过因子轴旋转。因子轴旋转可以使原始变量在公因子(主成分)上的载荷重新分布,从而使原始变量在公因子上的载荷两级分化,这样公因子(主成分)就能够用哪些载荷大的原始变量来解释。以上过程就解决了主成分分析的现实含义解释障碍。
2023-08-18 03:11:011

专栏三: 重点骨干矿山的确定方法与应用

重点骨干矿山是指在众多矿山中具有支柱地位和在国民经济中占有重要地位的矿山。因此,在筛选重点骨干矿山时,以矿山规模、年产矿量和年销售收入三个指标作为衡量依据。一、主成分分析原理在社会经济的研究中,为了全面系统地分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究对象的特征,但指标在某种程度上存在信息的重叠,具有一定的相关性。主成分分析试图在力保数据信息丢失最少的原则下,对这种多变量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。即研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变量各方面的信息。这些综合指标就称为主成分。主成分分析的主要步骤如下:假设有p个指标,即p个随机变量,记为X1,X2,…,Xp,主成分分析就是要把这p个指标的问题转变为讨论p个指标的线性组合的问题,而这些新的指标F1,F2,…,Fk(k≤p)按照保留主要信息量的原则,充分反映原指标的信息,并且相互独立。这种由讨论多个指标降为少数几个综合指标的过程,在数学上就叫做降维。主成分分析通常的做法是寻求原指标的线性组合Fi。其中,Xi是经过标准化后的变量。即2009年度全国主要矿产品供需形势分析研究新生成的F1,F2,…,Fp满足如下条件:1)每个主成分的系数平方和为1。即2009年度全国主要矿产品供需形势分析研究2)主成分之间相互独立,即无重叠的信息。即2009年度全国主要矿产品供需形势分析研究3)主成分的方差依次递减,重要性依次递减,即2009年度全国主要矿产品供需形势分析研究4)多指标综合评价。通过主成分分析,选择m个主成分y1,y2,…,ym,以每个主成分yi的方差贡献率αi作为权重,构造综合评价函数:2009年度全国主要矿产品供需形势分析研究式中: 为第i个主成分的得分。把m个主成分得分代入F函数后,即可得到每个样本的综合评价函数得分,以得分的大小排序。二、重点骨干矿山的界定以“全国矿产资源开发利用统计数据库”为基础,通过对其进行主成分分析和多指标综合评价来确定重点骨干矿山。(一)铁矿山1.露天矿山(1)相关性检验Pearson相关系数反映了指标间的相关程度,相关系数越大,相关程度也就越高,在分析时重叠的信息也就越多,这将导致分析效果降低,因此必须首先进行相关性检验。检验结果显示,从业人数同自产矿石量正相关,相关系数达到0.533,并在P<0.01的水平下显著正相关;从业人数同矿产品销售收入之间也存在显著正相关性,相关系数达到0.586;同样,自产矿石量同矿产品销售收入显著正相关,相关系数达到0.743。露天骨干矿山的检验结果见表7。表7 相关系数矩阵(2)主成分分析由于三个指标间存在着显著的相关性,因此采用主成分分析方法进行降维处理。结果显示,提取一个主成分将解释原指标向量74.84%的信息,提取两个主成分将提高到91.57%,因此我们提取两个主成分,两个主成分对各指标的解释程度分别达到99.7%、89.0%和86.0%(表9~表11)。表达式分别为2009年度全国主要矿产品供需形势分析研究式中:Z从业人员、Z自产矿石量、Z矿产品销售收入分别表示标准化后的从业人员、自产矿石量和矿产品销售收入;λ1、λ2分别表示第一个和第二个特征根。表8 总方差解释程度注:采用主成分分析法提取因子。表9 单指标方差解释程度注:采用主成分分析法提取因子。表10 初始因子载荷矩阵a注:采用主成分分析法提取因子。确定提取2个因子。(3)综合评价提取出主成分后利用公式(10)计算综合得分: 为第i个主成分的得分,αi为第i个主成分的方差贡献率。此处,α1为0.7484,α2为0.1673。经过筛选将综合得分>0的14座矿山即兰尖矿和朱家包包矿、齐大山铁矿、白云鄂博铁矿、海南矿业、南芬铁矿、尖山铁矿、凹山铁矿、歪头山铁矿、大孤山铁矿、峨口铁矿、弓长岭铁矿、大顶铁矿、大宝山矿业和水厂铁矿列为重点骨干矿山(表11)。表11 重点骨干铁矿山筛选结果续表注:F1———第一主成分;F2———第二主成分;F———综合得分;全国矿产资源开发利用统计库中将兰尖矿和朱家包包矿的相关数据统计在一起,所以这里我们将其算作一个矿山。2.地下矿山与露天矿山相似,提取一个主成分将解释原指标向量54.52%的信息,提取两个主成分将提高到85.71%,因此我们提取两个主成分,两个主成分对各指标的解释程度分别达到85.5%、94.2%和77.5%。表达式分别为2009年度全国主要矿产品供需形势分析研究式中:Z从业人员、Z自产矿石量、Z矿产品销售收入分别表示标准化后的从业人员、自产矿石量和矿产品销售收入。提取出主成分后利用公式(10)计算综合得分: 为第i个主成分的得分,αi为第i个主成分的方差贡献率。此处,α1为0.5452,α2为0.3119。经过筛选,将综合得分>0的7座矿山即梅山铁矿、程潮铁矿、北洺河铁矿、鲁中冶金矿业、西石门铁矿、大红山铁矿和金岭铁矿列为重点骨干矿山(表11)。(二)铜矿山与确定铁矿重点骨干矿山原理类似,提取出主成分后利用公式(10)计算综合得分: 为第i个主成分的得分,αi为第i个主成分的方差贡献率。此处,α1为0.88489,α2为0.08944。经过筛选,得出全国重点骨干铜矿山共有10个(表12)。表12 重点骨干铜矿山筛选结果注:F1———第一主成分;F2———第二主成分;F———综合得分。
2023-08-18 03:11:261

主成分分析法的应用分析

在社会调查中,对于同一个变量,研究者往往用多个不同的问题来测量一个人的意见。这些不同的问题构成了所谓的测度项,它们代表一个变量的不同方面。主成分分析法被用来对这些变量进行降维处理,使它们“浓缩”为一个变量,称为因子。在用主成分分析法进行因子求解时,我们最多可以得到与测度项个数一样多的因子。如果保留所有的因子,就起不到降维的目的了。但是我们知道因子的大小排列,我们可以对它们进行舍取。哪有那么多小的因子需要舍弃呢?在一般的行为研究中,我们常常用到的判断方法有两个:特征根大于1法与碎石坡法。因为因子中的信息可以用特征根来表示,所以我们有特征根大于1这个规则。如果一个因子的特征根大于1就保留,否则抛弃。这个规则,虽然简单易用,却只是一个经验法则(rule of thumb),没有明确的统计检验。不幸的是,统计检验的方法在实际中并不比这个经验法则更有效(Gorsuch, 1983)。所以这个经验法则至今仍是最常用的法则。作为一个经验法则,它不总是正确的。它会高估或者低估实际的因子个数。它的适用范围是20-40个的测度项,每个理论因子对应3-5个测度项,并且样本量是大的 ( 3100)。碎石坡法是一种看图方法。如果我们以因子的次序为X轴、以特征根大小为Y轴,我们可以把特征根随因子的变化画在一个坐标上,因子特征根呈下降趋势。这个趋势线的头部快速下降,而尾部则变得平坦。从尾部开始逆向对尾部画一条回归线,远高于回归线的点代表主要的因子,回归线两旁的点代表次要因子。但是碎石坡法往往高估因子的个数。这种方法相对于第一种方法更不可靠,所以在实际研究中一般不用。抛弃小因子、保留大因子之后,降维的目的就达到了。 在对社会调查数据进行分析时,除了把相关的问题综合成因子并保留大的因子,研究者往往还需要对因子与测度项之间的关系进行检验,以确保每一个主要的因子(主成分)对应于一组意义相关的测度项。为了更清楚的展现因子与测度项之间的关系,研究者需要进行因子旋转。常见的旋转方法是VARIMAX旋转。旋转之后,如果一个测度项与对应的因子的相关度很高(>0.5)就被认为是可以接受的。如果一个测度项与一个不对应的因子的相关度过高(>0.4),则是不可接受的,这样的测度项可能需要修改或淘汰。用主成分分析法得到因子,并用因子旋转分析测度项与因子关系的过程往往被称为探索性因子分析。在探索性因子分析被接受之后,研究者可以对这些因子之间的关系进行进一步测试,比如用结构方程分析来做假设检验。 1问题的提出主成分分析是一种降维的方法,便于分析问题,在诸多领域中都有广泛的应用。但有些教科书与论文使用主成分分析时,出现了一些错误与不足,不能解决实际问题。如一些多元统计分析的教材中,用协方差矩阵的主成分分析出现了如下错误与不足:①没有明确和判断该数据降维的条件是否成立。②主成分系数的平方和不为1。③没有明确和判断所用数据是否适合作单独的主成分分析。④选取的主成分对原始变量没有代表性。以下从相关性等理论与结果上依次解决上述问题,并给出相应建议。2数据在行为与心理研究中,常常要求分析某种身份的人的行为特征,如本例中的小学生的日常行为特征,从而根据这些特征引导小学生向更积极的行为态度发展。这里用文献[1]的数据见表1,其来自某课题组的调查结果。课题组对北方某小学480名5~6年级学生的日常行为进行调查,共调查了11项指标如下:S1~对老师提问的反应、S2~对班级事务的关心、S3~自习课上的表现、S4~对家庭作业的态度、S5~关心同学的程度、S6~对待劳动的态度、S7~学习上的特殊兴趣、S8~对待体育锻炼的态度、S9~在娱乐上的偏好、S10~解决问题的思考方式、S11~对未来的打算  主成分分析法和层次分析法异同1.基于相关性分析的指标筛选原理两个指标之间的相关系数,反映了两个指标之间的相关性[1]。相关系数越大,两个指标反映的信息相关性就越高[1]。而为了使评价指标体系简洁有效,就需要避免指标反映信息重复[1]。通过计算同一准则层中各个评价指标之间的相关系数,删除相关系数较大的指标,避免了评价指标所反映的信息重复[2]。通过相关性分析,简化了指标体系,保证了指标体系的简洁有效[2]。2.基于主成分分析的指标筛选原理(1)因子载荷的原理通过对剩余多个指标进行主成分分析,得到每个指标的因子载荷。因子载荷的绝对值小于等于1,而绝对值越是趋向于1,指标对评价结果越重要[3]。(2)基于主成分分析的指标筛选原理因子载荷反映指标对评价结果的影响程度,因子载荷绝对值越大表示指标对评价结果越重要,越应该保留;反之,越应该删除。1通过对相关性分析筛选后的指标进行主成分分析,得到每个指标的因子载荷,从而删除因子载荷小的指标,保证筛选出重要的指标[2]。3.相关性分析和主成分分析相同点一是,基于相关性分析的指标筛选和基于主成分分析的指标筛选,均是在准则层内进行指标的筛选处理,准则层之间不进行筛选。这种做法的原因是,通过人为地划分不同准则层,反映评价事物不同层面的状况,避免误删反应信息不同的重要指标[2]。二是,基于相关性分析的指标筛选和基于主成分分析的指标筛选的思路,均是筛选出少量具有代表性的指标[2]。4.相关性分析和主成分分析不同点一是,两次筛选的目的不同:基于相关性分析的指标筛选的目的是删除反应信息冗余的评价指标。基于主成分分析的指标筛选的目的是删除对评价结果影响较小的评价指标[2]。二是,两次筛选的作用不同:基于相关性分析的指标筛选的作用是保证蹄选出的评价指标体系简洁明快。基于主成分分析的指标简选的目的是筛选出重要的指标[2]。[1]迟国泰,曹婷婷,张昆.基于相关主成分分析的人的全面发展评价指标体系的构建[J].系统工程理论与实践,2013,32(1):112-119.[2]李鸿禧.基于相关主成分分析的港口物流评价研究[D].辽宁大连:大连理工大学,2013.[3]孙慧,刘媛媛,张娜娜.基于主成分分析的煤炭产业竞争力实证研究[J].资源与产业,2012,14(1):145-149.
2023-08-18 03:12:561

基于主成分分析法的长沙市土地生态安全评价:土地生态安全

  摘 要:近年来随着经济社会的发展,土地利用强度和利用方式发生了变化,造成了土地污染和人地矛盾的加剧。因此,文章采用主成分分析法对2013年长沙市土地生态安全进行评价,选取了8项代表性的评价因子,构建长沙市土地生态安全评价体系。结果显示:产业结构、人口结构、城市化水平是影响长沙市生态安全状况的关键因素,其他生态保护措施对于改善区域生态环境同样具有明显作用,据此提出相关建议。   关键词:土地生态安全;评价;主成分分析法;长沙市   十八届五中全会指出:“促进人与自然和谐共生,构建科学合理的城市化格局、农业发展格局、生态安全格局、自然岸线格局,推动建立绿色低碳循环发展产业体系。”随着经济社会的迅猛发展,土地生态系统却受到了严重的威胁,如:耕地、林地面积的不断缩小、水土流失、土地荒漠化、土地破坏、土地污染等,降低了土地生态系统服务功能并直接影响人类社会的可持续发展。面对严重的土地生态安全问题,逐渐引起了人们普遍关注。国内外学者分别从土地生态安全概念[1],土地资源生态安全与土地利用覆盖变化的关系[2]、土地资源生态安全设计[3]、土地生态安全评价指标体系与评价方法[4]等方面进行了研究。如1995年,世界银行与联合国粮农组织、联合国开发计划署及联合国环境规划署发布的《土地质量指标》[5]。也有学者运用主成分分析方法对地区的土地生态安全做过相关评价研究,如王鹏等运用主成分分析方法,对衡阳市的土地生态安全状况做了研究评估[6]。张浩中采用PSR模型对长株潭地区2000-2012年的土地生态安全状况做了研究评估[7]。综观现有研究,作者认为土地生态安全应是在必定的时空范围内,人类赖以生存和发展的土地生态系统处于一个不受或者少受威胁破坏的平衡状态,同时土地生态系统也为人类提供能够满足人类生存与发展的服务与资源[6]。因此,文章从可持续发展的角度,运用SPSS22.0主成分分析方法对长沙市2013年的生态安全进行定量评价,目的是找出制约长沙市生态可持续发展的重要因子,为长沙两型社会科学长远发展提出合理性建议。   1 研究区概况   长沙市处于湖南省东部偏北。2013年全市土地面积11816.0平方公里,与2012年相比,其耕地面积减少了740公顷,建成区面积增加了9.7平方公里,城市园林绿化覆盖面积增加了477公顷[8]。近年来在两型社会的引领下,长沙市以“资源节约、环境友好”为目标,开展了湘江流域治理、重金属污染土地整治、城乡环境同治等一系列措施。然而随着城镇化、工业化的推进,工业污染、农业面源污染、居民生活污染等问题却呈现了逐步走高的形态,对土地生态安全造成了严重威胁。   2 长沙市土地生态安全评价   2.1 指标选取   通过对现有文献的整理,依据主成分分析方法的科学、可比、可操性等原则[9],选取8项能反映长沙社会、经济、生态状况的指标:人口密度(人/平方千米)、人口自然增长率(%)、城市化水平(%)、人均GDP(元/人)、人均播种面积(亩/人)、地均工业产值(万元/平方千米)、规模工业增加值能耗降低率(%)、第三产业比重(%)(表1)。   2.2 指标获得及处理   本文数据取自《长沙市统计年鉴(2014年)》、《湖南省统计年鉴(2014年)》、长沙市统计信息网等。利用SPSS22.0软件,对所选取的8个指标进行标准化处理,以排除数据之间相互干扰和因单位的不同不具有可计算性的影响。   2.3 主成分分析原理   主成分分析方法是指将多个具有相关性的要素转化成几个不相关的综合指标的分析与统计方法[6]。研究对象往往具有复杂性,但变量太多会增加分析问题的难度和复杂性,因此基于原变量之间的相关关系,用较少的新变量代替原来较多的变量,能够简化复杂问题的研究,在保证研究精确度的前提下提高研究效率。   2.4 主成分法分析步骤   2.4.1 设M个研究区域,N个指标的矩阵Z,如下:   2.4.4 求得研究各地区生态安全综合得分W,如下:   W=aZ1+bZ2+…+xZn   式中:X表示特征值的特征向量;a、b等则是原始指标的标准化数据。   3 主成分分析评价过程   3.1 指标特征值与贡献率   通过SPSS22.0软件将标准化处理的8个指标进行分析,结果显示,前2项的贡献率累计值超过了85%,达到85.376%,所以提取前2项作为主成分因子,计算各因子的载荷状况。通过计算可以得出人口密度、人口自然增长率、城市化水平、人均GDP、地均工业产值和第三产业占比在主成分1中作用明显,这说明人口的增长、城市化水平的提高增加了资源环境承载压力。在主成分2中规模工业增加值能耗降低率、地均工业产值占比明显,而人口密度和人均播种面积等因素相对较弱,这说明优良的产业结构、土地利用产出率与生态环境安全密切相关。产业结构优化、土地利用集约对于生态安全有显著作用。   3.2 长沙市生态安全评价   通过以上结果计算长沙市各地区的生态安全评价综合得分并排名。如果综合得分为正,表明该主成分在平均发展水平之上,且得分越高,说明生态安全越好;反之,综合得分为负,表明该主成分在平均发展水平之下,得分越低,说明生态安全越差[10]。   结果表明(见表2):长沙市各地区生态安全稳定性由弱到强依次是宁乡县、浏阳县、长沙县、望城区、岳麓区、开福区、天星区、雨花区、芙蓉区。其中两项因子都为正的仅芙蓉区和雨花区。因此得出如下结论:一是土地生态安全情况与距城市中心距离相关。研究区内,芙蓉区位于长沙市中心,其土地生态安全综合得分为2.5751198。宁乡县距离长沙市中心城区较远,其土地生态安全综合得分为-2.081661881。因此,距离城区距离的远近是影响了土地生态安全稳定性的因素。二是土地生态安全状况与产业结构相关。研究区内,芙蓉区主要以第三产业为主,有效降低了因农业面源污染和工业“三废”污染,从而使得土地生态安全趋于稳定。而宁乡县第三产业发展水平在国民经济发展中的比重较低,区域内农业面源污染和工业“三废”排放污染压力较大,进而使得土地生态安全稳定性较差。三是土地生态安全状况与城市化率相关。研究区内,芙蓉区城市化已基本完成,人口的聚集虽然给土地生态安全带来了压力,但在其可承受范围内,因此土地生态安全状况较好。而宁乡县虽然人口密度较低,但其城市化水平较低,进而其土地生态安全评分较低。   4 结论与政策建议   依据评价结果,结合长沙市实际情况,对优化长沙市区域内土地生态安全系统提出以下建议。   4.1 调整产业结构,转变经济发展方式   加强土地生态安全建设,必须依托市场,优化产业结构,注重本地区特色产业的发展。对于土地生态安全压力较大的地区来说,应通过产业融合、互联网+等现代科学技术的改造,降低第一、二产业在GDP中的比重,从而缓解农业面源污染和工业三废污染对土地生态安全系统的破坏能力。   4.2 优化人口结构,提高公众环境意识   土地是一种稀缺资源,当人口增长过快、集聚过度将加大土地生态环境系统的承载压力。因此,一是树立环保意识。通过多形式的宣传教育和新兴媒体平台展开环保宣传教育活动。二是深化城乡一体化改革。长期以来,我国城乡二元结构的束缚,使得农村居民无法享受与城市居民相等的医疗、教育、养老等保障政策,严重影响了农村居民的发展。从研究结果来看,距离城市中心越近,土地生态安全越稳定,这于我国长期以来重视城市发展的政策相关,大量的资金和要素生产资源长期投资于城市,而对农村和偏远山区的投入资源相当有限,不仅加大了城乡二元经济结构,而且带来了产生了相当多的社会矛盾。三是完善环保制度。着重完善环境保护的产权制度、碳排放交易制度、资源保护考核制度、激励制度、监督制度等,从而通过制度约束提升环境保护意识。   4.3 运用技术创新,降低工农业生产能耗   由于要素资源的集聚和长期以来对特大城市和大城市扶植力,形成了城市在运用科学技术水平上的不均衡性特点。从研究结果来看,长沙市区内的科技程度更高,应用领域更广泛,在土地生态环境中的资金、科技、人力投入上占据优势,而下级地区由于资金、科技、人才的短缺,在土地生态环境中的投入较低。因此,加大对中小城市资金、技术的投入和应用,降低工农业生产能耗是未来发展的趋势。   4.4 强化土地规划,深化土地制度改革   守住耕地红线,减少建设用地“双高”现象,走集约型道路是我国土地制度的核心关键。一是确权颁证。通过确权颁证对土地的产权主体、权能内容、四至以及使用年限等进行明晰。二是土地规划修编。加强区域土地利用规划编制工作,用以指导具体地区土地利用规划的编制。明确各地区土地利用的用途、容积率、建筑高度、绿化率等各项指标。三是严格查处执法。各级政府不仅要将村镇规划纳入城镇规划中,而且必须明确各宗地的用途,加强对土地项目的审批工作,防止非法改变土地用途,防止破坏土壤层造成土地污染。   另外,长沙市各地区要重视环境保护,继续开展湘江流域综合治理、重金属土地污染治理和城乡同治等工作,将其纳入政府年度考核目标的体系,建立领导离任资源资产审计工作制度,完善考核指标、奖惩办法等机制,在改善现有土地生态安全的基础上提高土地生态安全的稳定性,形成有力土地生态安全建设的长效机制。   参考文献   [1]高长波,陈新庚,韦朝海,等.区域生态安全概念及评价理论基础[J].生态环境,2006(15):98-102.   [2]OjimaD,LavorelS,GraumiehL,et al.Terrestrial human-environment systems:the Future of land research in IGBP.II[J].Global Change Newsletter Issue,2002:(50).   [3]张虹波,刘黎明.土地资源生态安全研究进展与展望地理科学进展[J].地理科学进展,2006(5):23-28.   [4]Jorgensen S E,Nielson S N,Mejer H.Emergy,environ,energy and ecological modeling[J].Ecological Modeling,1995(77):156-160.   [5]FAO.FESLM:An International Framework for Evaluating Sustainable Land Management.World Soil Resources Report[Z].Rome,Italy:FAO,1993.   [6]王鹏,况福民,邓育武,等.基于主成分分析的衡阳市土地生态安全评价[J].经济地理,2015(1):124-128.   [7]张浩中.长株潭城市群土地生态安全评价[D].长沙:湖南师范大学,2014.   [8]长沙市统计局.长沙统计年鉴2014[M].北京:中国统计出版社,2014.   [9]孙奇奇,宋戈,齐美玲.基于主成分分析的哈尔滨市土地生态安全评价[J].水土保持研究,2012(1):132-136.   [10]邓建伟,唐小娟,张新民.石羊河流域北部平原区生态安全评价[J].干旱区资源与环境,2009(8):123-127.   作者简介:刘凝(1985-),男,中共湖南省委党校 湖南行政学院,土地资源管理,硕士研究生。
2023-08-18 03:13:101

单因子指数法的主成分分析方法

地理环境是多要素的复杂系统,在我们进行地理系统分析时,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息?事实上,这种想法是可以实现的,本节拟介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。第一节 主成分分析方法的原理主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。假定有n个地理样本,每个样本共有p个变量描述,这样就构成了一个n×p阶的地理数据矩阵:如何从这么多变量的数据中抓住地理事物的内在规律性呢?要解决这一问题,自然要在p维空间中加以考察,这是比较麻烦的。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的。那么,这些综合指标(即新变量)应如何选取呢?显然,其最简单的形式就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好。如果记原来的变量指标为x1,x2,…,xp,它们的综合指标——新变量指标为x1,x2,…,zm(m≤p)。则在(2)式中,系数lij由下列原则来决定:(1)zi与zj(i≠j;i,j=1,2,…,m)相互无关;(2)z1是x1,x2,…,xp的一切线性组合中方差最大者;z2是与z1不相关的x1,x2,…,xp的所有线性组合中方差最大者;……;zm是与z1,z2,……zm-1都不相关的x1,x2,…,xp的所有线性组合中方差最大者。这样决定的新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…,xp的第一,第二,…,第m主成分。其中,z1在总方差中占的比例最大,z2,z3,…,zm的方差依次递减。在实际问题的分析中,常挑选前几个最大的主成分,这样既减少了变量的数目,又抓住了主要矛盾,简化了变量之间的关系。从以上分析可以看出,找主成分就是确定原来变量xj(j=1,2,…,p)在诸主成分zi(i=1,2,…,m)上的载荷lij(i=1,2,…,m;j=1,2,…,p),从数学上容易知道,它们分别是x1,x2,…,xp的相关矩阵的m个较大的特征值所对应的特征向量。第二节 主成分分析的解法主成分分析的计算步骤通过上述主成分分析的基本原理的介绍,我们可以把主成分分析计算步骤归纳如下:(1)计算相关系数矩阵在公式(3)中,rij(i,j=1,2,…,p)为原来变量xi与xj的相关系数,其计算公式为因为R是实对称矩阵(即rij=rji),所以只需计算其上三角元素或下三角元素即可。(2)计算特征值与特征向量首先解特征方程|λI-R|=0求出特征值λi(i=1,2,…,p),并使其按大小顺序排列,即λ1≥λ2≥…,≥λp≥0;然后分别求出对应于特征值λi的特征向量ei(i=1,2,…,p)。(3)计算主成分贡献率及累计贡献率一般取累计贡献率达85-95%的特征值λ1,λ2,…,λm所对应的第一,第二,……,第m(m≤p)个主成分。(4)计算主成分载荷由此可以进一步计算主成分得分:第三节 主成分分析应用实例主成分分析实例对于某区域地貌-水文系统,其57个流域盆地的九项地理要素:x1为流域盆地总高度(m)x2为流域盆地山口的海拔高度(m),x3为流域盆地周长(m),x4为河道总长度(km),x5为河表2-14 某57个流域盆地地理要素数据道总数,x6为平均分叉率,x7为河谷最大坡度(度),x8为河源数及x9为流域盆地面积(km)的原始数据如表2-14所示。张超先生(1984)曾用这些地理要素的原始数据对该区域地貌-水文系统作了主成分分析。下面,我们将其作为主成分分析方法在地理学研究中的一个应用实例介绍给读者,以供参考。表2-15相关系数矩阵(1)首先将表2-14中的原始数据作标准化处理,由公式(4)计算得相关系数矩阵(见表2-15)。(2)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(见表2-16)。由表2-16可知,第一,第二,第三主成分的累计贡献率已高达86.5%,故只需求出第一,第二,第三主成分z1,z2,z3即可。表2-16 特征值及主成分贡献率(3)对于特征值λ1=5.043,λ2=1.746,λ3=0.997分别求出其特征向量e1,e2,e3,并计算各变量x1,x2,……,x9在各主成分上的载荷得到主成分载荷矩阵(见表2-17)。表2-17 主成分载荷矩阵从表2-17可以看出,第一主成分z1与x1,x3,x4,x5,x8,x9有较大的正相关,这是由于这六个地理要素与流域盆地的规模有关,因此第一主成分可以被认为是流域盆地规模的代表:第二主成分z2与x2有较大的正相关,与x7有较大的负相关,而这两个地理要素是与流域切割程度有关的,因此第二主成分可以被认为是流域侵蚀状况的代表;第三主成分z3与x6有较大的正相关,而地理要素x6是流域比较独立的特性——河系形态的表征,因此,第三主成成可以被认为是代表河系形态的主成分。以上分析结果表明,根据主成分载荷,该区域地貌-水文系统的九项地理要素可以被归为三类,即流域盆地的规模,流域侵蚀状况和流域河系形态。如果选取其中相关系数绝对值最大者作为代表,则流域面积,流域盆地出口的海拔高度和分叉率可作为这三类地理要素的代表,利用这三个要素代替原来九个要素进行区域地貌-水文系统分析,可以使问题大大地简化。二、内梅罗水质指数污染表1 内梅罗水质指数污染等级划分标准 P <1 1~2 2~3 3~5 >5 水质等级 清洁 轻污染 污染 重污染 严重污染 表2 地表水环境质量标准(GB3838—2002) 单位:mg/L 序 号 项 目 V类标准值 1 水温(℃) — 2 PH值(无量纲) 6—9 3 溶解氧 ≥ 2 4 高锰酸盐指数 ≤ 15 5 化学需氧量 ≤ 40 6 五日生化需氧量 ≤ 10 7 氨氮 ≤ 2.0 8 总磷 ≤ 0.4 9 总氮 ≤ 2.0 10 铜 ≤ 1.0 11 锌 ≤ 2.0 12 氟化物 ≤ 1.5 13 硒 ≤ 0.02 14 砷 ≤ 0.1 15 汞 ≤ 0.001 16 镉 ≤ 0.01 17 铬(六价) ≤ 0.1 18 铅 ≤ 0.1 19 氰化物 ≤ 0.2 20 挥发酚 ≤ 0.1 21 石油类 ≤ 1.0 22 硫化物 ≤ 1.0 23 粪大肠菌群(个/L) ≤ 40000 表3 水质评价计算方法 单因子污染指数 Pi = Ci/ Si Ci——第i项污染物的监测值; Si——第i项污染物评价标准值; 溶解氧指数   Cf——对应温度T时的饱和溶解氧浓度;Ci——溶解氧浓度监测值;Si——溶解氧评价标准值;                   pH指数   pHi——pH监测值;pHS,min——评价标准值的下限;pHS,max ——评价标准值的上限;   污染物超标倍数   Ci ——第i项污染物的监测值;C0 ——第i项污染物评价标准值; 内梅罗指数   Pmax ——单因子污染指数的最高值;Pi ——第i项污染物的污染指数;n ——参与评价污染物的项数; 常用的客观赋权法之一:熵值法熵是信息论中测度一个系统不确定性的量。信息量越大,不确定性就越小,熵也越小,反之,信息量越小,不确定性就越大,熵也越大。熵值法主要是依据各指标值所包含的信息量的大小,利用指标的熵值来确定指标权重的。熵值法的一般步骤为:(1)、对决策矩阵作标准化处理,得到标准化矩阵,并进行归一化处理得:(2)、计算第个指标的熵值:。其中。(3)、计算第个指标的差异系数。对于第个指标,指标值的差异越大,对方案评价的作用越大,熵值越小,反之,差异越小,对方案评价的作用越小,熵值就越大。因此,定义差异系数为:。(4)、确定指标权重。第个指标的权重为:。效益型和成本型指标的标准化方法对于效益型(正向)指标和成本型(逆向)指标,由于这两者是最常见并且使用最广泛的指标,所以,对这两种指标标准化处理的方法也最多,一般的处理方法有:1. 极差变换法该方法即在决策矩阵中,对于效益型指标,令=对于成本型指标,令=则得到的矩阵称为极差变换标准化矩阵。其优点为经过极差变换后,均有,且各指标下最好结果的属性值,最坏结果的属性值。该方法的缺点是变换前后的各指标值不成比例。2. 线性比例变换法即在决策矩阵中,对于效益型指标,令=对成本型指标,令=或=则矩阵称为线性比例标准化矩阵。该方法的优点是这些变换方式是线性的,且变化前后的属性值成比例。但对任一指标来说,变换后的和不一定同时出现。3. 向量归一化法即在决策矩阵中,对于效益型指标,令对于成本型指标,令则矩阵称为向量归一标准化矩阵。显然,矩阵的列向量的模等于1,即。该方法使,且变换前后正逆方向不变,缺点是它是非线性变换,变换后各指标的最大值和最小值不相同。4. 标准样本变换法在中,令其中,样本均值,样本均方差,则得出矩阵,称为标准样本变换矩阵。经过标准样本变换之后,标准化矩阵的样本均值为,方差为。5. 等效系数法对成本型指标,令=该方法的优点是变换前后的指标值成比例,缺点是各指标下方案的最好与最差指标值标准化后不完全相同。另外,关于效益型指标的标准化处理还有:=关于成本型指标的标准化处理还有:=固定型指标的标准化方法对于固定型指标,若设为给定的固定值,则标准化处理的方法主要有以下几种,即令或或或(4.15)式的特点是各最优属性值标准化后的值均为1,而各最差属性的值标准化后的值不统一,即不一定都为0。若设和分别是人为规定的最优方案和最劣方案,在该情形下,还给出了效益型、成本型和固定型指标的新的标准化方法。对效益型和成本型,有:对固定型指标则有:区间型指标的标准化方法对区间型的指标,其指标标准化处理的方法主要有以下几式:设,令或令显然,还可以简化为:或令或令其中,是指给定的某个固定区间,即属性值越接近该区间越好。偏离型指标的标准化方法对越来越偏离某值越好的偏离性指标,一般有如下标准化公式:或令(对都有)或令偏离型指标是与固定型指标相对立的一种指标类型,它的公式使用可以用固定型指标的公式改造,但在使用时要注意其公式的适用范围。偏离区间型指标的标准化方法对偏离区间型指标,有如下标准化的方法:令或令或令其中,是某个固定区间,属性值越偏离该区间越好。偏离区间型指标是与区间型指标相对立的一种指标类型。
2023-08-18 03:13:201

冗余分析和主成分分析的区别

一、基本思想的异同共同点从二者表达的含义上看,主成分分析法和因子分析法都寻求少数的几个变量(或因子)来综合反映全部变量(或因子)的大部分信息,变量虽然较原始变量少,但所包含的信息量却占原始信息量的 85%以上,用这些新变量来分析问题,其可信程度仍然很高,而且这些新的变量彼此间互不相关,消除了多重共线性。这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量。不同点在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1,x2,……,x3,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到。在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分。公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子。二、操作软件中的异同主成分分析与因子分析都可利用 SPSS 软件中的 FACTOR 过程来实现,在此过程中应该注意以下几点:1.指标的选定指标最好具有同趋势化,一般为了评价分析的方便,需要将逆指标转化为正指标。2.假设条件主成分分析:不需要有假设(assumptions)因子分析:需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specificfactor)之间也不相关,共同因子和特殊因子之间也不相关。3.因子变量个数的确定在利用 FACTOR 实现主成分分析时,在确定公共因子个数时,一般直接选择与原变量数目相等的个数,这样可以避免由于采用默认形式后累积方差贡献率达不到 85%而造成的二次操作。在利用FACTOR实现因子分析时,可以选择的选项较多,除了主成分分析法之外,还有未加权最小平方法、广义最小平方法、最大似然法、主轴因式分解法、Alpha式分解法、映像因式分解法。这七种方法中只有用主成分分析法求解因子载荷时可以选择与变量个数相等的因子变量个数,其它方法都必须因子变量个数小于原始变量个数。4.模型的生成经过 FACTOR 过程都产生因子载荷阵,但主成分分析模型需要的不是因子载荷量而是特征向量,所以还需要将因子载荷量输入到数据的编辑窗口,利用“主成分相应特征根的平方根与特征向量乘积为因子载荷量”性质来计算特征向量,从而得到主成分的线性表达式。
2023-08-18 03:13:361

什么是主成分分析

主成分分析是一种线性降维算法,也是一种常用的数据预处理方法。主成分分析法的目标:是用方差(Variance)来衡量数据的差异性,并将差异性较大的高维数据投影到低维空间中进行表示。绝大多数情况下,我们希望获得两个主成分因子:分别是从数据差异性最大和次大的方向提取出来的,称为PC1(Principal Component 1) 和 PC2(Principal Component 2)。Scores.xlsx (文末获取文件链接) 包含了约70名学生的全科考试成绩。其中每名学生是一个独立的样本,每门学科的成绩都是一个数据维度(共有13门成绩)。目的是通过分析学生的考试成绩来判断学生的类别(理科、文科生,和体育、艺术特长生)。特征提取(或称特征抽取)一般做两方面的工作:1、对原始数据进行某种变换。2、在变换的过程中使不同的类别(或不同样本)具有相对较好的区分性。PCA与LDA的局限性:PCA的局限性:PCA可以很好的解除线性相关,但是对于高阶相关性就没有办法了,对于存在高阶相关性的数据,可以考虑Kernel PCA,通过Kernel函数将非线性相关转为线性相关。另外,PCA假设数据各主特征是分布在正交方向上,如果在非正交方向上存在几个方差较大的方向,PCA的效果就大打折扣了。各个主成分特征是原始特征的线性组合,其含义具有一定的模糊性,不如原始样本特征的解释性强。方差小的非主成分也可能含有对样本差异的重要信息,因降维丢弃可能对后续数据处理有影响。LDA的局限性:传统的线性鉴别分析和主成分分析均只作用于对一维数据即矢量数据进行特证抽取,由此带来诸多不便。假如我们要处理的数据是200×200大小的图像矩阵,那应用这两个方法之前,我们必须把每一个图像转换为一个40000维的矢量。在此基础上,主成分分析对应的协方差矩阵为一个40000×40000的矩阵,这是一个恐怖的数字,无论是计算协方差矩阵还是计算协方差矩阵的特征向量都将耗费巨大的计算资源。面对上述图像矩阵时,线性鉴别分析也存在一样的难题,而且过之而不及。线性鉴别分析中类间散布矩阵与类内散布矩阵的大小均为40000×40000,而且还需要计算类内散布矩阵的逆矩阵,计算量的巨大可想而知。
2023-08-18 03:13:461

主成分分析的基本思想

主成分分析的基本思想是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。主成分分析首先是由K.皮尔森(Karl Pearson)对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。历史:1846年,Bracais提出的旋转多元正态椭球到“主坐标”上,使得新变量之间相互独立。皮尔逊(Pearson)(1901)、霍特林(Hotelling)(1933)都对主成分的发展做出了贡献,霍特林的推导模式被视为主成分模型的成熟标志。主成分分析被广泛应用于区域经济发展评价,服装标准制定,满意度测评,模式识别,图像压缩等许多领域。
2023-08-18 03:14:321

主成分分析法的优缺点

主成分分析(Principal Component Analysis,PCA)是一种常用的多元统计分析方法,其优缺点如下:优点:降维效果显著:PCA可以将原始数据集的维度降低,从而方便数据的可视化和处理。减少冗余信息:PCA可以从原始数据中提取出主要的特征,减少冗余信息的影响。去除噪声:PCA可以通过特征值分解的方法去除噪声,提高数据的准确性和可靠性。提高计算效率:PCA通过对协方差矩阵进行特征值分解,可以将大规模数据计算转化为少量特征向量的计算,从而提高计算效率。缺点:对异常值敏感:PCA对异常值比较敏感,可能会导致提取出的主成分偏离真实情况。对数据分布的假设:PCA假设数据符合高斯分布,如果数据分布与该假设不符,则可能导致分析结果不准确。解释性不足:PCA提取的主成分可能难以解释其含义,需要通过额外的分析和解释才能得出结论。受样本量和变量个数限制:PCA的应用需要考虑样本量和变量个数的限制,如果样本量不足或变量过多,可能会导致提取的主成分不具有代表性。
2023-08-18 03:15:061

pca主成分分析

PCA(PrincipalComponentAnalysis),即主成分分析方法,是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与数据本身是密切相关的。其中,第一个新坐标轴选择是原始数据中方差最大的方向,第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的,第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推,可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴,我们发现,大部分方差都包含在前面k个坐标轴中,后面的坐标轴所含的方差几乎为0。于是,我们可以忽略余下的坐标轴,只保留前面k个含有绝大部分方差的坐标轴。事实上,这相当于只保留包含绝大部分方差的维度特征,而忽略包含方差几乎为0的特征维度,实现对数据特征的降维处理。只保留前面k个含有绝大部分方差的坐标轴。事实上,这相当于只保留包含绝大部分方差的维度特征,而忽略包含方差几乎为0的特征维度,实现对数据特征的降维处理。思考:我们如何得到这些包含最大差异性的主成分方向呢?答案:事实上,通过计算数据矩阵的协方差矩阵,然后得到协方差矩阵的特征值特征向量,选择特征值最大(即方差最大)的k个特征所对应的特征向量组成的矩阵。这样就可以将数据矩阵转换到新的空间当中,实现数据特征的降维。由于得到协方差矩阵的特征值特征向量有两种方法:特征值分解协方差矩阵、奇异值分解协方差矩阵,所以PCA算法有两种实现方法:基于特征值分解协方差矩阵实现PCA算法、基于SVD分解协方差矩阵实现PCA算法。既然提到协方差矩阵,那么就简单介绍一下方差和协方差的关系。然后概括介绍一下特征值分解矩阵原理、奇异值分解矩阵的原理。概括介绍是因为在我之前的《机器学习中SVD总结》文章中已经详细介绍了特征值分解原理和奇异值分解原理,这里就不再重复讲解了。可以看我的《机器学习中SVD总结》文章。地址:机器学习中SVD总结
2023-08-18 03:15:431

熵值法和主成分分析法哪个更客观

熵值法和主成分分析法一样客观。因为熵值法与主成分法在计算指标权重时都是客观赋权,是一样客观的,摒弃了研究者的主观性。熵值法计算过程简单易操作,主成分分析全过程较为复杂;熵值法没有改变评价指标的数量,而主成分因为信息浓缩的原理会减少评价的维度。
2023-08-18 03:16:121

如何用主成分分析法确定指标权重

  在SPSS中,主成分分析是通过设置因子分析中的抽取方法实现的,如果设置的抽取方法是主成分,那么计算的就是主成分得分,另外,因子分析和主成分分析尽管原理不同,但是两者综合得分的计算方法是一致的。  确定数据的权重也是进行数据分析的重要前提。可以利用SPSS的因子分析方法来确定权重。主要步骤是:  (1)首先将数据标准化,这是考虑到不同数据间的量纲不一致,因而必须要无量纲化。  (2)对标准化后的数据进行因子分析(主成分方法),使用方差最大化旋转。  (3)写出主因子得分和每个主因子的方程贡献率。  Fj =β1j*X1 +β2j*X2 +β3j*X3 + ……+ βnj*Xn ; Fj 为主成分(j=1、2、……、m),X1、X2 、X3 、……、Xn 为各个指标,β1j、β2j、β3j、……、βnj为各指标在主成分Fj 中的系数得分,用ej表示Fj的方程贡献率。  (4)求出指标权重。 ωi=[(m∑j)βij*ej]/[(n∑i)(m∑j)βij*ej],ωi就是指标Xi的权重。  因子分析应用在评价指标权重确定中,通过主成分分析法得到的各指标的公因子方差,其值大小表示该项指标对总体变异的贡献,通过计算各个公因子方差占公因子方差总和的百分数。
2023-08-18 03:16:191

周边国家矿产资源选区投资环境风险评价方法

国内外关于投资环境的评价研究方法,总体上分为定性和定量两类方法。定性方法主要包括:美国学者伊西和彼得提出的“冷热国法”(1968);罗伯特提出的等级尺度法(1969);美国施文蒂曼提出的道氏评估法;闵建蜀提出的多因素和关键因素评估法和体制评估法(1987);法国学者Jean-Claude Usunier提出的多因素加权平均法;赵映冈提出的投资环境地图法(1994);还有一系列诸如投资障碍分析法、系统评估法和德尔菲法等总计10余种定性分析方法。定量分析方法主要包括:最经典的当属美国学者萨蒂提出的层次分析法(AHP);郭文清等提出的相似度评价模型(1987);用多元统计分析数学方法的投资环境评级聚类模型;成本分析法、灰色对比度法;主成分和因子分析法以及投资环境综合评价法。在选取评价方法时,我们首选了层析分析法,主要是基于这种方法的优点。它是在对复杂决策问题的本质、影响因素及其内在关系等进行深入分析的基础上,利用较少的定量信息使决策的思维过程数学化,从而为多目标、多准则或无结构特性的复杂决策问题提供简便的决策方法,尤其适合于对决策结果难以直接准确计量的场合。同时考虑到AHP分析方法自身存在的不足,即在确定指标权重时受主观因素影响较大,我们考虑并结合了另外一种定量分析方法——主成分分析法(Principal Component Analysis,简称PCA)。它是将分散在一组变量上的信息,集中到某几个综合指标(主成分)上的一种探索性统计分析方法。它利用降维的思想,将多个变量化为少数几个互不相关的主成分,从而描述数据集的内部结构,完全摒弃了主观因素的影响。(1)层次分析法(AHP)美国运筹学家A.L Saaty于20世纪70年代提出的层次分析法,是一种定性与定量相结合的决策分析方法。它是一种将决策者对复杂系统的决策思维过程模型化、数量化的过程,在目标因素结构复杂且缺乏必要数据的情况下使用更为方便,因而在实践中得到广泛应用。应用这种方法,决策者通过将复杂问题分解为若干层次和若干因素,在各因素之间进行简单的比较和计算,就可以得出不同方案的权重,为最佳方案的选择提供依据。(2)主成分分析法(PCA)主成分分析是将分散在一组变量上的信息,集中到某几个综合指标(主成分)上的一种探索性统计分析方法。它利用降维的思想,将多个变量化为少数几个互不相关的主成分,从而描述数据集的内部结构。主成分分析原理。主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理,就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称Fl为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2 即选第二个线性组合。为有效地反映原来信息,F1已有的信息就不需要再出现在F2中。用数学语言表达,就是要求Cov(F1,F2)=0,则称F2 为第二主成分,依此类推,可以构造出第三、第四……,第P个主成分。主成分分析数学模型:国外油气与矿产资源利用风险评价与决策支持技术式中:a1i,a2i,…,api(i=1,…,m)为X的协方差阵∑的特征值多对应的特征向量;ZX1,ZX2,…,ZXp是原始变量经过标准化处理的值。因为在实际应用中,往往存在指标的量纲不同,所以在计算之前需先消除量纲的影响,而将原始数据标准化。本书所采用的数据就存在量纲影响(本书的数据标准化是指Z标准化)。A=(aij)p×m=(a1,a2,…,am,),Rai=λiai,尺为相关系数矩阵,λi,ai是相应的特征值和单位特征向量,λ1≥λ2≥…≥λp≥0。
2023-08-18 03:16:281

什么是主成分分析?主成分分析的步骤有哪些

主成分分析是指通过将一组可能存在相关性的变量转换城一组线性不相关的变量,转换后的这组变量叫主成分。主成分分析步骤:1、对原始数据标准化,2、计算相关系数,3、计算特征,4、确定主成分,5、合成主成分。美信分析
2023-08-18 03:17:052

主成分分析法步骤

主成分分析法的步骤:对原始数据标准化、计算相关系数、计算特征、确定主成分、合成主成分。主成分分析是指通过将一组可能存在相关性的变量转换城一组线性不相关的变量,转换后的这组变量叫主成分。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。主成分分析首先是由K.皮尔森对非随机变量引入的,尔后H。霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。主成分分析法的原理在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。
2023-08-18 03:17:221

主成分分析法介绍 什么是主成分分析法

1、主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。 2、在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。 3、主成分分析首先是由K.皮尔森(Karl Pearson)对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。
2023-08-18 03:18:211

主成分分析和因子分析有什么区别

主成分分析和因子分析都是信息浓缩的方法,即将多个分析项信息浓缩成几个概括性指标。因子分析在主成分基础上,多出一项旋转功能,该旋转目的即在于命名,更容易解释因子的含义。如果研究关注于指标与分析项的对应关系上,或是希望将得到的指标进行命名,SPSSAU建议使用因子分析。主成分分析目的在于信息浓缩(但不太关注主成分与分析项对应关系),权重计算,以及综合得分计算。如希望进行排名比较,计算综合竞争力,可使用主成分分析。SPSSAU可直接使用这两种方法,支持自动保存因子得分及综合得分,不需要手动计算。
2023-08-18 03:18:301

主成分分析的主要步骤包括

收藏立即下载为了提升浏览体验,原视图版网页已升级为如下版式主成分分析法的步骤和原理主成分分析法的步骤和原理.pdf438.91K, 15页, 13478次阅读sshiiwengy6 分享于2016-11-16 09:09立即下载 举报(一)主成分分析法的基本思想主成分分析(Principal Component Analysis )是利用降维的思想,将多个变 量转化为少数几个综合变量(即主成分),其中每个主成分都是原始变量的线性 组合,各主成分之间互不相关,从而这些主成分能够反映始变量的绝大部分信 息,且所含的信息互不重叠。[2]采用这种方法可以克服单一的财务指标不能真实反映公司的财务情况的缺 点,引进多方面的财务指标,但又将复杂因素归结为几个主成分,使得复杂问 题得以简化,同时得到更为科学、准确的财务信息。(二)主成分分析法代数模型假设用p个变量来描述研究对象,分别用 X1, X2…Xp来表示,这p个变量 构成的p维随机向量为X=(X1, X2…Xp)t。设随机向量X 的均值为μ,协方差 矩阵为Σ。假设 X 是以 n 个标量随机变量组成的列向量,并且μk 是其第k个元素的 期望值,即,μk= E(xk),协方差矩阵然后被定义为:Σ=E{(X-E[X])(X-E [X])}=(如图对 X 进行线性变化,考虑原始变量的线性组合:Zp=μ p1X1+μ p2X2+…μ ppXp主成分是不相关的线性组合Z1, Z2……Zp,并且Z1是 X1, X2…Xp的线性 组合中方差最大者, Z2是与 Z1不相关的线性组合中方差最大者,…, Zp是与Z1, Z2 ……Zp-1 都不相关的线性组合中方差最大者。(三)主成分分析法基本步骤第一步:设估计样本数为n,选取的财务指标数为p,则由估计样本的原始 数据可得矩阵 X=(xij)m×p,其中 xij表示第 i 家上市公司的第 j 项财务指标数据。第二步:为了消除各项财务指标之间在量纲化和数量级上的差别,对指标 数据进行标准化,得到标准化矩阵(系统自动生成)。第三步:根据标准化数据矩阵建立协方差矩阵 R,是反映标准化后的数据 之间相关关系密切程度的统计指标,值越大,说明有必要对数据进行主成分分 析。其中, Rij (i, j=1, 2,…, p)为原始变量Xi与Xj的相关系数。 R为实对 称矩阵(即 Rij=Rji),只需计算其上三角元素或下三角元素即可,其计算公式为:1/15页n第四步:根据协方差矩阵 R 求出特征值、主成分贡献率和累计方差贡献率, 确定主成分个数。解特征方程uf06cEuf02dR uf03d 0,求出特征值λi(i=1, 2,…, p)。因为R是正定矩阵,所以其特征值λi都为正数,将其按 大小顺序排列,即λ1≥λ2≥…≥λi≥0。特征值是各主成分的方差,它的大1 且累计贡献率达80%-95%的特征值λ1,λ2,…,λm所对应的1, 2,…, m (m≤p), 其中整数 m 即为主成分的个数。第五步:建立初始因子载荷矩阵,解释主成分。因子载荷量是主成分Zi与 原始指标Xi的相关系数R (Zi, Xi),揭示了主成分与各财务比率之间的相关程 度,利用它可较好地解释主成分的经济意义。第六步:计算企业财务综合评分函数Fm,计算出上市公司的综合值,并进 行降序排列:Fm=W1Z1 + W2Z2+…+ WiZi
2023-08-18 03:18:521

利用加权主成分分析法描述两个或多个

主成分分析法原理如下:主成分分析, 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。主成分分析首先是由K.皮尔森(Karl Pearson)对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。
2023-08-18 03:18:591

主成分分析和因子分析有什么区别?

因子分析与主成分分析的异同点:都对原始数据进行标准化处理; 都消除了原始指标的相关性对综合评价所造成的信息重复的影响; 构造综合评价时所涉及的权数具有客观性; 在信息损失不大的前提下,减少了评价工作量公共因子比主成分更容易被解释; 因子分析的评价结果没有主成分分析准确; 因子分析比主成分分析的计算工作量大主成分分析仅仅是变量变换,而因子分析需要构造因子模型。主成分分析:原始变量的线性组合表示新的综合变量,即主成分;因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。
2023-08-18 03:19:283

因子分析法和主成分分析法的区别与联系

因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子,以较少的几个因子反映原资料的大部分信息。运用这种研究技术,我们可以方便地找出影响消费者购买、消费以及满意度的主要因素是哪些,以及它们的影响力。运用这种研究技术,我们还可以为市场细分做前期分析。
2023-08-18 03:20:194

主成分分析和层次分析法的区别和联系

层次分析法:主成分分析和层次分析两者计算权重的不同,AHP层次分析法是一种定性和定量的计算权重的研究方法,采用两两比较的方法,建立矩阵,利用了数字大小的相对性,数字越大越重要权重会越高的原理,最终计算得到每个因素的重要性。主成分分析(1)方法原理及适用场景主成分分析是对数据进行浓缩,将多个指标浓缩成为几个彼此不相关的概括性指标(主成分),从而达到降维的目的。主成分分析可同时计算主成分权重及指标权重。(2)操作步骤使用SPSSAU【进阶方法-主成分分析】。如果计算主成分权重,需要用到方差解释率。具体加权处理方法为:方差解释率除累积方差解释率。比如本例中,5个指标共提取了2个主成分:主成分1的权重:45.135%/69.390%=65.05%主成分2的权重:24.254%/69.390%=34.95%如果是计算指标权重,可直接查看“线性组合系数及权重结果表格”,SPSSAU自动输出了各指标权重占比结果。其计算原理分为三步:第一:计算线性组合系数矩阵,公式为:loading矩阵/Sqrt(特征根),即载荷系数除以对应特征根的平方根;第二:计算综合得分系数,公式为:累积(线性组合系数*方差解释率)/累积方差解释率,即上一步中得到的线性组合系数分别与方差解释率相乘后累加,并且除以累积方差解释率;第三:计算权重,将综合得分系数进行归一化处理即得到各指标权重值。
2023-08-18 03:20:332

主成分分析中,各主成分的关系

主成分分析中,各主成分的关系是低度相关。主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。主成分分析首先是由K.皮尔森(Karl Pearson)对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。原理:在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法。
2023-08-18 03:20:491

因子分析法如何确定主成分及各个指标的权重?

主成分看方差贡献率就可以,各个指标要二次运算吧。我也正在找,同问。
2023-08-18 03:21:065

主成分分析和层次分析法有什么异同?

层次分析法:主成分分析和层次分析两者计算权重的不同,AHP层次分析法是一种定性和定量的计算权重的研究方法,采用两两比较的方法,建立矩阵,利用了数字大小的相对性,数字越大越重要权重会越高的原理,最终计算得到每个因素的重要性。主成分分析(1)方法原理及适用场景主成分分析是对数据进行浓缩,将多个指标浓缩成为几个彼此不相关的概括性指标(主成分),从而达到降维的目的。主成分分析可同时计算主成分权重及指标权重。(2)操作步骤使用SPSSAU【进阶方法-主成分分析】。如果计算主成分权重,需要用到方差解释率。具体加权处理方法为:方差解释率除累积方差解释率。比如本例中,5个指标共提取了2个主成分:主成分1的权重:45.135%/69.390%=65.05%主成分2的权重:24.254%/69.390%=34.95%如果是计算指标权重,可直接查看“线性组合系数及权重结果表格”,SPSSAU自动输出了各指标权重占比结果。其计算原理分为三步:第一:计算线性组合系数矩阵,公式为:loading矩阵/Sqrt(特征根),即载荷系数除以对应特征根的平方根;第二:计算综合得分系数,公式为:累积(线性组合系数*方差解释率)/累积方差解释率,即上一步中得到的线性组合系数分别与方差解释率相乘后累加,并且除以累积方差解释率;第三:计算权重,将综合得分系数进行归一化处理即得到各指标权重值。
2023-08-18 03:21:471

面板数据怎么做因子分析?和主成分分析的区别

stata 软件 有专门的 这方面的命令
2023-08-18 03:22:012

主成分分析中,各主成分的关系

主成分分析中,各主成分的关系是低度相关。主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。主成分分析首先是由K.皮尔森(Karl Pearson)对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。原理:在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法。
2023-08-18 03:22:101

因子分析和主成分分析有什么区别啊

主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。
2023-08-18 03:22:382

如何用主成分分析法确定指标权重?

在SPSS中,主成分分析是通过设置因子分析中的抽取方法实现的,如果设置的抽取方法是主成分,那么计算的就是主成分得分,另外,因子分析和主成分分析尽管原理不同,但是两者综合得分的计算方法是一致的。层次分析法根据问题的性质和要达到的总目标,将问题分解为不同的组成因素,并按照因素间的相互关联影响以及隶属关系将因素按不同层次聚集组合,形成一个多层次的分析结构模型,从而最终使问题归结为最低层(供决策的方案、措施等)相对于最高层(总目标)的相对重要权值的确定或相对优劣次序的排定。扩展资料:主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。参考资料来源:百度百科-主成分分析法
2023-08-18 03:22:511

层次分析法和主成分分析权重怎么算?

层次分析法:主成分分析和层次分析两者计算权重的不同,AHP层次分析法是一种定性和定量的计算权重的研究方法,采用两两比较的方法,建立矩阵,利用了数字大小的相对性,数字越大越重要权重会越高的原理,最终计算得到每个因素的重要性。主成分分析(1)方法原理及适用场景主成分分析是对数据进行浓缩,将多个指标浓缩成为几个彼此不相关的概括性指标(主成分),从而达到降维的目的。主成分分析可同时计算主成分权重及指标权重。(2)操作步骤使用SPSSAU【进阶方法-主成分分析】。如果计算主成分权重,需要用到方差解释率。具体加权处理方法为:方差解释率除累积方差解释率。比如本例中,5个指标共提取了2个主成分:主成分1的权重:45.135%/69.390%=65.05%主成分2的权重:24.254%/69.390%=34.95%如果是计算指标权重,可直接查看“线性组合系数及权重结果表格”,SPSSAU自动输出了各指标权重占比结果。其计算原理分为三步:第一:计算线性组合系数矩阵,公式为:loading矩阵/Sqrt(特征根),即载荷系数除以对应特征根的平方根;第二:计算综合得分系数,公式为:累积(线性组合系数*方差解释率)/累积方差解释率,即上一步中得到的线性组合系数分别与方差解释率相乘后累加,并且除以累积方差解释率;第三:计算权重,将综合得分系数进行归一化处理即得到各指标权重值。
2023-08-18 03:23:061

层次分析法和主成分分析权重怎么算?

层次分析法:主成分分析和层次分析两者计算权重的不同,AHP层次分析法是一种定性和定量的计算权重的研究方法,采用两两比较的方法,建立矩阵,利用了数字大小的相对性,数字越大越重要权重会越高的原理,最终计算得到每个因素的重要性。主成分分析(1)方法原理及适用场景主成分分析是对数据进行浓缩,将多个指标浓缩成为几个彼此不相关的概括性指标(主成分),从而达到降维的目的。主成分分析可同时计算主成分权重及指标权重。(2)操作步骤使用SPSSAU【进阶方法-主成分分析】。如果计算主成分权重,需要用到方差解释率。具体加权处理方法为:方差解释率除累积方差解释率。比如本例中,5个指标共提取了2个主成分:主成分1的权重:45.135%/69.390%=65.05%主成分2的权重:24.254%/69.390%=34.95%如果是计算指标权重,可直接查看“线性组合系数及权重结果表格”,SPSSAU自动输出了各指标权重占比结果。其计算原理分为三步:第一:计算线性组合系数矩阵,公式为:loading矩阵/Sqrt(特征根),即载荷系数除以对应特征根的平方根;第二:计算综合得分系数,公式为:累积(线性组合系数*方差解释率)/累积方差解释率,即上一步中得到的线性组合系数分别与方差解释率相乘后累加,并且除以累积方差解释率;第三:计算权重,将综合得分系数进行归一化处理即得到各指标权重值。
2023-08-18 03:23:191

主成分进行综合评价 综合评价主成分分析方法与因子分析方法的比较

统计研究 主成分分析方法和因子分析方法都是寻求从高维空间到低维空间的映射的方法,其目的是起到降维的效果,以便于用几个较少的综合指标来综合所研究总体各方面的信息,且这几个指标所代表的信息不重叠,也就是说从高维空间到低维空间的映射仍保持高维空间的“序”的结构。但这两种综合评价方法往往易混淆,本文从这两种方法的统计依据、数学模型、计算方法、综合指标的选取等方面比较它们的异同,以供初学者参考。 1、统计依据不同。主成分分析方法的统计问题:依P个指标戈l,x2,A,戈P的/7,个观察值矩阵X=G0帅(已作标准化处理),能否找到能较好地综合反映这个P .二 指标的线性函数Y=乞atxt,即 i=1 找到这个主成分的方法就是主成分分析方法。 因子分析方法的统计问题仍 口由P个指标戈。,戈:,A,却的几个观钱道察信息阵X=GF)忡,用有限个不翠 可观测的潜在变量来解释原始变量间的相关性或协方差关系,寻求这几个公因子的方法就是因子缉含汗价士气分析劣珐乡图分奸劣珐的火仪 分析法。它的原理源于已知信息的指标向量戈=0。,戈:,A,菇P)",总存在正交变换戈=Qy使得记x=Az,这里正交阵Q是X=G0。巾的 协方差阵y的特征向量排成的,y的各分量是不相关的,若茹的方差集中在少数几个变量三,,A,缸上,即y的特征值A,,A,A。较大,后几个特征值A九,A,A。很小几乎为零,于是就有因子模型算=4厂+s。寻求公因子.厂及因子载荷阵A的方法就是因子分析法。 , 2、数学模型不同。主成分分析的数学模型:Y=Eat..ri, 1=1 即主成分是原始指标的线性函数。因子分析的数学模型(称因子模型):戈=4厂+£,A为因子载荷阵。厂为公因子向量,£为随机误差项,Vnroq=I。,Var(厂+8)=o,Var I30圈羹堑绻过丝Q丝生皇塑万  方数据(8)=D。从形式上看二者的模型不同,但主成分分析又为因子分析中因子的寻求提供了一个有效的途径。主成分分析与因子分析法最易混淆的地方在于,将主成分分析方法与因子分析方法中估计公因子及因子载荷阵的主分量(主因子)法混为一谈。求解因子模型的方法有多种,也就是说因子模型的解不惟一,主分量(主因子)法仅仅是其中的一种参数估计方法。 3、计算方法不同。因子分析的主分量法:为估计 模型石气伊£的A及.厂'设样本协方差阵y的特征值为 A1>--A:≥A≥A,≥0,相应的特征向量为e,,e2,A,e,,若前 o. 个特征值的和与总方差上4的比大于,则 loI VzAgle:+人+丸已。em7+D f√五彳1f《 1 =(√丑q,A,√厶%1MI+I O I√九L.I I盯;J =AA"+D 因子载荷阵A2(√丑巳,人,√丸%),砰=%一∑彳,(汪l,2.A,p), t=l 由这种方法得到因子模型的一个解A及D就是因子模型的主分量解。因子载荷阵A中的第J列的元素与 D 主成分分析中第,个主成分乃=∑唧^的系数啕仅相差 r- Id √^倍,因子分析的主分量解也是因此而得名。因子 载荷阵A,舻(60的第i行元素的意义:由模型x=价E 及V=AA 7+D看出,Var(xi)=b21怕刍+A,坛+研,即 b;反映了因子.五载荷了施的方差的量。故我们在求 解因子模型时,可将因子作旋转,使因子载荷阵中每一行的值尽可能两极化(接近于0或接近与±1),使其因子更具实际意义,这样就有了因子旋转的方法求解因 子模型。石=Ap8=APl盼8,令g=可,B=APl,则髫= 则为斜交变换。曰为因子模型的又一解。 4、综合评价的指标不同。因子得分是公因子的估归分析中的参数估计,因为公因子是潜在因素,事先无法度量和观察的。有了因子得分,它们的加权组合就得到综合评价指标E。即.f个因子的得分为向量 《旁 丑. ,∑一 羔A。。 (下转第32页) 盼£,若P为正交阵,则上述变换g=可为正交变换,否 计值。可用最小二乘回归的方法估计,但它又不同于回 统计研究 出相应的研究结果。 “旧房(二手房)房价收入比”是指某一整体内上市旧房(--手房)上市交易的平均价格与居民家庭户均收入的比例,这一指标与新房房价收入比对照,可用于评估该整体内的旧房折旧程度,也可以比较居民家庭对新旧住房的需求情况,从而得出研究结果。 在计算新房房价收入比与旧房房价收入比基础上,再按上市住房总蜃中新房所占的比例和旧房所占的比例作为新房房价收入比和旧房房价收入比的权重,加权计算整体房价收入比,公式为:房价收入比=∑新(IEt)房房价收入比×新(i11)房占上市住房的比例。三、按照居民是否拥有自有住房细分计算房价收入比 目前,我国大多数城市居民家庭拥有自有住房。他们如要进入市场,绝大多数是卖掉原有住房,再去买大些好些的住房,以改善居住条件。对于拥有住房的家庭户,购买新建商品房,其住房消费承受能力不能按新建商品房销售价格与家庭收入的比较来衡量。因为这部分居民可以通过销售自有住房所得来支付购买新建商品房房款÷",也可以出租自有住房所得来支付银行按揭购房的按揭款。如果考虑这一因素,对这一部分居民家庭购房的房价收入比可以按以下公式计算:有房户房价收入比=(新建商品房平均销售价格一自有住房平均销售价格)÷拥有自有住房居民家庭户均收入。 计算公式的这一改变对房价收入比的计算方法起到了补充和扩展作用,因为它考虑了我国经济发展水平和多数居民拥有自有住房的特点,能够较好的衡量城市居民购买住房的实际承受能力。这一公式计算结果会降低某一区域的房价收入比指标值,在政策与舆论导向上会提高居民购房的心理承受能力。实际上,我国大多数城市房地产业发展很快,房价涨幅较高,主要因素是居民的住房消费需求大于住房供给的结果。城市中,除了最低收入者外,大多数拥有住房的家庭,都具有一定的购买更大更好住房的能力或是具有置换住房的能力。(上接第30页) 上 对于没有住房的居民家庭,情况也不一样,大体可以分为三类:第一类是自身有较高收入或可以得到家庭支持的无房户(这类无房户所占比重较小),实际上有较高的购房能力;第二类是中等收入者无房户,其中年轻人占的比重最大,政府应鼓励他们购房,用人单位给予一定的补贴;第三类是低收人者无房户,应通过政府的廉租屋政策来解决居住问题,不参加买方行列,使他们能享受政府福利,享受改革开放的成果。对第一类与第二类无房户,房价收入比可以按市场平均房价与它们的平均收入之比计算。 在分别计算有房户与无房户的房价收入比基础上,同样也可以用有房户和无房户占总家庭户数的比例作为它们各自房价收入比的权重,计算某地区的综合房价收入比,公式为:房价收入比=∑有(无)房户的房价收入比×有(无)房户家庭户数占总家庭房数的比例。 总之,为了正确的衡量广大居民住房消费的能力,制定科学合理的政策,引导房地产市场的健康发展,需要不断的深化研究房价收入比的计算方法。前面介绍的房价收入比指标从不同的角度反映居民住房消费承受能力,而且每种角度计算都会使得整体的房价收入比指标值比现行计算的房价收入比指标值要小,也就是说,考虑到各收入阶层的不同、新旧住房的区别、是否存在自有住房这几方面因素之后,让我们再用所得到的房价收人比来评价整体居民的住房消费承受能力,就会对部分专家认为的“现在我国已经出现了住房泡沫危机”有一个更清晰的认识。 分析发达国家经济发展历史,对照我国房地产业发展过程,我国的房地产业总体上还是处在起步阶段。当然在房地产业发展过程中,特别是在起步阶段,市场还不够成熟,市场规则制定与完善以及居民住房消费理性预期的养成,都需要有一个过程,因而,在现阶段,部分地方房价涨幅比较高,也是正常的。笔者觉得,就整体而言,我国现行的房地产业并没有出现很大的泡沫,但可能少数城市,由于人为炒作等原因,可能会存在结构性的供求失衡,存在一定的房地产泡沫。 (作者单位:东北财经大学统计系u30fb邮编:116025)综上所述,主成分分析与因子分析都是综合评价的有效方法,它们有区别,也有联系,第_『个因子上的载荷是该总体第J个主成分的系数的A,倍。用因子分析作综合评价不仅可以给出排名顺序,还可以进一步探索影响排名次序的因素,从而找到进一步努力的方向,这就是因子分析所具有的独到的优越性。 (作者单位:浙江工商大学统计与计算科学学院) {;;;;i!{j|;;;;;j;;;i;Ejj;;;;;;;i;jj;i;;i;ij;;;;;i;;;;!;;i;i;;!;;;i;÷;;;iii;;;;!i;i;;;;;;j;;;;;!;;;i;;;E;ij;;;;;;;;;;i;;;;i;;;;;ji;!;;;;;;;ii;;;; 而主成分分析一般按第一主成分的得分Y-=艺口rXi的 i=1 值排序,若第一主成分作为综合指标损失较多的信息, 可继续选取第二主成分y2,A,ym等,然后计算其综合得 矗 分二wjyj再利用综合得分指标排序。 万方数据  综合评价主成分分析方法与因子分析方法的比较 作者:作者单位:刊名:英文刊名:年,卷(期):被引用次数: 钱道翠 浙江工商大学统计与计算科学学院浙江统计 ZHEJIANG STATISTICS2004(9)5次 引证文献(5条) 1.高磊 基于主成分分析方法的体育健身消费行为影响因素研究[期刊论文]-市场论坛 2009(1) 2.田开.郑宗培.虞小海 主成分分析法在学生成绩分析中的应用[期刊论文]-大众商务(下半月) 2009(12)3.FEI Nina.刘新平 入境游客对我国旅游接待设施评价的因子分析[期刊论文]-西安石油大学学报(社会科学版)2008(3) 4.应敏 多元统计分析在考试成绩分析中的应用[期刊论文]-中国科技信息 2006(4)5.石丽君 国际科技活动效率评价方法研究[学位论文]硕士 2005 本文链接:.com.cn/Periodical_zjtj200409013.aspx
2023-08-18 03:23:271

spss中相关性分析的原理是什么

_问题描述:在SPSS中做主成成分分析的时候有一步是指标之间的相关性判定,我想知道具体是怎么进行判定的,他的算法、原理是什么?答案1:: 说判定有些严格,其实就是观察一下各个指标的相关程度。一般来说相关性越是高,做主成分分析就越是成功。主成分分析是通过降低空间维度来体现所有变量的特征使得样本点分散程度极大,说得直观一点就是寻找多个变量的一个加权平均来反映所有变量的一个整体性特征。评价相关性的方法就是相关系数,由于是多变量的判定,则引出相关系数矩阵。评价主成分分析的关键不在于相关系数的情况,而在于贡献率,也就是根据主成分分析的原理,计算相关系数矩阵的特征值和特征向量。相关系数越是高,计算出来的特征值差距就越大,贡献率等于前n个大的特征值除以全部特征值之和,贡献率越是大说明主成分分析的效果越好。反之,变量之间相关性越差。举个例子来说,在二维平面内,我们的目的就是把它映射(加权)到一条直线上并使得他们分散的最开(方差最大)达到降低维度的目的,如果所有样本点都在一条直线上(也就是相关系数等于1或者- 1),这样的效果是最好的。再假设样本点呈现两条垂直的形状(相关系数等于零),你要找到一条直线来做映射就很难了。一般来说前三个主成分的贡献率在90%以上,第一个主成分的贡献率在 70%效果就已经很好了。答案2:: 你直接看书吧 那原理我要写一天 才能发给你。。。
2023-08-18 03:23:371

主成分分析法详细步骤

主成分分析法的详细步骤如下:第1步:标准化这一步的目的是把输入数据集变量的范围标准化,以使它们中的每一个均可大致成比例地分析。更具体地说,在使用PCA之前必须标准化数据的原因是PCA对初始变量的方差非常敏感。也就是说,如果初始变量的范围之间存在较大差异,那么范围较大的变量将占据范围较小的变量(例如,范围介于0和100之间的变量将占据0到1之间的变量),这将导致主成分的偏差。因此,将数据转换为可比较的比例可避免此问题。在数学上,这一步可以通过减去平均值,再除以每个变量值的标准偏差来完成。只要标准化完成后,所有变量都将转换为相同的范围[0,1]。第2步:协方差矩阵计算了解输入数据集的变量是如何相对于平均值变化的。或者换句话说,是为了查看它们之间是否存在任何关系。因为有时候,变量间高度相关是因为它们包含大量的信息。因此,为了识别这些相关性,我们进行协方差矩阵计算。第3步:计算协方差矩阵的特征向量和特征值,用以识别主成分特征向量和特征值都是线性代数概念,需要从协方差矩阵计算得出,以便确定数据的主成分。开始解释这些概念之前,让我们首先理解主成分的含义。主成分是由初始变量的线性组合或混合构成的新变量。该组合中新变量(如主成分)之间彼此不相关,且大部分初始变量都被压缩进首个成分中。所以,10维数据会显示10个主成分,但是PCA试图在第一个成分中得到尽可能多的信息,然后在第二个成分中得到尽可能多的剩余信息,以此类推。第4步:特征向量正如我们在上一步中所看到的,计算特征向量并按其特征值依降序排列,使我们能够按重要性顺序找到主成分。在这个步骤中我们要做的,是选择保留所有成分还是丢弃那些重要性较低的成分(低特征值),并与其他成分形成一个向量矩阵,我们称之为特征向量。因此,特征向量只是一个矩阵,其中包含我们决定保留的成分的特征向量作为列。这是降维的第一步,因为如果我们选择只保留n个特征向量(分量)中的p个,则最终数据集将只有p维。第五步:沿主成分轴重新绘制数据在前面的步骤中,除了标准化之外,你不需要更改任何数据,只需选择主成分,形成特征向量,但输入数据集时要始终与原始轴统一(即初始变量)。这一步,也是最后一步,目标是使用协方差矩阵的特征向量去形成新特征向量,将数据从原始轴重新定位到由主成分轴中(因此称为主成分分析)。这可以通过将原始数据集的转置乘以特征向量的转置来完成。
2023-08-18 03:23:461

主成分分析的目的

主成分分析的主要目的是希望使用较少的变量去解释原来资料中的大部分的变异,将我们手上许多相关性很高的变量转化成彼此相互独立或不相关的变量1、通常是选用比原始变量个数少,且新变量能解释大部分资料中变异的几个新变量即所谓的主成分,且以解释资料的综合性指标。综上所述,主成分分析法实际上式一种降维方法。2.特点(1)维度灾难使用过多的变量时,需要估计的参数个数也在增加,在训练集保持不变的情况下待估参数的方差也会随之增加,导致学习量上升、学习效率下降。维度灾难简单来说就是变量的个数多。(2)变量之间的相关性高变量之间的相关性高,说明数据是有冗余的,数据中的信息是有重叠的。相关性高是我们利用主成分进行降维的前提条件,一个基本的适用经验:观察变量的相关系数矩阵,一般来说相关系数矩阵中多数元素绝对值大于0.5,非常适合做主成分分析,但也不是说小于的就不可以用这种方法。原文链接:https://blog.csdn.net/chengdong996/article/details/108409320
2023-08-18 03:24:091

用SPSS做主成份分析结果解释。

spss如何做主成分分析 主成分分析的主要原理是寻找一个适当的线性变换: u2022将彼此相关的变量转变为彼此独立的新变量; u2022方差较大的几个新变量就能综合反应原多个变量所包含的主要信息; u2022新变量各自带有独特的专业含义。 住成分分析的作用是: u2022减少指标变量的个数 u2022解决多重相关性问题 步骤阅读 工具/原料 spss20.0 方法/步骤 >01 先在spss中准备好要处理的数据,然后在菜单栏上执行:analyse--dimension reduction--factor analyse。打开因素分析对话框 >02 我们看到下图就是因素分析的对话框,将要分析的变量都放入variables窗口中 >03 点击descriptives按钮,进入次级对话框,这个对话框可以输出我们想要看到的描述统计量 >04 因为做主成分分析需要我们看一下各个变量之间的相关,对变量间的关系有一个了解,所以需要输出相关,勾选coefficience,点击continue,返回主对话框 >05 回到主对话框,点击ok,开始输出数据处理结果 >06 你看到的这第一个表格就是相关矩阵,现实的是各个变量之间的相关系数,通过相关系数,你可以看到各个变量之间的相关,进而了解各个变量之间的关系 >07 第二个表格显示的主成分分析的过程,我们看到eigenvalues下面的total栏,他的意思就是特征根,他的意义是主成分影响力度的指标,一般以1为标准,如果特征根小于1,说明这个主因素的影响力度还不如一个基本的变量。所以我们只提取特征根大于1的主成分。如图所示,前三个主成分就是大于1的,所以我们只能说有三个主成分。另外,我们看到第一个主成分方差占所有主成分方差的46.9%,第二个占27.5%,第三个占15.0%。这三个累计达到了89.5%。
2023-08-18 03:24:311