当前位置: 首页 > >

因子分析模型L及其解是更好的

发布时间:

 第 24 卷第 8 期 2007 年 8 月

统计研究 Statistical Research

Vol . 24 , No18   Aug. 2007

因子分析模型 L 及其解是更好的3

林海明  王 翊

  内容提要 :本文应用因子分析模型 L 及其解 ,求出了经典因子分析模型中公因子载荷 、公因子 、特殊因子的精 确解 ,解决了经典因子分析模型和理论存在的 9 个问题 ,进一步 ,指出了经典因子分析模型及其解根本的局限性问 题 :公因子解没有排除观测误差的干扰 ,不能达到降维的目的等 。而理论和实证上 ,因子分析模型 L 及其解解决了 这些问题 ,即因子分析模型 L 及其解是更好的 ,其为因子分析正确模型 、理论和方法的使用 ,为因子分析法的发展 建立了精确解的理论基础 。同时 ,本文给出了因子分析法的应用建议 ,提出了需要进一步研究的一些相关问题 。
关键词 :因子分析模型 L ;解 ;更好 中图分类号 :C212    文献标识码 :A    文章编号 :1002 - 4565 (2007) 08 - 0077 - 07

Factor Analysis Model L and Improved Solution of Factor Analysis
Lin Haiming & Wang Yi
Abstract : In many fields , such as society , economy , business and physical science , factor analysis models is applied in the multi2index system of these fields , but factor analysis models and theory is not complete , which cumbers the application and development of factor analysis. This paper uses standardization , factor sorting , special factor and special component to prove that factor analysis models is equivalent to factor analysis models L , and what’s more , gives the precise solutions of factor analysis models. In this paper , the author resolves the nine shortcomings of factor analysis and establishes the theory base for the application and development of factor analysis methods.
Key words :Factor analysis model L ; solutions ; Better

  一 、引言
经典 的 因 子 分 析 模 型 是 1904 年 由 Charles Spearman 提出的 ,在社会经济 、管理 、自然科学等众 多领域的多指标体系中 ,因子分析法常被应用于综 合评价与监控 。但经典因子分析模型和理论是很不 完善的[1] ,其思想方法是估计 ,据归纳一些国内外有 影响的统计学家 ,如张尧庭 、方开泰 、方积乾 、张润 楚 、R. A. Johnson 和 D. W. Wichern 等 教 授 在 文 献[1 —9 ,13 —15]中指出了 , 经典因子分析模型和理论存 在的 9 个问题 (详见第三部分) ,这些问题长期以来 阻碍了因子分析模型 、理论 、方法和应用方面的发 展 。能找到更好的模型和理论 ,解决经典因子分析 模型和理论存在的 9 个问题吗 ?
本文的思想方法是求精确解 。具体是利用因子 分析模型 L 及其解[10] (详见第二部分) ,求出了经典 因子分析模型中公因子载荷 、公因子 、特殊因子的精 确解 ,解决了经典因子分析模型和理论存在的 9 个

问题 。进一步 ,指出了经典因子分析模型及其解根 本的局限性问题 :公因子解没有排除观测误差的干 扰 ,不能达到降维的目的 ,解释 X 的协方差关系是 更差的等 。而理论和实证上 ,因子分析模型 L 及其 解解决了这些问题 ,即因子分析模型 L 及其解是更 好的 ,其为因子分析正确模型 、理论和方法的使用 , 为因子分析法的发展建立了精确解的理论基础 。同 时 ,本文给出了因子分析法的应用建议 ,提出了需要 进一步研究的一些相关问题 。
  二 、因子分析模型 L 及其解
现在给出 ,最终解决了上述问题的因子分析模 型 L 及其解 。
设 X = ( x1 , …, xp )′为正向化 、标准化随机向量
3 本文为国家社会科学研究基金项目 (05BJ Y025) 、广州市哲学 社会科学规划资助课题 (06 YZ140) 阶段成果 ,广东商学院经济贸易与 统计学院 2006 年资助课题 。

 ·7 8·

统计研究

2007 年 8 月  

( p ≥2) , R 为相关系数矩阵 ,设 R 的特征值为λ1 、 …、λr 、0 ,λr ≥…≥λr > 0 (λi 达到降序排列最大化) , r = 秩 ( R ) ≤p , A = ( aij ) p ×p = (α1 , …,αp ) 、这 里 Rαi =λαi i , i = 1 , …, m , Rαk = 0 , k = r + 1 , …,

p , AA′= Ip ( p 阶单位阵) 。 设 主 成 分 F = ( f 1 , …, f p ) ′, 则 主 成 分 分 析
( Hotelling ,1933) 的解[1]

F = A′X ,

(1)

V arF = diag (λ1 , …,λr ,0 , …,0)

(2)

取 m ≤r ,记 Am = (α1 , …,αm ) , Fm = ( f 1 , …, f m ) ′, Aε

= (αm + 1 , …,αr ) , Fε = ( f m + 1 , …, f r ) ′

初始 因 子 载 荷 阵

B

0 m

=

(α1λ11Π2 ,

…,

αλ1Π2 mm

)

,

Bε0 =

α λ ( 1Π2 m+1 m+1

, …,αλr 1rΠ2 )

,

Z0m

(

f

λ-
11

1Π2

,

…,

λ f - 1Π2 mm

) ′=

diag (λ1- 1 ,λ2- 1 , …,

λm- 1 ) B′0 X [ 由式 (1) ] ,

ε0

( λ f - 1Π2 m+1 m+1

,

…,

f

λ-
rr

1Π2 ) ′

=

diag

(λm-

1 +

1

,

…,λr-

1)

( Bε0 ) ′X [ 由式 ( 1)

]

,

C



B

0 m

的方差最大化正交旋转矩阵[ 1 ]



笔者在工作中 ,用 r = 秩 ( R) ≤p 的一般性假

设 ,X

=

AF =

Am Fm

+

AεFε =

(

B

0 m

C)

( C′Z0m )

+

Bε0ε0

=

B

0 m

Z0m

+

Bε0ε0

,给出了因子分析模型 L

及其解 。

记 B = ( B m , Bε) , B m = ( bij ) p×m , Bε

= ( ) bi m+ j p×( r- m) , Z = ( Zm , Zε) , Zm

= ( z1 , …, zm ) ′, Zε = ( zm+1 , …, zr ) ′, vi

∑ =

p k=1

b2ki

,i

=

1 , …r 。

因子分 析 模 型 L[10]  求 Bm 、Zm ( m ≤r) 、Bε、

Zε ,使 :

X = Bm + Zm + BεZε = B Z , ae ( R = BB′) (3) V arZm = Im 、V arZε = Ir- m 、cov ( Zm , Zε) = 0

∑ ( VarZ = Ir) ,

m i =1

vi

达到最大 。

(4)

Zm 称为降维因子 , Bm 称为降维因子载荷阵 , Zε 称 为随机误差因子 , Bε 称为误差因子载荷阵 , Be Zε 称

为随机误差 , vi 称为因子 zi 的方差贡献 。 11 定理 1[10]  因子分析模型 L 旋转后精确解

(标准化旋转) :

Bm

=

B

0 m

C

,

Zm

=

C′Z0m ,

∑ ∑ m i = 1 vi =

λ m , i = 1 i

vi ≠λi , i = 1 , …, m ,

Bε =

Bε0 , Zε = ε0 , vi

=

λ i

,

i

≥m ,

BεZε = Bε0ε0 = AεFε。

  在下述规则 1 、规则 2 下 ,定理 1 的因子分析模

型 L 旋转后精确解是达到降维目的的最好解。



C=

Im

(对

B

0 m

不进行旋转)

,代人定理 1 有 :

21 定理 2  因子分析模型 L 未旋转精确解 (标

准化主成分) :

Bm

=

B

0 m

,

Zm

=

Z0m , vi

=

λ i

,

i

=

1 , …, m ,

Bε = Bε0 , Zε = ε0 , vi = λi , i ≥ m ,

BεZε = Bε0ε0 = AεFε。

  31 规则 1 (降维规则)

 m

的选取以

B

0 m

每行至

少有一个元素绝对值最靠* 1 (建议 ≥016) 中的最

小列数确定是更好的 。

41 规则 2 (旋转后解使用条件)

 与

B

0 m

比较 ,

如果

B

0 m

C

每行元素的绝对值往

0



1

靠*得多 (

C′

Z0m 较 Z0m 命名清晰 、与 X 相关性大) , 则旋转后解

C′Z0m 较未旋转解 Z0m 更好 。

  三 、问题与研究概述

  现给出经典的因子分析模型 ,设公因子载荷阵

Bs = ( bij ) p ×s 、公因子 Zs = ( z1 , …, zs ) ′,特殊 (独特)

因子向量ε= (ε1 , …,εp ) ′,记 diag ( c1 , …, ck ) 是以

c1 , …, ck 为对角元素的对角矩阵 。

经典因子分析模型[1]  求 Bs 、Zs 、ε,使 :

X = Bs Zs + ε, s ≤ p ,

  VarZs = Is , Eε= 0 , Vaεr = ψ= diag (ψ1 , …,ψp ) ,

ψ i

≥0 , i

= 1 , …, p ,cov (

Zs

,ε)

=

0

,这里

ψ i

称为特殊

方差 ,ψ称为特殊方差阵 。

据归纳 ,一些国内外有影响的统计学家等在文

献中指出了 ,经典因子分析模型和理论存在的如下

9 个问题 ,其中前 4 个是关键问题 :

11

B

0 m

与经典因子分析模型没有建立关

系[1 - 7 ,13 - 15] “, 对 因 子 分 析 不 幸 的 是

R

≠B

0 m

(

B

0 m

)



+ ψ,且使其中因子数 m 较 p 小得多 。”[1 ,4 ,5]

21ε与随机误差 BεZε 的区别不明确[1 —8 ,13 —15] ,

如将“独特因子的取值 (未知) 看作随机误差”[3 —5] ,

“在许多调查中

,倾向认为

ε j

是测量误差和唯一地

与各单个变量有关的那些因子的组合 。”[8]

31 更好的因子解至今没有确定[1 —7 ,13 —15] ,如“巴

特莱特 (Bartlett ,1937) 因子得分是无偏的 ,而汤姆森

( Thompson ,1951) 因子得分是有偏的 。”[2 ,4]“汤姆森

第 24 卷第 8 期

林海明  王翊 :因子分析模型 L 及其解是更好的

·7 9· 

因子得分有有较小的*均预报误差 。所以长期以来

一直有争论 ,那一个估计更好一点 ,至今尚未有定

论 。”[2 ,14] 。

41 降维因子 m 的确定方法 ,解释 R 的正交协 方差关系不是更好的 ,[1 —7 ,13 —15] 如主成分法中 “, 直

接就取头 m 个特征根及特征向量 ,使得它们的特征 值之和占全部特征根的 85 %以上 ,”[1 ,3 —7] 有时会丢

失被解释变量 。

51 Zs 与 F 的精确关系没有建立 ,不能明确因子 分析与主成分分析的异同 ,[1 —7 ,13 —15] 如“主成分分析

和因子分析会给出相同的结果 。”[4 ,13]

61 Zs 与 X 的精确关系没有建立[1 —7 ,13 —15] ,设 R^ 为样本 相 关 阵 , 当 n ≤p ( 小 样 本) 时 , | R^ | = 0 ,

“SAS910 计算因子得分是错误的 。”[9]“SPSS1410 计

算 R^ 的 特 征 值 无 零 特 征 值 ( 误 差 较 大 , 不 可 信 赖) ,”[9] p = 2 时 “, 基本因子与原始变量一般不在同 一*面内”[4] 。

71 设 非 零 特 殊 因 子 个 数 为 k , s + k 不 确 定 ,[1 —7 ,13 —15] 如“虽然在 R = BB′中 R 的因子分析表

示是精确的 ,但它并不很有用 :它用到和所有变量一

样多的公共因子”[5] p = 2 时“公共因子 z1 与独特因 子ε1 ,ε2 正交 ,又ε1 与ε2 正交 。”[4]

81 Zs 的主因子估*馕蟛畲 ,目前没有更好的 方法降低误差[1 —7 ,13 —15] ,如主因子法“这个方法的关 键是 s 的选择 。因为 R - ψ有 p - s 个零特征根 ,有 可能 R^ - ψ^ 的部分特征根是负的 。”[2 ,4 ,5]

91Bs 的极大似然估计误差很大的理论原因不 明确 。[1 —7 ,13 —15 ]

上述问题直接与 Bs 、Zs 、ε有关 ,故求经典因子

分析模型的精确解是解决问题的关键 。

研究进展 :在张尧庭和方开泰教授 (1982) 的文

献[1] 中 ,对问题 1 ,设 X^ 为*似原始变量 ,建立了 X^

=

B

0 m

Z0m

=

(

B

0 m

C

)

( C′Z0m ) ; 对 问 题

5,建立了

Z0m

=

(

f

λ-
11

1Π2

,

…,

f

λ-
mm

1Π2

)

′。但

B

0 m

(或

B

0 m

C

)

、Z0m

(或 C′Z0m ) 与 Bs 、Zs 、X 的关系待明确 。

记 Ap - m = (αm + 1 , …,αp ) , Fp - m = ( f m + 1 , …,

f p) ′,在方积乾 、何晓群 、余锦华和杨维权教授的文

献用“X

=

Am Fm

+

Ap-

m Fp -

m



B

0 m

Z0m

+ε”,得出了因

子解

Z0m

=

(

f

λ-
11

1Π2

,

…,

f

λ-
mm

1Π2

)

′, 但

Z0m



Zs

的关

系待明确 。

在 R. A. Johnson 和 D. W. Wichern 教授 (2003) 的

文献[5] 中 ,对问题 6 ,该文献评注中 “, 由主成分方法

估计的因子载荷 ,用未加权 (普通的) 最小二乘过程

生成因子得分解 。”得出因子得分 Z0m = diag (λ1- 1 ,

λ- 1 2

, …,λm- 1 )

(

B

0 m

)

′X

(



C′Z0m ) 有小样本降维解的

结论 ,但精确性有待明确 。

在候文的工作[12] 中 ,针对问题 4 提出了用因子

对变量进行分组 ,再分别对变量进行主成分评价的

方法 ,但可靠性 、精确性有待深入 。 上述研究的共性 :解是估计或*似的 ,不是精确

的。

笔者用因子分析模型 L 及其解 ,解决的问题有 :

11 常用的因子载荷

B0

C



B

0 m

是因子分析模

型 L 的降维因子载荷阵精确解 ;21 Bε0ε0 是因子分析

模型 L 的误差项精确解 ,ε0 使 X 出现观测信息贡献

误差

∑r i=

λ m + 1 i

,其对

X 没有解释作用 ;31 常用的因

子解 C′Z0m 或 Z0m 是因子分析模型 L 的降维因子精

确解 ,其排除了 ε0

的干扰 ,解释

X

的信息为

∑m i=

1λi

达到最大化 ,达到了降维的目的等 ,因子解 C′Z0m 或

Z0m

是因子载荷解

B

0 m

C



B

0 m

相应的汤姆森因子得

分 ;41 m

用因子载荷解

B

0 m

C



B

0 m

中对应变量不出

现丢失确定 ; 51 给出了因子解 C′Z0m 或 Z0m 与主成

分解 Fm 的等价关系式及其区别 ;61 给出了因子分

析模型 L 及其小样本降维解的 SAS 软件计算与综合

评价 ;71 因子分析模型 L 的所有因子解个数为 r =

秩 ( R) ≤p ;但因子分析模型 L 与经典因子分析模型

解的关系 、经典因子分析模型的精确解有待建立 ,从

而国内外专家指出的经典因子分析模型和理论存在

的 9 个问题的解决 ,仍然有待再深入 。

  四 、精确解

设非零特殊因子 εt1 、…、εtk 的标准化为 zs + t1 ,

…, zs + tk ,非零特殊因子角标集合 T = { t1 , …, tk } , et

为第 t 个元素为 1 、其余元素为 0 的 p 维单位列向

量 , Hk

=

ψ ( e 1Π2 t1 t1

, …,ψ1tΠk2etk ) 称为非零特殊因子载荷



,

B

0 m

、Z0m

、Bε0 、ε0

表示同定理

2。

通过定理 2 ,将 ( Z′s , zs + t1 , …, zs + tk ) ′按其中因 子方差贡献和排顺序 ,经典因子分析模型的解与因 子分析模型 L 的解可相互表示为 :

11 引理 1  经典因子分析模型中 ,

(1)

( Bs

,

Hk

)

的精确解是

(

B

0 m

, Bε0 ) 中列向量的

1

 ·8 0·

统计研究

2007 年 8 月  

个排列组成的矩阵 ; (2) ( Z′s , zs + t1 , …, zs + tk ) ′的精确解是 [ ( Z0m ) ′,
ε′0 ]的 1 个排列组成的向量 ,即 s + k = r ≤p 。 该引理解决了经典因子分析模型与因子分析模

型 L 解的关系问题 ,解决了问题 7 (证明见后附) 。



B

0 m

=

( b0ij ) p ×m

=

( b01

,

…, b0m ) 、Z0m

=

( z01

,

…,

z0m ) 、Bε0

=

( ) b0 i m + j p ×( r - m)

=

( b0m + 1 , …, b0r ) 、

ε0 = ( z0m + 1 , …, z0r ) ′。

通过非零特殊因子与相应初始因子载荷 、相应

特征向量 、相应主成分的关系 ,得到非零特殊因子解

的具体表示 :

21 定理 3  设 X 中互不相关的变量为 xt1 , …, xtk ( k ≥0) ,则
ε = Hk ( xt1 , …, xtk ) ′, Hk = ( et1 , …, etk ) , ψ = Hk H′k 。
  即非零特殊因子是 X 中互不相关的变量为 ,

xt1 , …, xtk (证明见后附) 。

由规则

1



,初始因子载荷阵

B

0 m

含有非零特

殊因子载荷

Hk

,记

B

0 m

的前 m

-

k

列为

B

0 m

-

k

,其对应

的公因子为 Z0m - k ,即 Z0m = [ ( Z0m - k ) ′, xt1 , …, xtk ]′,

B

0 m

=

(

B

0 m

-

k

, Hk ) 故有降维的规则

1 (见第一部分)





C=

diag ( C0

, Ik )

, C0



B

0 m

-

l 的方差最大化

正交旋转矩阵 。

采用验证法有经典因子分析模型公因子载荷

阵 、公因子的精确解 :

31 定理 4  设 X 中互不相关的变量是 xt1 , …,

xtk , m 用规则 1 确定 ,经典因子分析模型公因子载

荷阵 Bs 、公因子 Zs 的精确解 :

旋转后 : Bs

=

(

B

0 m

-

k C0

, Bε0 )

,

Zs = [ ( Z0m - k ) ′C0 ,ε′0 ]′,ε= Hk ( xt1 , …, xtk ) ′,

ψ= Hk H′k 。

未旋转 : Bs

=

(

B

0 m

-

k

, Bε0 )

,

Zs = [ ( Z0m - k ) ′,ε′0 ]′,ε= Hk ( xt1 , …, xtk ) ′,

ψ= Hk H′k (证明见后附) 。

用样本替代相关阵时 ,由原始变量有观测误差

得:

推论 1  如果用样本相关阵 R^ 替代 R ,则特殊 因子ε^ = 0 (证明见后附) 。

  五 、问题的解答

  问题

1

,解答

:

B

0 m

=

(

B

0 m

-

k

, Hk )

,

B

0 m

≠B s

=

(

B

0 m

-

k

, Bε0 )

,

B

0 m

(

B

0 m

) ′+

ψ=

B

0 m

-

k

(

B

0 m

-

k ) ′+ 2ψ≠R ,即

R

≠B

0 m

(

B

0 m

) ′+

ψ是正常的

,

并有 :结论

1

:同时使用经典因子分析模型和

B

0 m

(或

B

0 m

C)

是模型与解完全错位的错误



问题 2 解答 :由定理 3 ,ε= Hk ( xt1 , …, xtk ) ′,即

ε不是误差项 ; 由定理 1 ,误差项是 Bε0ε0 ,观测中误

差因子ε0 会使每个变量产生误差 ,ε0 对 X 没有解

释作用 。

问 题 3 解 答 : Zs = [ ( Z0m - k ) ′C0 , ε′0 ]′或

[ ( Z0m - k ) ′,ε′0 ]′是 经 典 因 子 分 析 模 型 的 无 偏 精

确解 ;

关于 巴 特 莱 特 因 子 得 分 , 其 假 定 ψ 可 逆 , 有

k = p = r ,由引理 1 (2) , s = 0 ,所以 , Zs 的巴特莱特

因子得分不存在 。即巴特莱特因子得分不是解 ,误

差很大 ,故其实际上几乎没被使用 ;

因子载荷解

B

0 m

C



B

0 m

相应的汤姆森因子得

分是因子解 C′Z0m (或 Z0m ) ≠Zs ,即汤姆森因子得分

不是经典因子分析模型的解 ,当 ε= 0 , m = s 时 , C′

Z0m (或 Z0m ) = Zs ,在此意义下 , 汤姆森因子得分更

好。

问题 4 解答 :如果存在| b0t m + 1 | ≥016 , m 的选取

会丢掉 xt 的信息解释 。所得 Zm 解释 R 的正交协方

差关系不是更好的 。因为

B

0 m

=

(

B

0 m

-

k

, Hk )

,因此规

则 1 确定 m 是更好的 ,不会丢失被解释变量 。

问题 5 解 答 : 由 定 理 4 和 [ ( Z0m - k ) ′,ε′0 ]′、

[ ( Z0m - k ) ′C0 ,ε′0 ]′是相应主成分的表示 ,公因子解 :

Zs

=

(

f

λ-
11

1Π2

,

… λ λ , , , f f - 1/ 2 m- k m- k

m+1

- 1/ 2 m +1

…,

f

λ-
rr

1Π2

)

′或

Zs

=

[

(

f

λ-
11

1Π2

,

…, f m -

λ C - 1/ 2
k m- k 0

, λ f - 1/ 2 m+1 m+1

,

…,f

λ-
rr

1Π2

]′, 都 有

Zs

≠( f 1 , …, f m - k , f m + 1 , …, f r ) ′,

故公因子解与主成分解的定量值不能互相混淆 。

问题 6 解答 :由问题 (5) 解答 ,式 (1) ,公因子解

Zs

=

diag ( C′0 , Ir -

m)

diag (λ1- 1

,

…,λm-

1 -

k

λ , - 1 m +1

,

…,λr- 1 )

(

B

0 m

-

k

, Bε0 ) ′X



Zs

=

diag (λ1- 1

,

…,λm-

1 -

k

,

λ- 1 m+1

,

…,λr-

1)

(

B

0 m

-

k

, Bε0 ) ′X

,即公因子是原始变量

的线性组合 ,同时为小样本解 。

问题 7 解答 :由引理 1 , s + k = r ≤p ;由定理 4 ,

在 R = BB′中 R 的因子分析表示是精确的 ,它很有

第 24 卷第 8 期

林海明  王翊 :因子分析模型 L 及其解是更好的

·8 1· 

用 ,它给出了更好的因子分析模型 L 及其解 ; p = 2 时 ,如果 z1 为公共因子 ,由 λ1 + λ2 = 2 、定理 3 反证 有 ,ε= 0 。

问题 8 解答 :如果用样本相关阵 R^ 替代 r ,由推 论 1 ,ε^ = 0 ,ψ^ = 0 , R^ - ψ^ = R^ 的特征根全部是正的

(解是可靠的) ,于是 s = r ,零特征根个数为 p - r 。 结论 2 :如果用样本相关阵 R^ 替代 R ,如果 ψ^ ≠0 ,则

Bs 的主因子估计不是解 ,误差很大 ,故实际上几乎

没被使用 。

问题 9 解答 : Bs 极大似然估计假定ψ可逆 ,有 k

= p ,由引理 1 (2) , s = 0 ,所以 , Bs 极大似然估计不

存在 。因此有 : Bs 的极大似然估计不是解 ,误差很

大 ,故实际上几乎没被使用 。

  六 、因子分析模型 L 及其解

  由定理 4 ,经典因子分析模型根本的局限性问 题 : ①公因子解 Zs = [ ( Z0m - k ) ′C0 ,ε′0 ]′或[ ( Z0m - k ) ′, ε′0 ]′没有排除观测误差因子ε0 的干扰 ; ②如果有非

零特殊因子 xt1 , …, xtk ,则公因子解 Zs 描述 X 的信

息值始终达不到最大化 ; ③公因子解 Zs 达不到降维

的目的 。这导致经典因子分析模型的公因子解在理

论和实际上几乎没被使用 。由定理 1 、定理 2 有 :

1. 推论 2  设 X 中互不相关的变量是 xt1 , …,

xtk ,规则 1 下 ,因子分析模型 L 的精确解为 :

旋转后 : Bm

=

(

B

0 m

-

k C0

, Hk )

=

B

0 m

C

,

Zm = [ ( Z0m - k ) ′C0 , xt1 , …, xtk ]′= C′Z0m , Bε = Bε0 ,

Zε =ε0 。

未旋转 : Bm

=

(

B

0 m

-

k

, Hk )

=

B

0 m

,

Zm = [ ( Z0m - k ) ′, xt1 , …, xtk ]′= Z0m , Bε = Bε0 , Zε =ε0 。

即规则 1 下 ,因子分析模型 L 及其解

Z0m = [ ( Z0m - k ) ′, xt1 , …, xtk ]′或 C′Z0m = [ ( Z0m - k ) ′C0 , xt1 , …, xtk ]′,较经典因子分析 模型及其解

Zs = [ ( Z0m - k ) ,ε′0 ]或[ ( Z0m - k ) ′C0 ,ε′0 ]的优点有 :

①排除了观测误差因子 ε0 的干扰 ; ②描述 X

∑ ∑ 的信息值

λ m - k
i=1 i

+

k

=

λ m
i=1 i

达到最大化

;



达到了降维的目的 。故理论和下述的实证有 :

21 定理 5  规则 1 下 ,因子分析模型 L 及其解

是更好的 。即因子分析模型 L 及其解是完善的 ,其 能求出经典因子分析模型的解 ,其为因子分析正确 模型 、理论和方法的使用 ,为因子分析法的发展建立

了精确解的理论基础 。

事实上 ,长期以来大量的实际应用中 ,因子分析

模型 L 的解 C′Z0m 或 Z0m 是被人们经常使用的 ,其是

因子载荷

B

0 m

C



B

0 m

的汤姆森因子得分

,其是因子

分析模型 L 的无偏精确解 ,其应用取得了大量的显

著成果 ;但模型的使用上 ,长期以来人们却错误地使

用了 :理论和事实上没用的经典因子分析模型。改

变这一错误的简单方法是 :因子分析法中 ,规则 1 下

同时使用因子分析模型 L

及其解

B

0 m

C

(



B

0 m

)

、C′

Z0m (或 Z0m ) 是理论和方法都正确的选择 。

31 实证 。例 (小样本情形) :2002 年广东卷烟工

业企业广州卷烟一厂 、广州卷烟二厂 、韶关卷烟厂 、

梅州卷烟厂 、南海卷烟厂 、湛江卷烟厂和廉江卷烟厂

( n = 7) 的经济效益变量为 x1 —总资产贡献率 、x2 — 资本保值增值率 、x3 —资产负债率 、x4 —流动资产周 转率 、x5 —成本费用利润率 、x6 —全员劳动生产率 、

x7 —产品销售率 ( p = 7) 。 此例相当典型 ,由于 n = p = 7 ,无论 R2型 、Q2型

因子分析的经济效益综合评价 ,用样本相关矩阵 R^

替代 R 时 ,| R^ | = 0 ,是典型的小样本情形。原始数

据正向化数据为表 1 (将资产负债率 X3 正向化 ,公

式为 : - X3 ;中性指标产品销售率 x7 正向化为 :

[ xij - min( xij ) ]Π[ Ej - min( xij ) ] , Ej ≥xij ,

i

i

[max( xij ) - xij ]Π[max( xij ) - Ej ] , Ej ≤xij

i

i

Ej ,为公认最好的中性值 ,其他变量是正向的 。

  表 1

原始数据正向化数据

( 元)

卷烟企业 广州一厂 广州二厂 韶关厂 梅州厂 南海厂 湛江厂 廉江厂

X1 72173 96138 72167 88123 7916 53128 12175

X2 96161 129179 125189 115171 116197 104141 123

X3

X4

- 3418 2117

- 18149 2153

- 39106 2162

- 59195 3103

- 48116 2121

- 53109 2128

- 82136 0149

X5

X6

14178 96186

53189 181162

3173 9316

6105 61108

14121 56165

2158 55149

2147 8133

X7 0    019774 1 1 017744 1 0

  数据来源 :梁苓 ,运用多元统计分析法综合评价广东烟草工业经

济效益[J ] . 数学的实践与认识 ,2003 年第 10 期 。

因子分析模型 L 旋转后精确解 :

该例 p = 7 , r = 6 ,由规则 1 , m = 3 ,由定理 3 ,ε= 0 ,

因子载荷解

:

B3

=

B

0 3

C

=

 ·8 2·

统计研究

2007 年 8 月  

 0162288 0113641  0188769  0125372  0192312 0193539 0106685

 0172614 0103034  013691  0193771 - 0101347 0128288 0188071

- 0106705 0197211 - 0110244 - 0119348  0128825 0112092 0137958

其中 C =

 0177734  0148558 - 0139994

 0161682 0112357 - 0171321 0150551  0133295 0185392

= C0 。

因子 z1 , z2 , z3 的 方 差 贡 献 : v1 = 2199 ≠λ1 =

41105 , v2 = 214 ≠λ2 = 114026 , v3 = 11239 ≠λ3 =

11122 。

因子解 ( X 为正向化 、标准化的原始变量) :

Z3 = C′Z03 =

 0111165 - 010481  0132548 - 010966  0139549  0134511 - 012287

 0124643 - 0100263 - 0101784  0145363 - 0123283 - 0107415  0147709 X

- 0111122  0179851 - 0117419 - 0117462  0114289  0100616  0132333

(用 iml 过程命令另外计算 ,SAS 软件因子分析过程

命令计算 Z3 = C′Z03 结果是错误的) , VarZ3 = I3 ;

误差因子载荷解 :

 0126945  0112691 - 011359 0109644  0101321 - 010912 - 0124489

Bε0 = - 0106075  0113905  0118813 0105444 - 0125374 0108607 - 0112304

- 0106291 - 0100576 - 011068 0107898  0100342 0112115 - 0102612

误差因子解 :

 114539  016848 - 017333 015312  010713 - 014921 - 113214

ε0 =

- 014096  019375  112684 013671 - 117108  015803 - 018296 X ,

- 117

- 011556 - 21886 211342  010924  312737 - 017058

(用 iml 过程命令另外计算 ,SAS 软件因子分析

过程命令计算ε0 是错误的) , Vaεr 0 = I3 ;

观测误差因子ε0 中 z04 , z05 , z06 的方差贡献 :

v04 = 0118533 =λ4 , v05 = 011483 =λ5 , v06 = 01037 =λ6 ;

误差项解 : BεZε = Bε0ε0 。

观测误差因子 ε0 使 X 的信息贡献率误差为

513 % ,ε0 对 X 没有解释作用 。由定理 3 ,特殊因子

ε= 0 ,不是观测误差 Bε0ε0 ,ε0 是方差贡献小于

λ4 = 0118533 的 3 个公因子ε0 = ( z04 , z05 , z06 ) ′。

读者可由定理 2 得出因子分析模型 L 未旋转精

确解 Z03 、由式 (1) 得出主成分分析解 F3 、由定理 4

得出经典因子分析模型旋转后精确解和未旋转精确

解 Z6 。通过解的比较有 : (1) 该例满足规则 2 ,旋转后解 Z3 = C′Z03 命名
较未旋转解 Z03 、主成分解 F3 清晰 (具体的实际应用 分析见文献[9] ) , Z3 除去了 ε0 的干扰 ,解释 X 的信 息贡献率为 9417 % ,达到了降维的目的 ,即满足规 则 2 下 ,因子分析模型 L 旋转后解解释 x 的协方差

关系较未旋转解 、主成分解是更好的 。

(2) 未旋转解 Z03 、主成分解 F3 命名较旋转后解 Z3 不清晰 , Z03 、F3 除去了误差因子ε0 (或误差成分)

的干扰 ,解释 X 的信息贡献率为 9417 % ,达到了降 维的目的 ,故因子分析模型 L 未旋转解 、主成分解解 释 X 的协方差关系较经典因子分析模型的解是更 好的 ,即经典因子分析模型及其解是更差的。
(3) Z03 ≠C′Z03 , Z03 ≠F3 , F3 ≠C′Z03 ,即旋转后解 Z3 、未旋转解 Z03 、主成分解 F3 互不相等 ,故因子分 析模型 L 的旋转后解 、未旋转解与主成分解的定量 值不能互相混淆 。
即满足规则 2 时 ,因子分析模型 L 及其旋转后 解 B3 = B0 C 、Z3 = C′Z03 ,为最好的模型和解 ;未旋转 解 Z03 、主成分解 F3 效果居中 ;经典因子分析模型及 其解是更差的 ;因子分析模型 L 的旋转后解 、未旋转 解与主成分解的定量值不能互相混淆 。

  七 、建议与有待继续深入研究的问 题

  因子分析法的应用建议 :

11 规则 1 下 ,同时使用因子分析模型 L 及其因

子载荷解

B

0 m

C

(



B

0 m

)

、因子解 ( C′Z0m



Z0m )

,是因

子分析法理论和方法都正确的选择 ;21 因子分析模

型 L 的旋转后解 、未旋转解与主成分解计量值不能

混淆 ;31 解决实际问题中 ,降维因子个数 m 的选取

以规则 1 确定更好 ;41 因子分析法的优点之一 : 在

规则 1 、规则 2 下 ,使用因子分析模型 L 的因子解 C′

Z0m 较 Z0m 为更好的 ;51 因子分析模型 L 及其解 ,小

样本情形下的因子分析法 ,用于综合评价与监控的

步骤和实例参见[9] 。

因子分析法有待继续深入的问题 :11 因子分析

法综合评价中的一些问题解析与实证 。21 主成分

分析法综合评价中的一些问题解析与实证 。31 斜

交因子分析法综合评价中的一些问题解析与实证 。

41 对应分析法综合评价中的一些问题解析与实证 。

51 典型相关分析中的一些问题解析与实证 。61 多

重多元回归分析中的一些问题解析与实证等 。

附 :引理 1 证明 : 经典因子分析模型中 , 如果

ψ i

= 0 ,因为

Eεi

=

0

,则有

ε i

=

0

,

ae

在ε中除去这些

εi ,余下

k(

≥0)

个非零特殊因子为

ε t1

、…、εtk

,



ψ t1

> 0 , …,ψtk

> 0 , zs + ti

=εtiψt-i 1Π2 ( i

= 1 , …, k)

,

有 :ε= Hk ( zs + t1 , …, zs + tk ) ′,

  这里

Hk

=

ψ ( e 1Π2 t1 t1

, …,ψ1tΠk2 etk )

第 24 卷第 8 期

林海明  王翊 :因子分析模型 L 及其解是更好的

·8 3· 

从( Z′s , zs + t1 , …, zs + tk ) ′中取出方差贡献和达

到最大化的 m 个因子 Zm 排在前面 ,其余因子排后 ,

新排列的因子向量设为 Z = ( z1 , …, zq ) ′, 其含有

( Z′s , zs + t1 , …, zs + tk ) ′, q = s + k ,相应因子载荷阵设

为 B = ( bij ) p ×q ,其含有 ( Bs , Hk ) , 经典因子分析模

∑ 型成为 : X = B Z , VarZ = Iq ,

m i =1

vi

达到最大 。

由定理 2 , B

=

(

B

0 m

, Bε0 )

,Z

=[(

Z0m ) ′,ε′0 ]′,

q= s+ k= r是

X

=

BZ

, VarZ

=

Iq

,

∑m i =1

vi

达到最大的精确解 。

定理 3 证明 :设 z0j 为标准化非零特殊因子 ,由

引理 1 (2) , z0j 在 [ ( Z0m ) ′,ε′0 ]′的 z01 , …, z0r 中 ,相应

非零特殊因子为

ε t

,t

∈T

,有

ε t

=

ψ1Π2 t

z0j

, b0j

=

(0

,

…,

0

, b0tj

,0

,

…,0) ′, b0tj

=

ψ1Π2 t

, b0j

= λ1jΠ2αj

,

所以 :ψ1tΠ2

=

λ a 1Π2 ij j

,αj

=

(0 ,

…,0 , atj

,0 ,

…, 0 ) ′,

α j

为单位特征向量

,有

atj

=

1

,即

α j

为特殊主成分

et [1] ,由式 (1) , f j =α′j X = atj xt = xt ,因为 xt 是标准化



,所以 : Varf j

=1

=

λ j

,ψt

=1

, b0ij

=1

,εt

=

z0j

=

fλj j-

1Π2

= f j = xj 。

定理

4

证明 :

X

=

(

B

0 m

-

k C0

, Bε0 )

[(

Z0m -

k ) ′C0

,

ε′0 ]′+

Hk ( xt1

,

…, xtk ) ′=

(

B

0 m

-

k

,

Bε0 )

[

(

Z0m -

k ) ′,

ε′0 ]′+ Hk ( xt1 , …, xtk ) ′= Bs Zs + ε,且 Bs 、Zs 、ε满

足相应条件 。

推论 1 证明 :如果ε^ ≠0 ,由定理 3 ,存在 t ∈(1 ,

…, p ) , xt = ε^ t , 所 以 , 观 测 误 差 因 子 ε0 的 系 数

b0 t  m + 1

=

…=

b0tr

= 0 ,即

xt

没有观测误差 ,但

R^

是样

本观测的相关阵 , xt 肯定有观测误差 , 故 ε^ ≠0 不

成立 。

参考文献 [ 1 ]张尧庭 ,方开泰著. 多元统计分析引论[ M] . 科学出版社. 1982 年
6 月第 1 版. 2003 年第 9 次印刷. [ 2 ]方开泰编著. 实用多元统计分析 [ M] . 华东师范大学出版社.
1989 年第 1 版.

[ 3 ]方积乾主编. 医学统计学与电脑实验 (第二版) [ M] . 上海科学技 术出版社. 2001 年 7 月.
[ 4 ]张润楚编著. 多元统计分析 [ M] . 科学出版社. 2006 年 9 月第 1 版.
[ 5 ] ( 美 ) Richard A. Johnson Dean W. Wichern. Applied Multivariate Statistical Analysis (5th Ed) [M] . China Statistics Press. 2003.
[ 6 ]何晓群编著. 多元统计分析[M] . 中国人民大学出版社. 2004 年 4 月第 1 版.
[ 7 ]余锦华 ,杨维权编著. 多元统计分析与应用[ M] . 中山大学出版 社. 2005 年 2 月第 1 版.
[ 8 ]Maxwell ,A. E. Multivariate Analysis in Behavioural Research. London : Chanpman and Hall . 19771
[ 9 ]林海明. 小样本因子分析的 SAS 软件计算与综合评价 [J ] . 统计 与决策 (理论版) ,2006 年第 12 期 ,15 —17.
[10 ]林海明. 因子分析精确模型及其解 [J ] . 统计与决策 ( 理论版) , 2006 年第 7 期 ,4 —5.
[11 ]林海明 , 张文霖. 主成分分析与因子分析的异同和 SPSS 软件 [J ] . 统计研究 ,2005 年第 3 期 ,65 —69.
[12 ]候文. 对应用主成分法进行综合评价的探讨[J ] . 数理统计与管 理. 2006 年第 2 期. 212 —214.
[13 ]卢纹岱等 ,吴喜之审校. SPSS for Windows 统计分析 (第 3 版) [M] . 电子工业出版社 ,2006 年 6 月.
[14 ]高惠璇编著. 实用统计方法与 SAS 系统 [ M] . 北京大学出版社. 2001 年 10 月第 1 版.
[15 ]王学民编著. 应用多元分析 ( 第二版) [ M] . 上海财经大学出版 社. 2004 年 1 月第 2 版.
[16 ]何*. 从《统计研究》看当前统计科研存在的问题及建议. 第一届 中国统计学年会. 中国天津. 2006110120 —22.
作者简介 林海明 ,男 ,1959 年 6 月生 ,湖南省宁乡县人 , 1988 年 7 月获得湖南大学理学 (应用数学) 硕士学位 ,现为广东商学院 经济贸易与统计学院教授 ,研究方向为多元统计学模型 、理 论与应用等 。 王翊 ,男 ,1961 年 6 月生 ,云南省石屏县人 , 1982 年 7 月 获得北京林业大学农学学士学位 ,现为广东商学院经济贸易 与统计学院教授 ,研究方向为生态经济模型与应用等 。
(责任编辑 :李峻浩)




友情链接: