2009年第1期 Science and Technol科技管理研究 ogy Management Research 2oo9 No.1 文章编号:1000—7695(2009)01—0078—03 基于粗糙集的属性约简方法在指标筛选中的应用 张朝阳,赵 涛,王春红 (天津大学管理学院,天津300072) 摘要:建立一套科学、系统的指标体系是进行综合评价的重要前提。从目前来看,指标体系的建立和筛选尚没 有统一规范的标准和方法。传统评价方法主观性强,客观性差;统计方法需要大量的样冬,而且很多时候大量 的样本是不可获得的。文章提出基于粗糙集的指标约简方法,并以企业产品创新能力评价指标约简为例进行验 证,得出该方法的应用特点和优势。 关键词:粗糙集;属性约简;指标筛选;产品创新 中图分类号:F272.5 文献标识码:A 综合评价是管理学的热点、难点问题之一。所谓综合评 围,即属性P的值域;,=UXA— 成为信息函数,用于确定 价(comprehensive evaluation),是指对以多属性体系结构描 U中每一个对象 的属性值,即任一q∈A和 ∈U ,q)E 述的对象作出全局性、整体性的评价。综合评价的前提是确 ;对于任一属性子集BC_A,R(B)称为不可分辨关系: 定评价指标体系,即采用哪些指标进行综合评价。由于影响 R(B)={( , ,)∈ I V EB√.( 。,。)= < j,a)} (1—2) 评价有效性的因素很多,评价的对象系统也往往是社会、经 属性子集曰将全部样本集U划分成若干等价类,称为 济、科技、教育、环境和管理等一些复杂系统,但并非评价 一基本元素。对于属性子集 ,各等价类内的样本集是不可 指标越多越好,关键在于所选评价指标是否恰当。指标的遗 分辨的,这也表明知识是有粒度的。 漏会影响评价结果,指标间信息的重迭一般会夸大评价结果, 对于任意样本子集Xe U,如果满足: 这些都会导致人们对多指标综合评价的必要性、准确性产生 B(x):{ ∈U:B(x) X} (1—3) 怀疑。问题是如何通过科学的指标筛选来保证综合评价结果 则B一(X)称为 的B下近似; 的可靠性…。 如果满足: 从目前的情况来看,指标体系的建立和筛选尚没有统一 B一(X)={ ∈U:B( )nX≠ } (1—4) 规范的标准和方法,大多数学者根据自己的经验,按照一定 则 一( )称为 的 上近似。 原则确定指标体系,主观性强,容易出现偏差。采用德尔菲 ^ =B一( )一B一( ) (1—5) 法、层次分析法、模糊评价法等方法也同样很难避免主观性 称为 的B边界区域。粗糙集中的“粗糙”主要体 带来的弊端;应用主成分分析、后向回归分析等统计方法则 现在边界区域的存在,若边界区域为空,则问题变为完全确 需要大量的样本,而很多时候大量的样本是不可获得的。本 定的问题。对于属性子集曰,样本子集X的不确定性程度可 文提出基于粗糙集的指标约简方法,并以企业产品创新能力 以用量度Ot ( )来表示。 评价指标约简为例进行验证。 1 基于粗糙集的属性约简方法 (1—6) cara I廿 【A J f a (X)称为近似精确度,card(Y)表示集合l,的元素个数。 1.1粗糙集理论 1.2基于粗糙集的属性约简 粗糙集理论(Rough Set,RS)是由波兰的Z.Pawlak于 1982年提出的,它是一种研究不完整数据、不确定知识的表 对等价关系族R,存在r∈R,如果: ind(R)=ind(R一{r}) (1—7) 达、学习及归纳的数学方法,其要点是将分类与知识联系起 则称r为R中可省略的,否则称r为R中不可省略的。 来,认为知识源于人类以及其他物种的分类能力,并用等价 关系形式化表示分类。与模糊理论、概率统计方法等其他处 式(1—7)中,ind(R)表示集合中元素关于R不可分辨关 理手段相比,粗糙集理论在处理不确定信息时不需要采用诸 系(indiscemibility relation)。 如模糊隶属度函数、概率分布密度等先验性知识,也没有受 对于属性子集PC_R,若存在Q:P—r,Qc_p,使得ind(Q) =ind(P),且Q为最小子集,则称Q为P的简化,记为red(P), 到更多的前提条件的约束,因而得到理论界、工程界、管理 尸中所有简化属性集中包含的不可省略关系的集合,即简化集 界的广泛青睐。 粗糙集理论认为,信息系统S可表示为有序四元组: red(P)的交称为P的核,记为core(P). S={U,A,V,F (1—1) core(P)=n red(P) (1—8) 式中:U={ 。, ,…, }是有限个处理样本的集 令P和S为U中的两个等价关系, 1 S={X。,X2…X }, 合,即全体样本集。』4是有限个属性的集合,可进一步分为 S的P正域记为pos (S),即: n 两个互相独立的子集,即A=CuD,CnD=Q,C为条件属 pos (S)=uP一(Xi) (1—9) 性集,反映对象的特征,D为决策属性集,反映对象的类别。 若存在r∈R,有pos (S)=pose_f,)(S),则称r为P V=U Ve是属性集的集合, 表示属性P A的属性值范 中可省略的,P一{r}为P的S相对简化。 收稿日期:2008—04—02,修回日期:2008—06—26 张朝阳等:基于粗糙集的属性约简方法在指标筛选中的应用 79 n( )是 在属性n上的值,区分矩阵肘为有n×n的 续上表 维度,其中n表示基本对象的数目,而其单元(elements) 成本利税率P ≥l5% <15% 定义为所有可识别基本集合[ ] 与[ ] 之属性的集合。当 人均工业总产值q />500 <500 决策属性不同且条件属性也不完全相同时,元素值为互不相 工业增加值率r ≥35% <35% 同的属性组合;当决策属性相同时,元素值为 ;当决策属 企业产品创新能力s 强 不强 性不同而条件属性完全相同时,元素值为一1,表示此时数据 有误或提供条件属性不足,即: 从该地区选取l0家开展产品创新活动较好的大中型工业 ra∈A 口( )≠n( ,)D( )≠D(xj) 企业,搜集相关数据,形成指标筛选决策表(见表2)。 c={ D( )=D( f) (1—10) 表2企业产品创新能力指标筛选决策表 L一1 口( i)=口( )D( )≠D( ,) E1 E2 K3 E4 E5 E6 E7 E8 E9 E1O 根据区分矩阵可以构建区分函数Jr(A)=^(V C ),这是 个布尔函数。若 属性集合为空,则指定其为1,从区分矩 R&D经费投入强度a l 1 l 1 1 1 O 1 1 1 R&D人员投入强度b O 1 l l l 1 O 0 1 1 阵的定义可以看出,矩阵 中属性组合数为1的元素项的集 非R&D经费投入强度c O O O O O 0 l O 0 O 合为粗糙集决策表的核。 教育培训经费比重d O O l O 0 O O O 0 O 1.3基于粗糙集的属性约简模型 人均专利拥有数e l 1 l 1 l l l l l O 通过上述理论介绍和分析,可以确定基于粗糙集的属性 自主创新产品率, l l 0 0 0 O O O 1 O 约简步骤如下: 全员劳动生产率g l O 0 l O 0 0 O 1 0 步骤1:确定属性集。对所有能够搜集到的有关研究成 新产品销售份额h O O I 1 O O 1 l 1 1 果进行分析,确定宽泛的属性集,即评价指标集,又叫条件 新产品利润率i O 0 1 1 l O l 1 l 1 属性,明确决策属性。 新产品销售率 1 O O O 0 1 0 0 0 1 步骤2:数据收集。尽可能利用已有的历史数据进行分 成本利税率k 1 O l 0 O O 1 0 1 1 析。如果没有现成的数据,则可以通过问卷调查等方法收集 人均工业总产值Z l l 0 1 O 0 O O 1 0 工业增加值率m 1 O 0 l O O O 0 O 0 数据。 企业产品创新能力n l l 1 1 O 1 O O l O 步骤3:属性值语义界定。界定属性值语义,并对每个 属性界定属性值。 则有: 步骤4:构建属性约简决策表。属性约简决策表类似二 U={E1,E2,K3,E.4,E5, ,E7,E8,E9,El0,E11,El2} 维的关系数据表,其中每一项数据是论域中的一个元素,每 ind(R)={t },{E2},{日},{ },{ },{历}, 一列为一个属性,最后一列为决策属性。 {E7},{E8},{ },{El0},j E11},{El2}} 步骤5:属性约简。根据粗糙集理论属性约简原理进行 ind(D)={{E1,E2,E3, ,E6,四},{E5,E7, ,El0}} 属性约简。 posR(D)={ 1, , , ,£5, , , ,E9,E10,Ell, 步骤6:构建区分矩阵。按照公式(1—10)确定区分矩 El2} 阵的每一个元素的值。 pos (D)={E1, , , , , ,所, ,E9,El0,E11, 步骤7:指标筛选。区分矩阵中属性组合数为1的元素 El2}=p0sR(D) 项的集合为粗糙决策表的核,构建区分函数f(A),通过吸 所以,指标C是冗余的,可以约去。同理,指标d、,、 收律化简区分函数形成标准析取范式,实现指标筛选。 g、 、z、m也是冗余的,可以先行约去。 对应约简后的决策表,构建区分矩阵M(见表3)。 2基于粗糙集的属性约简方法应用 表3区分矩阵M 以企业产品创新投入产出指标约简为例,介绍基于粗糙 E1 E2 E3 E4 E5 E6 耵 E8 E9 ElO 集的属性约简方法应用。首先确定R&D人员投入强度等13 项指标为条件属性,以企业产品创新能力为决策属性 。 按照国家和地区标准 “ ,对应的属性值语义界定详见表1 中 所示。 i hk h 表1 企业产品创新能力指标的属性值语义界定 中 中 中 i \苎兰 l 0 abhik ab abk "abhik bhi bk b 中 bhi Ii&D经费投入强度a I>0.8% <O.8% 中 中 fl1k 中 ab bk R&D人员投入强度b >I2% <2% fehik e ek 中 ehik 中 e 非R&D经费投入强度c >/0.2% <0.2% 教育培训经费比重d />0.2% <0.2% -厂(A)=^(V C )=(b V i V k)^i^(h V k)^h i^(口V h 人均专利拥有数 ≥l% <1% V )^(口V bV h ViV )^(ⅡV 6)^(ⅡV bV )^(0V b V h V i 自主创新产品率i ≥85% <85% Vk)^(hV iVk)^(bVh V )^(b V k)^b^(b V h V i)^(, 全员劳动生产率g ≥300 <3oo VhV k)^(oV b)^(b V k)^(b V e V h V i)^(iV e V h V i V 新产品销售份额Z >/25% <25% )^eA(eV )^(eVhViV k)^e=h^i^b^e^(kVfI) 新产品利润率n ≥35% <35% CORE(尸)={b,e,h.i÷ 新产品销售率O >t90% <90% (下转第85页) 一李纪宁等:技术性贸易壁垒对技术的双重影响 在产业层面,应该上升为我国经济发展的一项重要战略,才 能有效跨越国外的技术性贸易壁垒,在日益复杂激烈的国际 2oo7(S1):13一l5. 八 II 85 I1 八 = ¨5]夏友富.技术性贸易壁垒体系与当代围际贸易[j].中国工业 经济,2001(05):30—34. l∑ ∑ ∑ ∑市场竞争中赢得主动权…j。鉴于此,我国就要尽快完善自己 的技术性贸易壁垒应对机制。更大程度地发挥政府、企业和 行业协会联盟的积极作用;建立并完善国内技术贸易壁垒预 警机制,及时掌握国外技术标准的有关情况;加快应对技术 性贸易壁垒的技术支撑体系建设,深化与充实科技兴贸战略, 提高自主创新能力,重视技术的变革和创新,寻求突破途径, 这样就可以缩短受限时间,并减少损失;同时重视与国际标 生 ∑ ∑ ∑ ∑[6]夏英祝,祖书君.绿色壁垒和绿色壁垒效应[J].农业经济『HJ 题(月刊),2004(I):25—27. [7]陈晴,张骥.论突破绿色贸易壁垒对 TO争端解决机制的利用与 挑战[A].适应市场饥制的环境法制建设问题研究——-20o2年中 国环境资源法学研讨会论文集(下册)[C].2002:108一ll4. [8]钱时惕.经济科技结合论[M].石家庄:河北科学技术出版 社.1992:138. 准接轨,加强与贸易伙伴的谈判和协商,以互惠互利来使贸 [9]陈德智.产业技术跨越模式研究[R].上海交通大学博士后报 易利益最大化。 告。2003:26. [10]卜海.正确认识与积极应对技术性贸易壁垒[J].南京师范大 参考文献: 学学报(社会科学版).2003(o4):27—30. [1]全毅,翁东玲,张旭华.跨越技术性贸易壁垒——理论分析、 [11]企毅,翁东玲,张旭华.跨越技术性贸易壁垒——理论分折、经 经济影响与对策研究[M].北京:经济科学出版社,2006: 济影响与对策研究[M].北京:经济科学出版社,2006:342. 342. [2]EDWARDS W.Out of the Crisis[R].Published by the Center for 作者简介:李纪宁(1963一),男,汉族.云南人,博士研究生,研 Advanced En ̄neering Study,MrF,1986. 究方向为技术经济学、科技与社会研究。张志会(1982一),男,汉 [3]李存顶.从发达国家设立TBT的动因探析我国的应对策略[J]. 族,河北人,博士研究生,研究方向为科技与社会研究、:[程哲学。 中国农业大学学报(社会科学版),2005(03):33—36. [4]刘学秋.经济全球化下的技术性贸易壁垒[J].国际贸易。 (本文责编:廖政权) 七七 七七 七 七七电 七 七 七 七 (上接第79页) 精确的指标,如将R&D人员数量取值范围定为:10人以下、 约简后的指标集为两组:abehi和behik,即该地区企业产品 lO—5O人、50—1oo人、100人以上,将企业家精神取值范围 创新能力可以采用上述两组指标来评价。这也符合实际情况, 定为:0(差)、1(一般)、2(良好)、3(优秀)。 因为R&D经费投入强度a和成本利税率k说到底都是反映资 金投入方面的指标,在一定程度上可以相互替代。 参考文献: 取B={o,b,e,h,i},样本子集 ={ l, , , , , [1]王存枝.综合评价指标筛选及预处理的方法研究[J].统计教 ,疥, ,E9,El0{ 育,2007(3):15一l6. B( )={E1,E2,E3,E4,E5,E'/,E8,[2]肖健华.钾能模式识别方法[M].广州:华南理工大学出版 一El0} (B一(X)={El,E2,E3,E4,E5,E6,E'/,E8,E9,EIO} 社.2006:51—57. ・gh集理论的城市通信网络建没 a B(X)竺 丽]_ -80% [3]于庆军,杜纲,高璇.基于Rou:影响因素分析[】].西安电子科技大学学报(社会科学版), 2007(2):ll一16. :0.O94 [4]乍向波.李叔涛.基于创新过程的企业技术创新能力评价研究 [J],中国软科学,2007(2):l39—142. =0.105 [5]张国良,陈宏民.关于组织创新性 创新能力的定义、度量及 慨念框架[J].研究与发展管理,2007(2):43—49. [6]陈匏绝.基于因子分析模型的区域技术创新能力体系评价及地 =0.】46 域差异化研究[Jj.软科学,2006(20):92—96. [7]李晓璐.周志方.我国区域技术创新能力体系评价及提升[J]. =0.194 科学管理研究,2006(4):5—10. [8]张风杰,陈继祥.科技型中小企业创新能力评估指标体系研究 =0.217 [J .1:海管理科学,2007(2):39—43. [9]张于特,张义粱.国家自主创新能力的评价指标体系研究[j]. 3结论 经济与符理研究,2007(5):l7—2O. [10]王周进,王其藩.企业技术创新能力评价研究的新进展[J]. 以上理论分析和实例应用表明,基于粗糙集的属性约简 科研管理,2004(2):37—39. 方法在指标筛选中具有以下特点和优势: [11]李珙.企业技术创新能力综合评价指标体系及i甲价摸型研究 (1)具有可靠的理论基础。属性约简方法建立在粗糙集 [J].科学学与科学技术管理,2004(8):96—99. 理论基础之上,是一种从大量信息中快速有效地发现特定知 识的方法,已经在许多方面证明是行之有效的。 作者简介:张胡阳(1967一),男,河北椠皇岛人.天津大学管理学 (2)得到的结论可解释、易操作、实用性强。 院陴 ±:研究生.研究方向为知识管理。赵涛(1960一).男, 林长 (3)最后的结论信息是无损的。模糊评价法、层次分析 存人,教授。蹲士生导师,研究方向为工业 [程、信息化建设与知识 法等传统方法带有明显的主观臆断性,可能导致部分信息被 管理。王拜红(1976一),女.河北枭 岛人,政: 师,河北建材职 业技术学院网委书记。 淹没;而基于祖糙集的属性约简方法在约简过程中只是去掉 了冗余信息,抽取出可用信息,得出的结论是无损的。 (本文责编:陈夏) (4)可伸缩性强。可以通过将属性值精细化.提炼出更