搜索
您的当前位置:首页正文

变精度粗糙集的逻辑解释及其约简

来源:抵帆知识网
第30卷第5期 计算机应用研究 Vo1.30 No.5 2013年5月 Application Research of Computers May 2013 变精度粗糙集的逻辑解释及其约简 曾子林 。,张宏军 ,张睿 ,邢英 (1.解放军理工大学,南京210007;2.南昌陆军学院,南昌330103) 摘要:针对Ziarko提出的变精度粗糙集缺乏相应的逻辑解释,且约简方法不合理,对经典粗糙集的逻辑解释 进行了扩展,提出了变精度粗糙集决策算法应满足的四个条件,证明了变精度粗糙集决策算法与JB近似的关系 并得到变精度粗糙集决策算法的性质;其次,在变精度粗糙集的逻辑解释下,提出基于卢下近似分布和卢上近似 分布变精度粗糙集的约简方法,从而保证了约简前后分类能力大小不发生改变且符合变精度粗糙集的逻辑解 释;最后,通过实例说明基于 下近似分布和 上近似分布约简方法的合理性。 关键词:变精度粗糙集; 近似分布;约简;逻辑 中图分类号:TP18 文献标志码:A 文章编号:1001—3695(2013)05—1385-03 doi:10.3969/j.issn.1001.3695.2013.05.026 Reduction in variable precision rough set and its interpretation with logic ZENG Zi—lin ,ZHANG Hong-jun ,ZHANG Rui ,XING Ying (1.PLA University ofScience&Technology,Nanjing 210007,China;2.NanchangMilitaryAcademy,Nanchang 330103,China) Abstract:Ziarko’S variable precision rough set modellacks for logic interpretation and its reduction method has many de±ec- tions.In order to solve these problems,this paper extended the interpretation of rough set model,proposed four conditions which decision algorithms in variable precision rough set need satisfy,and proved the relations of decision algorithms and ap- proximations.Moreover,in order to keep the ability of classiifcation unchanged during the course of reduction,it put forward a reduction method which based on 8一lower approximation distirbution and B・upper approximation distirbution in variable preci- sion rough set.Finally,a case shows the validity of the proposed method. Key words:variable precision rough set;卢approximation distribution;reduction;logic 相同为度量标准对变精度粗糙集进行约简。实例说明,本文提 0 引言 出的约简方法不仅符合变精度粗糙集的逻辑解释,而且不会改 粗糙集理论…是波兰数学家Pawlak于1982年提出的一 变分类能力的大小。 种数据分析工具,它主要通过信息系统的属性约简、值约简来 1 7iarko变精度粗糙集模型 获得最优规则,从而进行分类。粗糙集的诞生引起了机器学 习、模式识别、专家系统以及逻辑学等领域专家的极大兴趣,并 经典粗糙集模型…是定义在完全包含的基础上的,这种 在这些领域中得到了广泛应用。在文献[2]中,Pawlak给出了 包含关系过于苛刻。Ziarko将完全包含关系扩展为多数包含 决策算法与近似的关系,从逻辑的观点对决策表进行了解释。 关系,从而将经典粗糙集模型扩展为变精度粗糙集模型。 但是Pawlak的粗糙集模型要求分类完全正确,因此对噪声数 定义1 ul… 一个信息系统可表示为S=( , , ,.厂)。其 据较为敏感。为了增强其抗干扰性,Ziarko于1993年提出了 中:U是有限非空集合,称为论域对象空间;A是属性集合;V= 变精度粗糙集模型,该模型的核心思想是将完全包含关系扩展 u , 表示属性a的值域;,:U xA— 是一个信息函数,即 为多数包含关系,即允许一定的错分率存在。但Ziarko 仍采 对V U,a eA,有厂( ,a) 。若属性集A被分为条件属性 用经典粗糙集的定义对属性进行约简,导致约简过程存在对象 集C和决策属性集D,且满足A=CUD,CnD= ,则称S= 置信度不一致、区间动态性、约简跳跃和分类异常等问题。许 (U,A,V, 为决策信息系统或决策表。 多学者 对变精度粗糙集的约简进行了研究。文献[5]提 定义2 设 、y是有限论域U的非空子集,定义测度 出将变精度信息熵作为度量标准对特征进行约简。文献[6] 提出了变精度 下近似分布约简,但该约简方法仍会使约简前 。c( ,):l_。 ,)=Y  L  U / 。….!IXAI,!  >!,U ,其中I l表示集合 的 后的分类能力发生改变。因此,本文先对Ziarko的变精度粗糙 基数,则称c(X,Y)为集合 关于集合y的相对错误分类率。 集模型进行了逻辑解释,提出了变精度粗糙集的决策算法应满 多数包含意味着超过50%的集合 中的元素包含在集合 足的四个条件,并证明了变精度粗糙集决策算法与 近似的关 Y中。因此错误分类率 的取值为[0,0.5]。基于这种多数包 系。在此基础上,提出同时以约简前后 上、下近似分布是否 含关系,可得到卢下近似、卢上近似和卢边界域的定义分别 收稿日期:2012—08-28;修回日期:2012-10—15 基金项目:国家自然科学基金资助项目(70791137) 作者简介:曾子林(1981-),女,江西鄱阳人,博士研究生,主要研究方向为不确定性推理、效能评估(zzUxnu@163.com);张宏军(1963.),男, 教授,博士,主要研究方向为系统仿真、效能评估;张睿(1977一),男,副教授,博士(后),主要研究方向为系统仿真;邢英(1982.),男,博士研究生.主 要研究方向为系统仿真. ・1386・ 计算机应用研究 第30卷 如F: x=u(目∈u/c:c(E,X)≤卢) C8X=U{EEU/C:c(E, )<1一|9I) BNC8X=utE∈U/C:B<c(E, )<1一JB) I ll ≠ 。7lr ( l )称为决策规则妒一 的置信因子,记做 ceI (妒, )。显然,若霄 ( l )=l, 一 称为一条确定的决 策规则;若o<7r ( I )<1, 一 称为一条不确定性规则。 因此cer ( , )反映了规则 一 为真的可信度,也就是说根 定义3 定义为 决策属性D对条件属性C的口近似依赖度可 据决策表,决策 能被相信的程度。 3)覆盖因子 覆盖因子可定义如下:丌 (妒I )=p (【l 1I l )= l(c D)= . 其中: POS(C,D, U xIU,X 竺墨 ,记做cov ( , )。覆盖因子反映了 一 的 逆规则 一 为真的可信度,即根据决策表,给定一决策,导致 该决策的理由能被相信的程度。 2.2变精度粗糙集的决策算法 定义6给定决策表S:(U,CuD,V, 及错误分类率JB, Dec(S)={ 一 } m,mI>2是经过以卢上、下近似分布相同 为约简条件生成的一系列规则,若这些规则满足以下四个条 定义4 一条件属性C关于决策属性D的口约简是C的 个子集RED(C,D,3/)且满足: a)y(C,D,卢)=’,(RED(C,D, ),D,3);/ b)从RED(c,D,口)中去掉任何一个属性,都将使a)不 成立。 定义5给定决策信息系统S=(U,CUD,V,,)及错误分 类率卢,D,∈U/D( =I,2,…,l U/D I),称D尸(c,D,JB)= { D , D ,…, D- 。-)和 (c,D, 卢) = 件,则称Dec(S)为错分率为/3时决策表s的决策算法。 a)对任意的 一 , 一 ∈Dec(S)都有 = 或l ^ ll = ,_且 = 或l ^ ll ls= ; b)l_V墨 lI s=U且I 1V 。 l = ;l c) —} ∈Dec(S)且supps( , )≠0; { Dt,Ct3Dz,…, D- 。.扮别为决策类的/3下近似分布和卢 上近似分布。 2变精度粗糙集的逻辑解释 从逻辑的观点看,决策表也可看做一系列命题的集合,从 而可以运用逻辑学的知识对它进行解释。 { d)u D (X)=l lV D ・(s) 【 ls,其中Dec (S)= ∈Dec(S):cers( , )≥1一/3}。 这也即要求决策规则集必须满足两两独立、覆盖整个论 给定信息系统S=(U,A,V,f),决策逻辑语言的公式集 For(A)是满足下列条件的最小集合: a)对Va A, e ,属性值对(a, )(或简写为a )称为决 策逻辑语言的(原子)公式。 b)如果 和 是决策逻辑语言的公式,那么一 ,( ^ ), ( V ),( — )和( )也是决策逻辑语言的公式。 = (a, )记为S中满足公式 且属于U的集合。集合 l1 Il ={ ∈U:xI= (o, )}称为S中公式 的意义。在S= (U,CUD,V, 中, ∈For(C), ∈For(D),则 — 称为S中 的一条决策规则。 和 分别称为规则的条件和决策。决策 规则有以下性质: a)II V Il =l III u I IlI s; 域、在.s中被容许且要保持决策表的一致性四个条件。 2.3变精度粗糙集中决策算法与/3近似的关系 令Dec(S)是错分率为 时决策表S的决策算法, 一 ∈ Dec(S),C( )记做Dec(S)中 的条件集,D( )记做Dec(S) 中 的决策集。那么有以下关系成立: a) (I 1lI s)=【 lV ( l一口 lI s .)) lI s ・ b) (1I 【 Is)=l lV 一Ec( ) 证明C)BNC口(I 1II s)=_l V , c( ),p刮 l .)<l—p I ls a) (1 II ls)=U{E∈U/C:c(E,1I Il s)≤卢}= u{Ee 一 ≤ b)l ^ 【l l5=l lI I5 n l llI s; c)I= — 当且仅当c 【ll l lI ls。 u{I ∈— — —_ |L J啊  ≥l一口】}j = u E U/C U/C:c aro u{妒 ec c :竺 若 b)c)同理可证。 2.4变精度粗糙集决策算法的性质 ≥ 一 )= 2.1 规则强度、置信因子及覆盖因子 u{ ∈C( ):仃( I )≥1一芦)= 对于S中的一条决策规则 一 ,可分别定义它的规则强 }1 V ,Ec( ), ( lp,)≥1一口 l IS 度、置信因子和覆盖因子 。 1)规则强度 设supp ( , )=card(I ^ lI ),l贝0规贝4强度 ( , )= card(U) 令Dec(S)是S中的决策算法, 一 ∈Dec(Js),则下列性 质成立: a)∑cers( , )=1 里 氅 : card(U) ,规则强度表示决策表中能被 ………~……一一…一 该规则分类所占的比例。 2)置信因子 若对 ∈U有概率分布P,,( )=I/card(U),则对任意公式 b)∑COVs( , )=1 c) s( )= ,五)cers( , ) ( )= ,五 ) s( , ) d)cers(tp, ̄)- = 在S中的概率可定义为:7r ( )=p (1I 1 )。因此对任意 I的决策规则 一 ,存在一个条件概率: 证明 由置信因子、覆盖因子以及定义6易推得性质a) 丌 ( I )=p (1 Il1 l Il妒Il ): ,其中 b);由全概率公式可得性质c);由贝叶斯公式可得性质d)。 第5期 曾子林,等:变精度粗糙集的逻辑解释及其约简 算法如下: ・l387・ 3基于/3下近似分布和/3上近似分布的约简 、 a)Co--*dl b)CO_÷d2 约简的本质就是保持约简前后的分类能力不发生改变,在 C)co_以d)cl d1 cers(。o,d1)=0.2,cers(C0,d2)=0.4 cers(Co,d3)=0.4,cers( 1,d1)=0.91 COVs(C0,d1)=O.17,COVs( 0,d2)=0.8 变精度粗糙集模型中,由于错分率/3的引入,使得它比经典粗 糙集模型更复杂。文献[3]仍以/3近似依赖度作为启发信息 已不能保证约简前后分类能力不会发生改变。文献[6]提出 变精度/3下近似分布约简,虽然能保证约简前后的/3下近似分 布不会改变,但是/3上近似分布还是有可能发生改变,导致约 简前后的分类能力发生改变。因此,本文提出/3上、下近似分 分别计算规则a)~b)的置信因子和覆盖因子可得 COV5(C0,d3)=1,COVs( l,d1)=0.83 因为Co. (1 d。l lI s)=E u E2 u E3,而V , d1), l l布约简,即通过约简前后的口上、下近似分布相同来保证约简 前后分类能力大小不发生改变。 定义7条件属性C关于决策属性D的/3约简是C的一 1 l.))0.1 ,l ls=U,即 .1(1 dll I ls)≠ l I.V ,Ec(dl (d】l 1))01 ,l ls,因此不满足变精度粗糙集中决策算 法与JB近似的关系。显然,该决策算法也不满足2.4节决策算 法的四条性质。这说明文献[1,6]的约简方法不科学,不满足 变精度粗糙集的逻辑解释。 个子集RED(C,D, )且同时满足: a)DP(C,D,卢)=DP(RED(C,D,卢),D,卢); b)UP(C,D,卢)=UP(RED(C,D,卢),D,/3); 由本文提出的基于卢下近似分布和卢上近似分布的约简 方法可得决策算法如下: a)bo^c0—+d1 b)bl^Cl--*dI c)从RED(C,D,JB)中去掉任何一个属性,都将使a)或b) 不成立。 例1给定决策信息系统S =(U,Cu D,V,,),如表1所 示,其中C={a,b,c}为条件属性,D={d}为决策属性。 表1决策表I U l C)b1 A c1--*d2 e)b1^CO一也 d)bl^CO—d2 f)b0^Co一以 易验证,该决策算法符合变精度粗糙集中决策算法与/3近 U l5 口 l b 0 c 0 d l U 8 Ⅱ 0 b l c l d l o 1 b 1 c 0 d 2 似的关系,也满足2.4节决策算法的四条性质。这进一步说明 了本文提出的约简方法是合理的。 2 3 l l O l 0 1 l l 9 0 l l 1 l l l l6 l7 1 1 1 1 0 O 2 2 l0 0 4 5 6 7 0 0 0 0 l l l l l l 1 l l l l 1 ll 0 1 l l l l l l 0 l l 2 2 l8 l9 2O 2I 1 1 l 1 1 0 0 0 O 0 0 O 3 3 3 3 5结束语 本文在经典粗糙集的逻辑解释基础上,给出了变精度粗糙 集的逻辑解释。属性约简是粗糙集理论的核心,其目标是减少 属性且保持约简前后分类能力大小不发生改变。而变精度粗 l2 0 13 14 0 1 根据表1,决策等价类为U/D:{D ,D:,D },其中D = {1—12},D2={13—17),D3={18-21 条件等价类为U/C= {E。,E2,E3, }。其中: El={1,2,19,20,21),E2={3) E3={4—13),E4={14—18) 糙集由于引人了错分率 ,使得属性约简比经典粗糙集要复杂 得多。本文提出的基于卢下近似分布和 上近似分布的约简 方法考虑的信息较全面,能使得决策表约简前后分类能力不发 生改变。实例说明本文提出的约简方法是合理的。 参考文献: [1]PAWLAK Z.Rough sets[J].International Journal of Information and Computer Science,1982,11(5):314—356. 当卢=0.1时,从属性集C中约去属性b后的卢上、下近似 分布如表2所示。 表2决策表I约去属性b前后的口下近似 分布和口上近似分布变化 [2]PAWLAK Z.Rough sets and intelligent data analysis[J].Informa— tion Sciences,2002,147(1-4):1—12. [3]ZIARKO W.Variable precision rOLlgh set model[J].Journal of 从表2中可看出,从属性集C中约去属性b后, 下近似 分布虽然没有发生变化,但口上近似分布却已发生改变,从而 导致约去属性b后引起分类能力大小的变化。 =Computer and System Sciences,1993,46(1):39—59. [4]MI Ju—sheng,wu wei-zhi,ZHANG Wen—xiu.Approaches to know1一 edge reduction based on variable precision rough set model[J].1n- formation Sciences,2004,159(3-4):255—272. 0.1时,决策表I的约简结果比较如表3所示。 表3决策表I的约简结果比较 约简方法 文献[3] 文献[6] 本文 约简结果 {c) {C) [5]丛蓉,王秀坤,刘云飞,等.基于变精度粗糙信息熵的特征约简算 法[J].控制与决策,2009,24(2):298—300. [6]周杰,王加阳,罗安.变精度粗糙集模型约简特征分析[J].计算 机应用研究,2007,24(7):10-15. {b,c) [7]杜昌平,周德云.一种基于变精度粗糙集的规则提取方法研究 [J].西北工业大学学报,2006,24(3):380—383. 4实例分析 下面通过实例结合变精度粗糙集的逻辑解释进一步说明 该约简方法的合理性。 [8]程玉胜.口依赖性的近似约简方法拓展[J].计算机工程与应用, 2010。46(1O):41-43. [9]张明,唐振民,杨习贝.肯定和否定决策规则的获取及约简[J]. 系统工程与电子技术,2011,33(9):2030.2034. 例2给定决策表I。 [10]张文修,昊伟志.粗糙集理论与方法[M].北京:科学出版社, 200】. 由文献[3,6]的约简方法可生成错分率 =0.1时的决策 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top