搜索
您的当前位置:首页正文

基于贝叶斯网络的多阶段系统可靠性分析模型

来源:抵帆知识网
第31卷第1O期 计 算 机 学 报 VolJ 31 No.10 2008年1O月 CHINESE JOURNAL OF COMPUTERS 0ct.2008 基于贝叶斯网络的多阶段系统可靠性分析模型 刘 东” ’ 张春元” 邢维艳” 李 瑞” ”(国防科技大学计算机学院长沙410O73) (装备指挥技术学院国防科技重点实验室北京 101416) ”(中国华阴兵器试验中心 陕西华阴 714200) 摘要针对多阶段系统(PMS)的可靠性评估问题,提出了一种基于贝叶斯网络(BN)的可靠性分析模型PMS— BN.PMS—BN模型首先为每个阶段构建各自的BN,其结果命名为phase—BN.为了描述阶段之间的相关性,将所有 phase—BN中表示同一部件但属于不同阶段的根节点用有向边连接,并且将所有phase—BN中的叶节点与一个新的 表示PMS系统的节点用有向边连接,从而构建出用于刻画PMS系统的BN,称之为PMS—BN.将各个阶段时间离 散为m个时间段,利用BN推理算法获得PMS的可靠性参数.通过2个实例详细阐述PMS—BN的建模过程. PMS—BN模型为PMS可靠性分析提供了一种新的策略,能够方便地实施系统可靠度计算、故障诊断、重要度分析 等应用.若构建的PMS—BN满足所有非根节点均具有2个父节点,则PMS可靠度的求解过程仅需o(Nms)的计算 复杂度,其中N为非根节点的个数. 关键词多阶段系统;贝叶斯网络;可靠性分析;计算复杂度;重要度分析 中图法分类号TP302 Bayesian Networks Based Reliability Analysis of Phased—Mission Systems LIU Dong ’’ ZHANG Chun—Yuan XING Wei—Yan。 LI Rui ”(School of Computer,National University of Defense Technology,Changsha 410073) (Key Laboratory of National Defense Technology,Academy of Equipment Command&Technology.Beijing 101416) (China Huayin Ordnance Test Center,Huayin,Shaanxi 714200) Abstract The paper presents a Bayesian networks(BN)framework for the reliability analysis of phased—mission systems(PMS),named PMS—BN mode1.A PMS consists of consecutive and non— overlapping time periods,with system configuration,success criteria,and component behavior varying from phase to phase.Firstly,each phase is represented by a BN framework,named phase—BN.Then,in order to figure the dependences across the phases,all the phase—BN are combined by connecting the root nodes that represent the same component but belong to different phases,and connecting the leaf nodes of phase—BN with a new node representing the whole PMS mission.The new constructed BN is called PMS—BN.In PMS—BN model,each phase time is di— vided into segment。and the reliability analysis of PMS is performed by a discrete—time BN model acting on PMS—BN.Two examples are used to expatiate on the proposed approach.The PMS—BN based method provides a new efficient way to analyze the reliability of PMS,especially for those with dynamic phases.Moreover,it is also applicable to system diagnosis and sensitivity analysis.If all the non—root nodes in constructed PMS—BN own not more than 2 father nodes.the 收稿日期:2007—05—21;最终修改稿收到日期:2008—06—01.本课题得到国家自然科学基金(60673148,60703073)、国家“八六三”高技术研 究发展计划项目基金(2006AA704302)资助.刘东,男,1981年生,博士,主要研究方向为计算机系统可靠性分析、容错技术.E—mail: LD5M@163.tom.张春元,男,1964年生,教授,博士生导师,研究领域为计算机体系结构、高性能计算.邢维艳,女,1980年生,硕士,研究 方向为系统可靠性分析.李瑞,男,1977年生,博士研究生,研究方向为计算机体系结构. 刘东等:基于贝叶斯网络的多阶段系统可靠性分析模型 ii 毗 Keywords phased—mission systems;Bayesian networks;reliability analysis;computational com _垂 plexity;sensitivity analysis m 引 言 多阶段系统(Phased—Mission System,PMS)包 含多个连续不重叠的时间区域(或称为阶段),系统 配置、成功标准以及部件行为在不同阶段中各不相 同.在PMS中,不仅多个部件在同一阶段内存在相 M 关性,而且同一部件在不同阶段之间也存在相关性. 这种复杂相关性的存在造成了PMS可靠性分析的 困难. 完全由静态阶段构成的PMS称为静态PMS, 包含动态阶段的PMS称为动态PMS.目前,针对 0 PMS的可靠性分析方法主要分成两类:基于组合模 N m 型的静态分析方法和基于状态空间的动态分析方法. 最简单的静态分析方法是部件分解法¨w 1].该方 法将每个阶段内的部件分解为一系列统计独立的小 部件,从而消除阶段间的相关性.然而,随着系统规模 N 的增大,这种方法的复杂性呈指数增长.文献[2—3]提 出了利用割集计算PMS可靠度的方法,通过对各 阶段的割集进行不交化,并作概率求和,从而得到 m PMS的可靠度.割集方法是一种组合模型,具有简 单、直观等特点,但仍然具有组合爆炸的隐患,因此 该方法并不适合复杂系统.与基于割集的方法相比, BDD(Binary Decision Diagram,二叉决策图)方法提 供了一种快速求解静态PMS可靠度的机制,目前 美国马塞诸州大学和弗吉尼亚大学正开展相关的研 究工作.基于BDD的PMS可靠性分析方法将每个 阶段的BDD利用阶段代数和前/后向阶段相关操 作组合为整个系统的BDD(称为PMS—BDD),通过 求解PMS—BDD得到PMS的可靠度 .目前,以 PMS—BDD为基础的静态PMS研究主要集中在 解决不完全错误覆盖(Imperfect Fault—Coverage, IPC)、阶段组合需求(Combinatorial Phase Require— ment,CPR) 、多模式失效(Multimode Failure) ] 和共因失效(Common Cause Failure,CCF)[7 等 问题. 为了获得实用、可行的可靠性分析方法,人们通 常对PMS进行各种假设,比如在静态PMS分析 中,通常假设PMS中各个部件的失效行为是相互 独立且不可维修的.然而,对于阶段内各部件失效行 为相互依赖的动态PMS,静态分析方法不能很好地 加以处理,此时不得不采用基于状态空间的动态分 析方法. 对于动态PMS,目前主要利用Markov链模型 建模.Markov链模型是可靠性工程中有效的建模 工具,其优点是能够正确描述阶段内各部件之间的 依赖性以及部件跨阶段的依赖性.Markov链模型 独立分析每个阶段的Markov链,而每个阶段的初 始状态概率来源于上一个阶段的分析结果_8].此外, 也可将每个阶段的Markov链整合为单一的由状态 空间组成的Markov链联合体,PMS的可靠度即为 Markov链中所有工作状态的概率之和 ].上述两 种方法在本质上均是分阶段处理各自的Markov 链,并由最后阶段的Markov链获得PMS的可靠性 参数.文献[10—11]介绍了一种模块化方法,该方法 将用于描述每个阶段的故障树(Fault Trees,FT)模 块化,并以模块化后的每个模块作为模块基本事件 (Modular Basic Event,MBE),并由MBE构建PMS 的BDD.该方法在处理动态MBE时,则使用Markov 链模型求解.由于系统状态规模随着系统部件数量 增加呈指数增长,这导致Markov链模型的计算量 非常庞大. 在动态分析方法中,通常假设PMS的阶段持 续时间是确定的,阶段内的行为符合齐次马尔可夫 过程特性.这些假设可以极大地简化PMS的可靠 性分析.然而,对于实际中存在的不满足上述假设的 PMS,即具有随机分布的阶段持续时间和非指数分 布行为的PMS,还需要采用其它分析方法.在有关 这方面的研究中,文献[8]在阶段内随机过程是齐次 马尔可夫过程的条件下推导了阶段持续时间分布为 指数分布或一般分布的PMS任务可靠度计算公 式.文献[12]针对阶段持续时间为随机分布、阶段内 行为是非指数分布的PMS可靠性分析提出了基于 五元组的分析模型.上述方法弱化了PMS可靠性 分析中的假设条件,从而能够针对特殊的情况给出 满足指定精度的分析结果,具有较强的适用性.与此 计 算 机 学 报 2008年 类似的研究还包括Mura等人提出的基于Petri网 的PMS可靠性分析模型_1。 ,他们开发的DEEP 建模工具综合了确定性分析、Markov再生过程、随 机Petri网等方法,并为PMS的可靠性分析提供了 功能强大的集成环境. 除此之外,Monte Carlo仿真方法为PMS的可 靠性分析提供了另一种灵活的建模手段.仿真方法 的理论基础是概率论中的基本定律——大数定律, 该方法的应用范围从理论上说几乎没有什么限 制[ ].Murphy等人开发的Raptor仿真工具 可 完成对PMS可靠性的仿真,但该工具所使用的仿 真方法属于粗仿真(crude simulation),因此仿真效 率较低. 总结目前有关PMS可靠性分析的研究工作, 我们可以得出如下结论: (1)一般采用BDD及其扩展方法分析静态 PMS的可靠性.BDD方法是一种组合模型,具有快 速建模、求解迅速等优点,其缺点是无法分析动态系 统,并且只适用于非维修系统. (2)一般采用Markov链模型分析动态PMS的 可靠性.Markov链模型是描述随机过程的强有力 工具.齐次Markov链模型的研究工作比较完善,具 有成熟的理论基础和应用实例.Markov链模型能 够描述顺序失效、功能相关、储备等动态特性,并且 可以对可维修系统建模.由于系统的状态空间会随 着部件的数量呈指数变化,因此Markov链模型具 有指数级的复杂度,在分析复杂系统时,将会面临状 态空间爆炸问题. (3)静态分析方法与动态分析方法的结合可提 高分析效率,这实际上是一种层次化的建模手段,能 够充分利用两种分析方法的优点,避免各自的局限. 例如,结合Markov链模型,BDD方法仍旧能够对 动态系统进行建模,其基本思想是:将系统中的动态 部分封装为单个的模块,对单个模块利用Markov 链模型分析,而以模块作为最基本的BDD分析单 位[1 .这种方法的优点是能够描述并求解动态随机 过程,并可充分利用BDD的快速算法. (4)通过弱化模型假设条件,分析更一般条件 下的PMS可靠性;或者为了避免复杂的Markov链 求解过程,寻找新的建模方法.随着研究的不断深 入,研究人员逐渐放宽对PMS的各种假设,开始关 注系统在不满足齐次Markov链模型的条件下的可 靠性建模方法.典型的情况是阶段内部的随机过程 服从非指数分布,阶段持续时间为非确定的随机时 间.该问题可以通过基于状态空间的动态分析方法 解决,例如Markov链模型 和五元组分析模型 ”]. 对于复杂的PMS,当上述模型求解困难,以至于无 法获得解析解和数值解时,通常采用Monte Carlo 仿真方法模拟PMS的实际工作过程,利用统计参 数作为可靠性分析结果. 本文的研究属于上述第4类工作,即为了避免 复杂的Markov链求解过程,寻找新的PMS建模手 段.通常来说,基于状态空间的动态分析方法最终需 要求解复杂的状态方程(微分方程组),当PMS的 阶段内随机过程服从非指数分布时,一般无法以解 析的形式给出分析结果,此时需要求助于近似方法 给出其数值结果.即便如此,当系统的规模庞大时, 微分方程的近似求解也会异常困难,这使得PMS 的可靠性分析变成纯粹的数学问题.此外,状态空间 的规模会随着系统规模呈指数增长,其建模过程也 将会变得烦冗、枯燥、易出错. 为了使可靠性分析过程真正落到系统的模型描 述,而不是复杂数学问题的求解上,本文提出一种新 的基于贝叶斯网络(Bayesian Networks,BN)的 PMS可靠性分析模型PMS—BN,其目的在于简化 PMS可靠性分析的建模过程,减小模型的计算复杂 度,并支持一般条件下的PMS系统(包括静态PMS 和动态PMS)分析.PMS—BN模型将PMS描述为 BN,从而能够利用高效的计算方法求解PMS可靠 性.利用BN特有的推理机制,PMS—BN模型还适 用于系统的故障诊断、重要度分析等更加复杂的 应用. 本文将首先给出基于BN的可靠性分析原理. 在此基础上,通过结合BN与PMS,研究基于BN的 PMS可靠性分析方法PMS—BN.最后,本文将通过 用例介绍PMS—BN在可靠度计算、故障诊断、重要 度分析等领域中的应用. 2贝叶斯网络及其在 可靠性分析中的应用 BN是一个有向无环图,其中的节点表示随机 变量(在BN中,通常“节点”等同于“随机变量”),有 向边表示条件独立关系.根节点是指不具有父节点 的节点,叶节点指不具有子节点的节点,其它节点称 为中间节点.对于由离散变量节点构成的BN,根节 点拥有先验概率表(Prior Probability Table,PPT), 表中的数值表示根节点处于不同状态的概率; 1O期 刘 东等:基于贝叶斯网络的多阶段系统可靠性分析模型 非根节点拥有条件概率表(Conditional Probability Table,CPT),表中的数值表示在给定父节点取值组 合的情况下,该节点处于不同状态的概率. 如果用节点和有向边表示系统的部件及其之问 在本文中,对PMS系统给出以下假设: (1)部件或系统发生失效后不可修复.由于BN 3 PMS—BN可靠性分析模型 的关系,则BN刻画了系统中变量之间存在的条件 独立关系,即节点在给定其父节点的前提下与其非 后代节点条件独立口 .BN揭示出所有变量的完全 是一种有向无环图,因此无法对可维修系统建模. (2)每个阶段的持续时间相等.在本文中,每个 联合概率分布(Full Joint Probability Distribution, JPD),从而能够通过边缘化求解机制推理出所有与 概率相关的问题(在给定一个或多个变量的前提下 获得系统中其它变量的条件概率).变量之间条件独 立关系的存在减少了确定JPD所需的参数,从而简 化了系统中变量的概率模型.系统中所有变量{X , X。,…,X }的JPD可表示为 PEX ,X ,…,x ]===ll PEX l pa(x )] (1) i 1 其中,pa(X )表示节点x 的父节点. 近年来,BN模型在可靠性分析领域中的应用 逐渐得到关注.研究结果表明,无论在建模能力还是 在分析能力上,BN模型较故障树、可靠性框图等模 型均具有显著的优势,并具有较小的复杂度口 . 由于PMS系统的配置会在阶段的切换时刻发 生变化,我们选择离散时间贝叶斯网络(Discrete— Time Bayesian Networks,DTBN)作为PMS的建 模手段.在DTBN中,根节点表示系统部件,中间节 点表示一系列部件之间的相互关系,叶节点表示整 个系统.DTBN将系统任务时间离散为m个时间 段.若系统任务时间为丁,则每个时间段的宽度为 A一丁/ .相应的,每个节点具有m+1个状态,每个 状态表示节点在对应时问段内的行为.例如,如果节 点表示系统中的部件,则节点处于该状态表示部件 在对应时间段内发生失效;如果节点表示门,则节点 处于该状态表示门在对应时间段内产生输出.系统 的可靠度就是叶节点处于最后一个状态的概率. 复杂系统的DTBN中节点众多,节点之间的关 联也会因系统的复杂行为而变得极其紧密.然而,与 基于状态空间的建模方法相比较,DTBN模型将系 统状态的转移映射到节点附带的条件概率表中, 这种利用多个局部行为描述全局状态的变迁将会 在很大程度上降低模型的复杂程度.此外,DTBN 的推理方法具有直观、简洁的特点,易于用计算机 实现快速分析和处理,避免了复杂微分方程的求 解问题. 阶段的持续时间被离散为多个时间段,从而将部件 的工作过程表示为多个状态.如果每个阶段的持续 时间相等,可有利于PPT和CPT中状态概率的形 式化表示.事实上,本文的方法可以应用于阶段持续 时间为任意值的PMS,文末将会弱化这一假设,并 指出这种情况下的处理方法. (3)任意阶段子任务的失败将导致整个PMS 任务的失败.大多数系统的正常运行需要经过多个 连续的阶段,例如巡航导弹攻击任务可分为发射、惯 性制导段、末制导段等阶段,太空飞行器本体从发 射、运行、返回亦需经历不同的环境阶段等.在不考 虑阶段组合需求CPR(即PMS系统具有多个任务, 每个任务都需要组合不同的阶段配置)_5 的情况下, 这一假设符合实际系统的工作过程.事实上,只需修 改某些节点的CPT,本文的方法将可以直接应用于 CPR的分析.文末将弱化这一假设,并指出这种情 况下的处理方法. 3.1 PMS-BN的生成方法 PMS系统的每个阶段可以用DTBN表述,本 文称这种用于表述阶段内部件相关性的DTBN为 phase BN.与FT类似,phase—BN是PMS阶段内 系统行为的一种表示方法,并可由每个阶段的FT 转换得到.例如,BN中的根节点可以表示FT中的 基本事件,中间节点表示FT中的各种静态/动态门 以及与根节点具有依赖关系的基本事件,而叶节点 则表示FT的顶事件.有关将FT转换为BN的相关 内容可参考文献E17]. 为了用BN描述整个PMS系统,通过如下两个 步骤对phase—BN进行组合: (1)由于不同阶段间的同一部件是相关的,因 此为了描述这种阶段之间的相关性,利用有向边连 接那些位于不同阶段但属于同一部件的节点. (2)PMS的任务依赖于每个阶段子任务的执行 情况,即一旦任何阶段失效,PMS将会失效.为了表 示PMS任务和各个阶段子任务之间的相关性,构 建一个新的节点表示整个PMS系统的任务,并用 有向边连接phase—BN的叶节点和新的节点. 1818 计 算 机 学 报 依照上述过程生成的BN即为PMS—BN.图1 展示了为一个2阶段PMS构建PMS—BN的过程, 储备;在A失效后,B才开始工作;只有当A和B均 失效时,系统才会失效.两个阶段对应的phase—BN 如图1(b)所示.利用两个phase—BN生成的PMS— 其中第2个阶段由动态故障树(Dynamic Fault Tree,DFT)_1副表示.如图1(a)所示,在第1阶段中, 部件A和B并联工作,只有当A和B同时失效时, 系统才会失效.在第2阶段中,部件B作为A的冷 BN如图1(c)所示,其中,丁 (T )代表阶段1(2)的 顶事件,S代表PMS系统. 恿 阶段2 (a)两个阶段对应的DFT (b)r ̄DFT转换得到的phase—BN (c)PMS—BN 图1 PMS—BN的生成过程 在由phase—BN生成PMS—BN的过程中,应当 》 0标识.接下来的/7/个状态表示部件在该阶段的第 考虑如下特殊情况:两个节点在phase—BN中条件 个时间段中失效,用( 一1) +i标识,其中i是 时间段编号,J是阶段编号(O< T/2,1< n).最 后一个状态表示部件在该阶段中未发生失效,用 独立,但在PMS—BN中却具有相关性.例如,在第2 阶段中,B是A的冷储备,因此该阶段的子任务状 态原本只由B决定,即第2阶段的phase—BN中,A 和T。之间不存在有向边.然而,考虑到B有可能会 mj+1标识.与部件节点对应,这些阶段的其它中间 节点和叶节点同样具有 +2个状态. 在第1阶段中失效,因此T 的状态实际上是由A: 和Bz共同决定,即PMS—BN中的A 和T2之间存在 有向边,这与第2阶段的phase—BN不同. 如果部件并未从第1阶段开始工作,则该部件 在第1次进人工作状态的那个阶段中具有Tn+1个 状态,而在剩余的工作阶段中具有研+2个状态. PMS—BN的叶节点具有(m+1) 个状态.前m 通常来说,对于任意3个节点x,y和Z,如果 下述条件成立,则应当在PMS—BN中用新的有向边 连接lX和Z,有向边的方向是由X指向Z: (1)X,Y和Z并不属于第1阶段,y在以前的 阶段中曾经出现; 个状态表示系统在第1阶段中的某个时间段内发生 失效.随后的( 一1)(m+1)个状态被分为( 一1)组, 每组对应一个阶段.例如,状态( +1)到 十(m十1) 表示系统在第2阶段内的行为,其中,状态 +1表 示系统在第2阶段开始时即发生失效,随后的 个 状态表示系统在对应的时间段内发生失效.叶节点 最后一个状态表示系统在任务时问内并未失效.因 (2)Y是X的冷储备; (3)Z是y的冷储备,或者z表示x和y的 CSP门 . 3.2 PMS-BN的可靠性分析方法 将每个阶段时间分为 个时间段,从而整个任 此,PMS的可靠度就是PMS-BN的叶节点处于最 后一个状态的概率. 务时间分为 个时间段,其中 为阶段的个数. 每个节点与其父节点之间的概率发生关系由对 应的CPT描述,从而PMS的可靠度可通过计算 PMS—BN叶节点的后验概率得出.由此可知,第1 阶段的每个节点的CPT(对于根节点是PPT)具有 在PMS—BN中,第1阶段的部件节点具有 +1 个状态.前m个状态表示部件在第m个时间段中失 效,而最后一个状态(标识为 +1)表示部件在第1 阶段中未发生失效.与部件节点对应,第1阶段的其 它中间节点和叶节点同样具有 +1个状态. 优+1个状态.剩余阶段的节点的CPT具有优+2 个状态.根据BN的结构,每个节点具有k+1维的 CPT(或者PPT),其中k是节点的父节点个数.例 如,图1中A ,B ,A 和B 均具有1维的PPT,而 在剩余的阶段中,每个部件具有 +2个状态. 第1个状态表示部件在先前的阶段中已经失效,用 刘东等:基于贝叶斯网络的多阶段系统可靠性分析模型 1819 T , 和S具有3维的CPT. 假设所有部件的寿命服从指数分布,令A和B 的失效率 :A。一0.02h~,阶段内时间段的个数 备,只有在A失效之后,B才开始工作.除此之外, 如果B在第1阶段内失效,那么B在第2阶段也将 不再工作.A也同样具有类似的特性.因此,Bz的 一2,时间段长度A一1h,则A 或B 的PPT可根 据下式获得 Pr{A1===k}一F(志・△)一1一e AAX Z ̄, Pr{Al一3}一1一Pr{A1—1)一Pr{A1—2)(2) 其中,志<3.完整的PPT如表1所示. 表1 A。(B )的PPT o.o1980 o.01941 o.96O79 如果部件在前一个阶段内失效,它将不能在后 续阶段中继续工作.因此,如果A 的状态为1或2, 则A。处于状态0的概率为1.以部件A在第J一1 阶段不失效的前提下,A在第J阶段中处于状态i 的条件概率由下式计算: P( , 一(Pr{A在[(( 一1) + 一1)・△, ((J一1)优+ )・△]内失效))/ (Pr{A在第J一1阶段未失效}) 一(F((( 一1)m+i)・△)一 F((( 一1) +i一1)・△))/ (1一F(( 一1) ・△)) (3) 如果部件的寿命服从指数分布,则式(3)可整 理为 P(^IJ 一 e ==:F(i・△)一F((i一1)・△) (4) 上式表明,部件在第 阶段中处于状态i的条 件概率等于部件在第1阶段相应时间段内的先验概 率,这是由于指数分布的无记忆性决定的.因此,以 A 处于状态3作为前提,A。处于状态3的条件概率 等于A 处于状态1的先验概率,依次类推.因此,有 Pr{A2一k lA1—3}一Pr{A 一k(rood )) (5) 其中,3 是 5.A 的CPT如表2所示. 表2 A 的CPT 由于B 具有两个父节点A 和B ,因此其CPT 与A 的CPT不同.在第2阶段中,B是A的冷储 CPT将是一个3维表,表中的数值依照下式填人: Pr{B2—0  lB1—1 or B1=2)一1, Pr{B2一k{B1—3,A2—0)一Pr{B1一k(mod )), Pr{B2一g  IBl一3,A2—3}一 Pr{B 一(g一1)(rood )}, Pr{B2===5  lB1—3,A2>3}一1 (6) 其中,3 是 5,4 g 5. T 的CPT可以根据A 和B 的AND关系直接 构建. 由于 与A 和B。连接,因此其CPT是一个3 维表.如果A在第1阶段失效,则B将在第2阶段 开始时便进人工作状态,而T 的状态将由B确定; 如果B在第1阶段失效,则丁 将只由A确定;否 则,T 将由A 和B 共同确定.,, 的CPT中的数值 依照下式填人: Pr{T2=max(k,g)lA2一忌,B2一g,是一0 org一0)一1, Pr{T2一gl A2一k,B2一g)一1 (7) 其中,3 志<g 5. 由于任意阶段子任务的失败将导致PMS的任 务失败,因此S的CPT可以根据T 和丁2的OR关 系构建: Pr{S=k  lT 一k,1 是 2}一1, Pr{S一3}T1—3,T2—0}=1, Pr{S—g+1 l T1—3,T2一g,3三三三g 5}一1(8) 在PPT和CPT构建完毕之后,节点S的状态6 表示PMS未发生失效,其概率即为PMS的可靠 度.本文利用开源Matlab BNT工具包①计算出图1 中PMS在时刻4h的可靠度为0.9951.此外,也可 以通过计算s在任意状态的概率来计算系统在任 意时刻的可靠度. 在上例中,假设所有阶段时间相同,而实际上, 本文中的方法可应用于具有不同阶段时间的PMS (不满足假设2).此时可将每个阶段时间分为 一 /△个时间段,其中 为第k个阶段的持续时间, △为某一固定的时间长度. 当某一阶段子任务的失败并不导致整个PMS 任务的失败时(不满足假设3),可以更改PMS—BN 叶节点的CPT,使之满足新条件下的阶段组合. httpt|l w.CS.ubc.ca/~murphyk/Software/BNT/bnt. html 计 算 机 学 报 3.3计算复杂度分析 了简化计算,只填充s的CPT的最后一行即可得到 PMS的可靠度,此时,总的计算复杂度为O(m ). 求解中间节点处于不同状态的概率需要构建完 整的CPT,所需的计算量为O(m ¨ ),其中P为中 间节点的父节点的个数,将由系统的结构决定.如果 PMS-BN中中间节点的最大父节点的个数为P,则 求解PMS—BN可靠度所需的计算量应为0(m + Nm‘P“ ))===max(O( ),O(Nm‘P )),其中N为 如果仅仅计算PMS完成任务的概率(即PMS 的可靠度),只需计算PMS—BN的叶节点s处于最 后一个状态的概率,该过程的伪代码如下: 1.res“Z 一0; 2.for S1—1::N(pa1(S)) 3.for S2:1::N(pa2(S)) 4. … 5. for s 一1::N(pa (S)) 6. 5 如一r s“£ +Pr{S—m +1 l pa (S)一S }・ PMS—BN中非根节点的个数. IIPr{pa (s)一 }, 其中,N(pa (S))表示节点S的第i个父节点的状 态个数.对于本文的PMS—BN,有 f +]. i一1 考虑计算复杂度表达式max(O(m ),O(Nm‘P )), 在0(m”)中, 实际上表示PMS—BN叶节点的父节 点的个数,而O(Nm ¨ )的大小也主要取决于P的 值,因此我们可以得出如下结论:父节点的个数将在 P 一{I m+2,1, 1< ‘<\z!  上述代码中的第6行是最内层的循环体,利用 大O表示法表示的执行次数为O((m+1)(m+ 2)‘ 一 )一O(m”). 很大程度上影响着PMS—BN模型的计算效率.因 此,在构建phase—BN和PMS—BN时,应尽可能地 以级联的方式将每个节点的父节点个数保持为2, 将可简化模型的复杂度.如图2所示,在将4输入 AND门转换为BN时,最终的转换结果应当为如 图2(b)所示的由级联节点构成的BN,而不是如 图2(c)所示的BN. 而构建S的CPT将需要填充一个具有( +1) 个状态的n+1维表,表中具有的项的个数为 0(( 十1)n(m+1)( +2) )一0(nm“¨ ).为 (a)4输入ANDI'3 (b)较优的BN (c)较差的BN 图2 BN的简化示例 在大多数情况下,系统的PMS—BN均可以构建 成满足上述要求的BN拓扑结构.此时,为了获得 PMS可靠度,所需要的计算量将变为max(O(m ), O(Nm ))一0(Nm。).因此,PMS—BN模型的计 算复杂度并不与系统规模呈指数增长关系。与 Markov链模型相比较,后者状态空间为2 ,q为系 统中所有变量的个数.两种可靠性分析模型的比较 如表3所示. 表3 PMS—BN模型与Markov链模型的比较 由表3可以看出,除了不支持可维修PMS的可 靠性分析之外,PMS—BN模型在建模过程、复杂度、 精度由参数m确定,m的值是计算精度与所消耗时 间和空问的折中,这种折中为我们提供了一种灵活 求解算法等方面均较Markov链模型具有较大的优 势.此外,PMS—BN模型获得的可靠性分析结果的 的解决方案.而求解Markov链模型则通常需要求 解复杂的微分方程,尽管可以通过各种简化方法加 1O期 刘 东等:基于贝叶斯网络的多阶段系统可靠性分析模型 1821 快求解速度,但对于复杂系统的Markov链模型分 统(GNC,标识为G)和冗余的计算机.所有设备通 过一对CAN总线连接.AES的任务包含3个阶段. 总线a(标识为Na)和总线6(标识为Nb)在第1和 析,则需要付出很大的时间和空间代价. 除了计算PMS可靠度之外,基于PMS—BN的 建模方法还可以完成故障诊断、重要度分析等可靠性 分析内容.这些内容的实现需要利用BN的后验概率 推理,其复杂度取决于所采用的推理算法.一般来说, 推理算法的复杂度主要由网络的拓扑结构和节点状 态的个数(即时间段的个数m)决定口 .本文利用 BNT工具中的连接树推理算法(junction tree infer— 第3阶段互为热储备,而在第2阶段则必须同时正 常工作.在第1阶段中,计算机a(Oa)和计算机 6(Ob)构成温储备计算机子系统;只有计算机子系 统或者CAN子系统或者GNC子系统失效,该阶段 才会失效.在第2阶段中,Oa和Ob构成热储备计算 机子系统;此外,该阶段还需要照相机完成地面拍照 ence algorithm)完成所有推理过程,其推理复杂度 为0( ),其中,d为最大变量值域空间的大小, 为BN对应的连接树中最大结点簇的大小_l .如果 将PMS—BN构建为级联的形式,则大多数情况下有 d—m+2, 一3,此时推理算法的复杂度为O(m。), 而与网络的规模(变量的个数)没有直接关系. 任务.第3阶段与第1阶段类似,但在该阶段中,Oa 和Ob构成冷储备计算机子系统,即Ob是Oa的冷 储备单元. 4 用例分析 4.1 用例1 图3 AES的结构 AES各个阶段的FT如图4所示,利用FT生 成的PMS—BN如图5所示,其中的虚线是在由FT 向PMS—BN的转化过程中填加的.利用前文的分析 方法为PMS—BN中的每个变量指派PPT或CPT, 该过程需考虑以下情况: 某一航空电子系统(Aviation Electric System, AES)的系统结构为分布式结构,如图3所示.AES 的搭载设备包括照相机(C)、姿态导航与控制子系 (a)阶段1 (b)阶段2 (c)阶段3 图4 AES每个阶段的故障树 (1)当Ob作为温储备单元工作时,其失效率为 正常失效率的a倍(称 为睡眠因子). (2)如果Na在第2阶段结束时仍未失效,那么 可以确定Na在第1阶段并不失效,因此在给定 Na。的条件下,Na 与Na。条件独立.因此,Na 与 Na。之间不存在有向边.其它部件的节点与此类似. (3)在构建PMS—BN时,以级联节点的方式将 每个节点的父节点个数保持为2,将可简化PMS— BN的计算过程(图5所示为未简化的PMS—BN). (4)在构建PMS—BN的过程中,考虑Ob在前 2个阶段失效的情况,用1条有向边连接Oa。和 图5 AES的PMS—BN CSP . 1822 计 算 机 学 报 4.1.1可靠度的计算 假设AES中所有部件的寿命均服从指数分布, 计算机、GNC、CAN总线、照相机的失效率分别为 o一2.0×10一 h一 , G===3.0×10 h , N一1.5× 10 h~, c一5.0×10 h一 .温储备部件的睡眠因 子口一0.1.每个阶段需要200h.若rn—lO,利用 BNT工具求解图5中的PMS-BN,得到AES在不 同时刻的可靠度曲线如图6所示. 1.O _ ‘l -|‘|| 0.9 l l●睃璧 l l二:= 霞 ll   l0・9 蠕 O.9 0.9 I 。、 0.9 时I司/h 图6 AES在不同时刻的可靠度 由于Na和Nb在第1阶段组成一个并联系统, 因此如果两者之一发生失效,那么系统在该阶段并 不失效.然而,由于Na和Nb在第2阶段组成了一 个串联系统,因此只要任何一个部件失效,系统将会 失效.这两个阶段的系统配置将会导致这样一种特 殊的现象:系统在第2阶段的开始时刻将比在第1 阶段的结束时刻更容易失效,即所谓的PMS潜在 失效 .图6展示了这种潜在失效的示例——可靠 度曲线在第1阶段结束时和第2阶段开始时发生了 迅速的跳变. AES系统的单一Markov链模型_g]中包含25 个状态,33个状态转移,利用Matlab工具的龙格一 库塔算法解算AES系统的状态方程,可以求得系统 在第3阶段结束时的可靠度数值解为RM rk0v一 0.950861,计算过程耗时0.047s.对于不同的m值, 由PMS—BN计算出AES在第3阶段结束时的可靠 度R 。 以及与R№b 的相对误差如表4所示.由 表4可以看出,随着m的增加,R 雌 的值逐渐趋 近于数值解.即使当 一5时,R 与R 。 的相 对误差也保持在1.5 以内.因此,在实际应用时, 为了减小计算复杂度,同时获得较高的计算精度,可 以今7n一7. 表4在不问J,l下利用PMS-BN模型计算的可靠度 相对误差 竹t 可靠度RPMs一 消耗时问/s( 堕 ×1。。 ) 0.017 1.24 0.052 1.14 0.732 O.52 1.781 O.19 9.394 0.12 4.1.2故障诊断 故障诊断功能是BN优于其它可靠性分析方法 的另一个特点.利用BN进行系统的故障诊断,即是 在给定系统故障这一证据下,分析各个部件发生失 效的后验概率,找到最可能导致系统故障的原因 (Most Probable Causes,MPC),从而为系统设计和 维护提供方法指导和理论依据. 对于PMS—BN,故障诊断过程不但可以确定哪 些部件最可能发生失效,还可确定部件在哪一时刻 最可能发生失效.基于贝叶斯网络的多阶段系统故 障诊断过程包括以下步骤: (1)假设PMS—BN的叶节点5在时间段P(0< p< +1)发生故障,以此作为求解PMS—BN中其 它节点后验概率的证据; (2)以S—P+(p mod )一s作为证据,求出各 个部件发生失效的后验概率Pr{x 失效f S—s}一 1一Pr{X 一im+1 l S—S},从而获得最可能导致 PMS失效的部件MPC. (3)设x 为第2步得到的MPC,求x 在各个时 问段内发生失效的后验概率Pr{X 一是l S—s). 对于图5所示的PMS—BN,令 一4,P一10,即 以S===12作为证据,得到AES各个部件发生失效的 后验概率如表5所示. 表5 系统失效时各个部件失效的后验概率 部件 概率 部件 概率 Nal 0 Ob2 0.00718 Nb1 0 G2 0 Oa1 0.00654 C2 0 Obl 0.00065 Na3 0.00410 G1 0 Nb3 0.00410 N口 0 Oa3 0.02051 Nbz 0 Ob3 0.01308 Oa2 0.01307 G3 0.99018 由表5可知,如果系统在第1O个时间段内发生 故障,则最可能导致系统失效的部件是GNC子系 统(G3).在PMS失效的前提下,G3在各个时间段内 失效的后验概率如表6所示. 10期 刘 东等:基于贝叶斯网络的多阶段系统可靠性分析模型 (1一Prf~S}) 1823 (12) 表6 系统失效时GNC子系统G3失效的后验概率 状态 O 9 后验概率 对于PMS—BN,有 Pr{~X )一Pr{X 一ij+1) (13) 1O 11 Pr{~S}=Pr{S一( +1) ) (14) 其中,1 表7所示. m.令m一10,则AES在第3阶段结束 l2 l3 时,根据式(12)~(14)得出的各个部件的重要度如 由表6可知,G。最可能在第10个时间段内发生 失效. 表7部件在不同阶段的重要度 N口 Nb Oa( G C 除了可以分析单个部件发生失效的后验概率之 外,PMS—BN模型还可以分析多个部件组合失效的 后验概率,后者的分析方法与前者类似. 4.1.3重要度分析 重要度分析使得设计人员可以确定每个系统部 件的重要性.对具有较高重要度的部件进行可靠性 改进,将会使系统的可靠性获得较大的提升.本文采 段段段 1 2 3 由表7可知,G在第1阶段、C在第2阶段、Oa 和G在第3阶段均具有较高的重要度,需要在部件 设计时重点关注其可靠性的改进. 4.2 用例2 阶阶阶 用危害性重要度 。。作为指标,利用PMS—BN分析 O O O " 捣 AES中各个部件的重要度.部件X的危害性重要度 1 5∞ % 7 对于如图7所示的PMS系统,由于系统共包含 定义为 16个部件,因此其Markov链模型具有2¨个状态, 此时利用系统状态方程求解可靠度参数将会异常复 杂.而如果用PMS—BN刻画系统,级联各个根节点 构成的PMS—BN将只需59个节点(包括:第1阶段 phase—BN中的27个节点,第2阶段phase—BN中 的31个节点,表示PMS的1个叶节点).当rn一6 O 0 O Pr{si x}一Pr{s l-x})・ ” 弱  1(u 7 (9)%∞ O 0 0 其中,X表示部件发生失效,~X表示部件X完好, 同的结构,因此同一部件在不同阶段表现出不同的 重要度.上式中, Pr{SIX }一1一Pr{~S}X ) 一 一 n曲盯 7 7 娼 伯 9 s表示系统发生故障.由于PMS中不同阶段具有不 O O O 弘 弛 1 1卯 卯 2 O O O 时,利用PMS—BN模型计算该PMS的可靠度所耗 时间仅为8.5S. 。_ 蚰 9 5 2O ㈣  5 结 论 本文提出了一种基于贝叶斯网络的多阶段系统 Pr{SI~X )一1一Pr{~SIX }  一(1】) 其中,IXi≤ .由式(9)~(11)可得 ∞ I(X )一(Pr{~S)(1一Pr{~X l~S})+ 可靠性分析模型PMS—BN,旨在提供一种完善、高 效的多阶段系统可靠性分析方法.PMS—BN模型利 Pr{~Sl~X }(1一Pr{~X }))/ (a)阶段1 (b)阶段2 图7复杂PMS示例 1824 计 算 机 学 报 2008年 用贝叶斯网络刻画多阶段系统,从而可以利用贝 叶斯网络作为有力的建模和分析工具完成多阶 段系统的可靠性分析.在进一步的工作中,我们将 在PMS—BN模型中引人IPC、CCF等因素,拓展 PMS—BN的建模能力.同时,考虑各种特殊应用,完 成更为一般条件下的多阶段系统可靠性分析. 参 考 文 献 [1] Esary J D,Ziehms H.Reliability analysis of phased mis— sions//Proceedings of the Conference of Reliability and Fault Tree Analysis.Washington,USA,1975:213-236 [23 Ma Y,Trivedi K S.An algorithm for reliability analysis of phased—mission systems.Reliability Engineering and System Safety,1999,66(2):157—170 [33 Somani A K,Trivedi K S.Phased-mission system analysis using Boolean algebraic methods//Pr0ceedings of the ACM SIGMETRICS Conference on Measurement and Modeling of Computer Systems.Nashville,Tennessee,USA,1 994:98— 107 [4] Zang X,Sun N,Trivedi K S.A BDD—based algorithm for reliability analysis of phased-mission systems.IEEE Trans— actions on Reliability,1999,48(1):50—60 [5] Xing L,Dugan J B.Analysis of generalized phased—mission system reliability,performance,and sensitivity. IEEE Transactions on Reliability,2002,51(2):199—211 [6] Tang Z,Dugan J B.BDD—based reliability analysis of phased—mission systems with multimode failures. IEEE Transactions on Reliability,2006,55(2):350—360 [7] Tang Z,Xu H,Dugan J B.Reliability analysis of phased mission systems with common cause fai1ures//Pr0ceedings of the Reliability and Maintainability Symposium.Alexandria, Virginia,USA,2005:313—318 [8] Kim K,Park K S.Phased—mission system reliability under Markov environment.IEEE Transactions on Reliability, 1994,43(2):301—309 [9] Dugan J B.Analysis of a hybrid voting algorithm for replica— ted file systems.Information and Software Technology, 1991,33(4):273—280 [10] Ou Y,Meshkat L,Dugan J B.Multi—phase reliability analy sis for dynamic and static phases//Pr0ceedings of the Relia— LIU Dong,horn in 1981,Ph.D.. His current research interests focus on real—。time systems and fault—-tolerance techniques. bility and Maintainab|lity Symposium.Seattle,Washington, USA,2002:404—410 [113 Ou Y,Dugan J B.Modular solution of dynamic multi—phase systems.IEEE Transactions on Reliability,2004,53(4): 499—508 [12] Mo Yu—Chang,Yang Xiao—Zong,Cui Gang et a1.Mission re— liability analysis of generalized phased mission systems.Jour— nal of Software,2007。18(4):1068—1076(in Chinese) (莫毓昌,杨孝宗,崔刚等.一般阶段任务系统的任务可靠性 分析.软件学报,2007,18(4):1068—1076) [13] Mural I,Bondavalli A,Zang X et a1.Dependability modeling and evaluation of phased mission systems:A DSPN ap— pr0ach//Pr0ceedings of the 7th IFIP International Conference on Dependable Computing for Critical Applications.San Jose,California,USA,1999:319—337 [14] Bondavalli A,Chiaradonna S,Giandomenico F D et a1.De— pendability modeling and evaluation of multiple—-phased sys—- tems using DEEM.IEEE Transactions on Reliability,2004, 53(4):509—522 [15] Murphy K E,Carter C M,Malerich A W.Reliability analy— sis of phased—mission systems:A correct approach//Pr0ceed— ings of the Reliability and Maintainability Symposium. Orlando,Florida,USA,2007:7-12 [16] Langseth H,Portinale L.Bayesian networks in reliability. Reliability Engineering and System Safety,2007,92(1):92— 1O8 [17] Zhou Zhong—Bao,Zhou Jing-lun,Sun Quan et a1.Dynamic fault tree analysis method based on discrete—time Bayesian networks.Journal of Xi an Jiaotong University,2007,41 (6):732—736(in Chinese) (周忠宝,周经伦,孙权等.基于离散时间贝叶斯网络的动态 故障树分析方法.西安交通大学学报,2007,41(6):732— 736) [18] Dugan J B,Bavuso S,Boyd M.Dynamic fault tree models for fault tolerant computer systems.IEEE Transactions on Reliability,1992,41(3):363—377 [19] Tian Feng-Zhan,Zhang Hong Wei,Lu Yu—Chang et a1.Sim— plification of inferences in multiply sectioned Bayesian net— works.Journal of Computer Research and Development, 2003,40(8):1230—1237(in Chinese) (田风占,张宏伟,陆玉昌等.多模块贝叶斯网络中推理的简 化.计算机研究与发展,2003,40(8):l230—1237) [20] Intellect. Reliability:A Practitioner s Guide. Beijing: Beihang University,2003 ZHANG Chun-Yuan,born in 1964,professor,Ph.D. supervisor.His major research interests include high-per— formance computing and computer architecture. XING Wei-Yan,born in 1980,M.S..Her current re— search interests focus on the reliability analysis of complex systems. LI Rui,born in 1977,Ph.D.candidate.His current re- search interests foCUS on computer architecture. 1O期 Background 刘 东等:基于贝叶斯网络的多阶段系统可靠性分析模型 1825 The reliability analysis of Phased—Mission Systems characterized by both static and dynamic behaviors. The paper introduces Bayesian networks(BN)modeling (PMS)iS different from that of norma1 systems,since the existence of more than one phase in PMS】eads tO some com— plexities which do not occur in a single phased system.In into the reliability analysis of PMS,and presents a new rood— el,named PMS-BN.PMS—BN provides a compact and intui— PMS,dependences exist not only within a phase but also across the phases.The PMS reliability was investigated greatly in these ten years,and the research center lies in Uni— versity of Virginia and Duke University,USA.There have been a variety of methodologies for the analysis of PMS, such as cut sets,binary decision diagrams(BDD)and Mark— OV chain mode1.BDD based approaches provide an efficient way tO analyze PMS.However.it is limited tO the static sys— terns(just like cut sets based models)and can not handle dy— namic systems that are characterized by dynamic behaviors, such as function dependence,redundancy and sequential fail— ure.Although Markov chain model is a powerful tool tO han— dle dynamic systems,it has tO confront the state explosion problem.Accordingly,it is a challenge tO get an applicable and efficient method to analyze the general PMS that are tire way tO analyze PMS with dynamic phases.In PMS—BN, the dependences within a phase and across the phases can be expressed easily by BN framework,and the reliability of PMS can be computed with less complexity compared by Markov chain mode1. This research is supported by the National Natural Sci~ ence Foundation of China(60673148,60703073)and the Na— tional High Technology Research and Development Program (863 Program)of China(2006AA704302).The aim of the research is tO establish a systematic method to analyze PMS, such as space information systems and aircraft systems.Un— til now,the research team has published more than 20 papers about the fault tolerant design and the reliability analysis of space information systems. 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top