徐立子 中国电力科学研究院,北京 100085
IEC 61850对变电站自动化系统的定义是:变电站自动化系统(SAS)就是在变电站内提供包括通信基础设施在内的自动化。变电站自动化系统的功能就是完成控制、监视和保护变电站的设备及其馈线,以及SAS的维护功能,即系统组态、通信管理和软件管理等功能。变电站自动化系统故障一般有如下类型:硬件故障、软件故障和人为操作引起的故障。因此,为了保证电网的安全经济调度,有必要对变电站自动化系统进行可靠性分析。 1 变电站自动化系统硬件可靠性分析 1.1 可靠性的基本概念 可靠性是指一个元件、设备或系统在预定时间内,在规定的条件下完成规定功能的能力。 可靠性贯穿于自动化系统的整个开发和运行过程,包括结构设计、制造、工厂验收(FAT)、现场验收(SAT)、运行和管理等各个环节。 可靠性工程涉及元件失效数据的统计和处理,系统可靠性的定量评定,运行维护,可靠性和经济性的协调等各个方面。 元件按规范规定的要求完成规定功能的状态称为正常状态(normal state)。把不可修复元件终止执行规定的功能称为失效(invalidation)。把可修复元件终止执行规定的功能称为故障(failure) 。 一般组成变电站自动化系统的元件都属于可修复元件。所以该系统属于可修复系统。 1.2 硬件可靠性有关指标 (1)可用性(availability)。元件或系统在规范规定的条件下执行规定功能的概率。 (2)可用率A(t)(availability at timet)。元件在起始时刻正常工作的条件下,在时刻t正常工作的概率,用百分率表示。 (3)故障率h(t)(failure rate)。元件从起始时刻直至时刻t的完好条件下,在时刻t以后单位时间内发生故障的概率,单位用10-9次故障/h表示。 (4)平均无故障工作时间(Mean Time to Failure,MTTF)。MTTF表示元件寿命的数学期望值。 当故障率h(t)为常数l时,可导出MTTF= 1/λ。当考虑修复效果后,MTTF可用故障间的平均时间 (Mean Time Between Failure, MTBF) 表示。 (5)平均修复时间 (Mean Time to Repair,MTTR)。 从元件故障起到完成首次修复所需的时间称为修复时间。平均修复时间为修复时间的期望值。 (6)修复率 m(t)(repair rate)[6]。元件在起始时刻正常完好状态,直至时刻t发生故障的条件下,在时刻t之后每单位时间内修复的概率。 对于可修复元件,若修复率为常数,则表示元件无论何时发生故障,只要时间间隔相同,元件被修复的机会都相同。 当故障率和修复率均为常数即h(t)=λ,m(t)=m 时可靠性指标间有如下关系:

分析式(2)可得出: 1)若故障元件可修复,就可提高可用率。 2)在考虑修复效果后平均无故障时间(MTTF)可用故障间的平均时间(MTBF)表示。 3)平稳状态可用率:A(∞)=MTBF/(MTBF+MTTR)。若平均修复时间(MTTR)越短,则可用率A(∞)越高。 1. 3 几种典型的硬件可靠性模型 1.3. 1 串联系统(series system) 模型 串联系统是指系统中当任何一个元件失效时,均会构成系统失效的一种系统。也就是说,必须组成系统的全部元件正常工作时,整个系统才算正常工作。 串联系统的可用率为
 串联系统结构称为键形结构,又称最弱环结构。串联系统的可用率比单个元件的可用率低。系统中元件数越多,系统的可用率就越低。当串联系统中的元件遭受同样冲击时,最弱元件将首先失效,从而导致串联系统失效,所以串联系统与最弱的元件一样弱。 若一串联系统由n个元件组成,并设li为常数,MTTFi= 1/ λi,并考虑修复效果,则可导出系统故障间的平均时间为
 1.3.2 并联系统(parallel system) 模型 并联系统中只有当所有元件失效时系统才会失效。只要系统中有1个元件正常工作,就认为系统是正常工作。可导出系统的可用率为
 由上可知,若一并联系统由n个等可靠性的元件组成,则可得出: 1)当元件可靠性提高(即故障率低)时,并联系统的可靠性可提高很多; 2)当元件可靠性低时(即故障率高),并联系统可靠性就较难提高。 3)并联系统的MTTF大于串联系统的MTTF。 4)为了提高系统的可靠性,可采用并联元件,又称冗余(redundancy) 。在并联结构中若1个元件工作,其它元件处于备用状态,则称为准备就绪的备用冗余(standby redundancy)。 1.3.3 混联系统模型 工程系统并非只有单纯的串联和单纯的并联,也有串并或并串等混合模型。具体系统应具体分析。 1. 4 变电站自动化系统的硬件可靠性 变电站自动化系统的硬件主要分布在3层 (变电站层、间隔/单元层、过程层) 上。变电站层的设备有后台机、RTU远动通信接口、操作员平台及相应闭锁(含微机五防) 装置等;间隔层有各种IEDs(如继电保护、四遥、VQC等) ;过程层有各种智能传感器和执行器。在三层设备中,RTU起着承上启下的作用,既要与调度主站通信,又要与三层设备及IEDs通信。IEC赋予RTU的功能是,典型SCADA的外部站作为通信网络和变电站设备间的接口。因此,远方终端装置(RTU)的可靠性将对变电站自动化系统的可靠性起着重要的作用。 现以ABB公司的RTU560系统为例进行硬件可靠性分析。RTU560系统由多个中央通信控制单元和多个I/O单元构成,且各个单元均能自诊断。当某单元故障后能自动停运,故障单元自动短接,这时RTU560系统仅丧失故障单元的功能,其它单元和整个系统仍能继续运行。因此,按可靠性分析,这既不是串联系统,也不属于并联系统。可靠性若按串联结构定义进行分析和计算,这意味着1个单元发生故障就相当于系统发生故障。这对RTU560的可靠性是严格的计算,所以算出的MTBF将偏小。以湖南长沙某220kV变电站RTU560为例,其系统规模为:遥测104点、遥信240点,遥控112点,一发三收。可靠性分析表如表1所示。其MTBF=20759h。由于RTU560各单元均可实现带电拔插,若有充足的备品备件,则将任一故障单元带电拔下后,马上插上备用单元,RTU560系统立即恢复完好的运行状态。所以RTU560系统任何单元的故障修复都是带电拔下故障单元,插上完好备件的过程。所以,平均修复时间MTTR均可认为相同,并时间很短。平均修复时间应由单元故障诊断发出故障报警时间T1、值班员发现报警拿上备件走到RTU560装置旁时间T2和值班员带电拔下故障单元及插上备件时间T3所组成。其中T2是可变的,如无人值班变电站的T2将比有人值班变电站的T2大。若缺乏备件,则T2将会加长等。


由上可见,对于已知系统,若单元的平均修复时间(MTTR)越短,则可用率就越高。 2 变电站自动化系统的软件可靠性分析 2. 1 软件可靠性分析 软件可靠性是可靠性工程的新课题。随着软件规模与应用领域的增大,软件故障越益严重。突出表现在: 1)透明度差。由于手工作坊式的开发方式,开发过程管理差。软件出现故障只能由原开发人员处理,其他人难以介入。 2)尚未建立三检体制:自检、互检和专检。 3)尚未建立严格的技术状态管理和软件的规范化设计与管理。
软件缺陷有如下特性: 4)软件缺陷的固有性。它是牢固地潜伏在软件中。在一定环境或条件下运行时是正确的,但在某种环境或条件下运行时缺陷和错误就会暴露出来,使系统出现不正常、不正确、不按规范执行的状态。 5)对环境的敏感性。在某种输入环境下出现错误,而在其它环境下能正常工作。 6)软件错误的传染性。软件缺陷只要未排除就始终存在,一旦暴露就会产生错误,而且会不断地传染,甚至引起软件故障。 软件可靠性定义:软件在规定的条件下和规定的时间周期内执行所要求的功能的能力。 软件可靠度定义:软件在规定的条件下和规定的时间周期内不引起系统故障的概率。 2. 2 软性可靠性的常用指标 软件故障与硬件不同,只要查找出软件中的缺陷并加以修正,以后就不会再重复出现,提高了可靠性,所以故障率h(t) 不是常值。软件质量是很多因素及指标的综合反映。决定软件质量的因素有: 1)时间因素。MTBF、MTTR、MTBSD(系统平均不工作间隔时间)和平均操作错误间隔时间(MTBHE) 等。 2)缺陷频数。软件缺陷数、文件缺陷数、致命缺陷数、用户提出的补充要求数等。 3)与软件可靠性有关的百分率。可靠性、可维护性、有效性、故障率、不合格率、延迟率、错误操作率、原因不明率、同故障事件率等。 4)对软件的投入。完成软件所用不同水平人员的工时数、软件检查项目数、对用户的要求采取对策的费用等。 5)软件特性。如软件系统特点(在线、实时、离线等) 、计算机性能、所用体制与质量标准。 2. 3 软件质量的可靠性指标 (1)系统平均不工作间隔时间MTBSD MTBSD= Tv/(d+1) 式中 Tv为软件正常工作总时间,h;d为系统由于软件故障而停止工作的次数。 (2)系统不工作次数(一定时期内)。由于软件故障而停止工作,需由值班员介入再起动才能继续工作的次数。 (3)可用度A [1] [2] 下一页
|