65MW机组运行中启动热水循环泵泵后,机组轴瓦振动突然变大,超过保护值跳闸停机,大神们帮忙分析一下原因。

DCS典型故障原因分析_伤城文章网
DCS 典型故障和热控保护动作的分析1. DCS 典型故障原因分析与防范对策 2. 预防 DCS 系统不正确动作的几点看法 3. LC 卡通讯中断问题的探讨 4. 某电厂#4 机组高调门关闭问题的分析及处理 5. 某电厂 DCS 系统死机离线测试情况 6. 某热电厂#4 机(100MW)DCS 通讯紊乱事故的情况 7. 某厂#2 机组 DPU 异常事件分析及处理 8. 某电厂#3 机组驱动程序不匹配引发的 DCS 网络通讯故障 9. 某厂#1 炉汽包水位高Ⅲ值 MFT 动作跳闸 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 某厂#4 机组 DCS 人机接口站感染病毒 一起 DCS 系统异常的分析及处理 XDPS 组态时间配合异常事件分析 电动给水泵跳闸原因分折 某厂#12 炉灭火保护动作情况分析 某厂汽包水位保护误动作原因分析及处理 某厂#1 炉火检控制柜电源故障停机分析 某公司#1 机组汽包水位重大未遂事故的分析 机组“风量&25%”MFT 事故分析 某电厂#13 炉 MFT 动作原因的分析 二次风量保护误动 MFT 原因的分析 隔离器电源接线松动导致锅炉 MFT 动作 某发电厂#3 机组 8 月 20 日跳闸原因的分析 三重保护解除造成的断油烧瓦 某厂#4 机组汽机串轴保护误动机组跳闸事故的分析 某电厂 12 月 6 日#2 机水位保护拒动事件的分析 某发电公司热控专业典型事故案例分析 某电厂#3 机 UPS 电源故障造成 DCS 失电的分析 某厂#3 机 ETS 电缆故障引起机组跳闸停机事故 某机组“DEH 跳闸电源故障”案例分析 DCS 电源故障引发的 MFT 事故分析及预防措施 从一起电源故障谈 DCS 电源可靠性 某电厂#3 机组 4 月 26 日跳闸解列情况的分析 强行解除保护 造成炉膛爆炸1PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn DCS 典型故障原因分析与防范对策摘要:本文介绍了国内火力发电机组所应用的几种类型 DCS 的故障情况,并对发生的故障进 行了深入细致地分析,制定出了有效防止 DCS 故障的方法和措施,大部分方法已得到实际应 用,取得了良好的效果,大大减少了运行机组事故的发生。一、前 言 DCS 在国内大型火力发电机组上应用始于上世纪八十年代后期, 到目前为止只 有十几年的运行经验。华能国际电力股份有限公司整套引进 350MW 机组,投资建 设的南通、上安、大连、福州电厂是国内最早应用 DCS 的电厂。 随着火力发电机组自动化水平的不断提高,单元机组 DCS 系统的功能范围不 断扩大。近两年新建和改造机组的单元控制室内除用于紧急停机、停炉用的后备 手操外,其余操作全部依赖于 DCS。因而,由于 DCS 本身故障引起的跳机现象时有 发生。所以,如何提高 DCS 的可靠性作为一个重要课题摆在了从事热工自动化工 作的各位人士的面前。 由于工作关系,有机会到过三十多家火电厂收资、交流或验收,接触到应用 DCS 的 100~700MW 单元机组近八十台,几乎覆盖了国内应用过的所有类型的 DCS, 对各种类型的 DCS 发生的故障有较多的了解,无论是进口 DCS,还是国产 DCS,尽 管在原理、结构上迥异,包含的子系统也不一样多,但都或多或少地出现过一些 相类似的故障,通过对典型故障进行深入细致地分析,找出故障的真正原因,举 一反三,制定出防范措施,并正确地实施,可以很好地防止此类 DCS 故障的重复 发生。本文列举了几个典型的 DCS 故障案例,供从事热工有关人员参考。 二、案例一 2.1 事件经过 2001 年 11 月 1 日,A 电厂 4 号机组停机前有功负荷 270MW,无功 96MVar,A、B 励磁调节器自动并列运行,手动 50Hz 柜跟踪备用。 14 时 26 分,事故音响发出,发电机出口开关、励磁开关跳闸,&调节器 A 柜退 出运行&、&调节器 B 柜退出运行&等报警信号发出,机组解列。对 ECS 控制系统检 查、试验,发现#14 控制器发生故障已离线,与之冗余的#34 控制器发生重启, 更换了#14 和#34 控制器主机板后,机组重新启动,不久,发变组与系统并列。 2.2 原因分析 根据历时数据分析,13 时 31 分,#14 控制器硬件故障而离线运行,热备用的 #34 控制器自动由辅控切为主控。14 时 26 分,#34 控制器由于通讯阻塞引起 &WATCHDOG&误判断,致使控制器重启。由于控制器控制励磁调节器的方式为长信 号,没有断点保护功能,#34 控制器重启后,不能自动回到断点前的状态,导致 A、2控制器重启引发机组跳闸PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn B 调节器自动退出运行,手动 50Hz 柜自动投入。由于发电机失磁,发电机端电压 下降,导致厂用电源电压降低,手动 50Hz 柜输出电压继续降低,手动 50Hz 柜投 入后发电机没有脱离失磁状态,直至切除励磁装置,造成发电机失磁保护动作, 发电机出口开关跳闸。 #14 控制器和#34 控制器控制发变组设备,包括厂用电切换的备自投继电器接 点 BK,#34 控制器重启后,BK 自动复位,继电器接点断开,BK 投到退出位置,造 成 6KV 电源开关
开关自投不成功。 2.3 防范措施 2.3.1 将故障控制器更换。后来制造厂确认这一批主板晶振存在问题,同意免费 更换,利用停机机会更换 4 号机组所有控制器主板。 2.3.2 增加任一控制器、I/O 卡、通讯卡离线报警功能。 2.3.3 程序内部&WATCHDOG&的时间设置太短,易造成误判断,对所有控制器进行 软件升级。 2.3.4 调节器 AQK、 方式开关和厂用电备自投 BK 开关组态图增加断点保护功 BQK 能,防止控制器自启动后,励磁调节器和厂用电自投开关退出运行。 2.3.5 检查 ECS 系统的所有组态,对存在以上问题的逻辑进行修改。 2.3.6 联系调节器厂家,使调节器内部可以作到运行状态自保持,将控制器控制 调节器的方式改为短脉冲信号控制。 2.6.7 在 ECS 内增加手动 50Hz 柜输出电压自动跟踪功能。 三、案例二 在线传代码致使机组解列 3.1 事件经过 2002 年 7 月 12 日,B 电厂#5 机组监盘人员发现机组负荷从 552MW 迅速下降, 主汽压力突升,汽轮机调门开度,由原来的 20%关闭到 10%并继续关闭,高调门继 续迅速关闭至 0%,机组负荷降低至 5MW,运行人员被迫手动紧急停炉,汽轮机跳 闸,发电机解列。 3.2 原因分析 DCS 与汽轮机控制系统分别由两家国外公司制造,两系统差异较大,通讯问题没 有很好地解决,存在一些难以消除的缺陷。热控人员在 DCS 工程师站上向负责 DCS 与汽轮机控制系统通讯的 PLC 传送通讯代码时, 将汽轮机阀位限制由正常运行 DCS 中的 120%修改为 0.25%,造成汽机 1、2、3 号调门由 20%关闭至 0%,机组负荷由 552MW 迅速降至 5MW。 3.3 防范措施 3.3.1 机组运行期间,禁止 DCS 传代码工作。 3.3.2 机组停运期间,DCS 传代码时,应经运行班长同意,并做好安全措施。 3.3.2 将 DCS 操作员站对汽轮机控制系统操作员站画面进行操作的功能闭锁, 但3PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn 在 DCS 操作员站上仍能监视到汽轮机控制系统的信息。 四、案例三 DCS 工作站时钟混乱引发 DCS 失灵 4.1 事件经过: 2001 年 8 月 3 日,C 电厂 2 号机组负荷 200MW,#1 至#9 控制器处于控制方式, #51 至#59 控制器处于备用方式。8 时 23 分,各控制器依次发 NTP 报警,历史站报 警窗口显示如下: Aug 3 08:23:50 drop7 <7> NTP:too many recvbufs allocated(30) Aug 3 08:23:50 drop4 <7> NTP:too many recvbufs allocated(30) ……… 8 时 26 分,#2 控制器脱网,#52 控制器切为主控;11 时 05 分,#52 控制器脱 网;13 时 39 分,#7 控制器脱网,#57 控制器切为主控,在#7 控制器向#57 控制器 切换瞬间,由该控制器控制的 A、B 磨煤机跳闸;15 时 11 分,#9 控制器脱网,#59 控制器切为主控,在#9 控制器向#59 控制器切换瞬间,由该控制器控制的 E 磨煤 机跳闸;15 时 51 分,#1 控制器脱网,#51 控制器切为主控,在#1 控制器向#51 控 制器切换瞬间,由该控制器控制的 A 引风机动叶被强制关闭。 15 时 22 分,重启操作员站 drop213(备用时钟站) ,NTP 报警未消失;15 时 35 分, 重启历史站,NTP 报警未消失;15 时 59 分,重启工程师站(主时钟站) ,NTP 报警 基本消失;16 时 09 分,重启历史站,16 时 30 分,系统恢复正常。 4.2 原因分析 NTP 软件的作用就是维持网络时钟的统一,主时钟设置在工程师站上,备用时 钟设置在操作员站上。控制器脱网原因为主时钟与备用时钟不同步造成系统时钟 紊乱,从而造成 NTP 报警导致控制器脱网。 NTP 故障的原因有两种可能,一种是主频为 400MHz 工作站,不同于 1 号机组 的 270MHz(SUN 公司在 400MHz 工作站上对操作系统有较大改进)工作站,2 号机组 所用的 1.1 版本软件在 400MHz 工作站上未测试过,不能确保 1.1 版本软件在此配 置上不出问题。另一种是主时钟与备用时钟不同步,在 8 月 3 日控制器脱网后, 曾发现 Drop214 的时钟比其它站快了 2 秒, 当时 Drop214 的画面调用速度较慢, 经重启后正常,并且 NTP 时钟报警是在系统运行 73-75 天左右才出现的,估计是 系统时钟偏差积累到一定程度后导致主、备时钟不同步,而引起系统时钟紊乱, 最终导致控制器脱网。 NTP 时钟故障使控制器脱网,处理不及时会使报警的控制器依次脱网,从而导 致整个控制系统瘫痪。 4.3 防范措施 4.3.1 根据本次故障现象,制造商将软件由 1.1 版本升级为 1.2 版本。 4.3.2 为确保控制系统可靠运行,定期重启主时钟和备用时钟站。4PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn 4.4 D 电厂 5 号机组在 2002 年试运期间曾发生 DCS 时钟与 GPS 时钟不同步,引发 DCS 操作员站失灵事件。由于网上传送的数据均带时间标签,时钟紊乱后会给运行 机组带来严重后果,基本情况与 C 电厂 2 号机组类似。采取的措施是暂时断开 GPS 时钟,待软件升级和问题得到根本解决后,再恢复 GPS 时钟。 五、案例四 5.1 事件经过 2002 年 1 月 1 日,E 电厂 1 号机组负荷 250MW,#51 至#59 控制器处于控制方 式,#1 至#9 控制器处于备用方式,A、B、C、E、F 磨煤机运行。18 时 57 分,所 有磨煤机跳闸(直吹炉) ,MFT 动作,机组跳闸。 5.2 原因分析 经分析,确认是 DCS 集线器的总通讯板故障,导致连在其上的所有控制器同 时发生切换,在控制器向备用控制器切换过程中,#57、#58、#59 控制器 PK 键信 号误发(这三个控制器属 FSSS 系统) ,即 CRT 上&磨煤机跳闸按钮&的跳闸和确认 指令同时发出,使所有磨煤机跳闸,导致 MFT 动作。 5.3 防范措施 CABLETRON 集线器属于早期产品,目前在市场上购买备件已比较困难,采用 CISCO 集线器来取代 CABLETRON 集线器。 六、案例五 冗余控制器失灵造成机组跳闸 6.1 事件经过 2003 年 3 月 23 日, 电厂#3 机组停机前电负荷 115MW, F 炉侧主汽压 9.55MPa, 主汽温 537℃,主给水调节门开度 43%,旁路给水调节门开度 47%(每一条给水管 道均能满足 100%负荷的供水) ,汽包水位正常;其它各参数无异常变化。 监盘人员发现锅炉侧部分参数显示异常,各项操作均不能进行,同时炉侧 CRT 画面显示各项自动已处于解除状态。调自检画面发现#3 控制器离线,#23 控制器 处于主控状态。运行人员立即联系热工人员处理,同时借助汽机侧 CRT 画面监视 主汽压、 主汽温, 并对汽包电接点水位计和水位 TV 加强监视, 主汽压在 9.0~9.6MPa 波动、主汽温在 510~540℃波动、汽包水位在+75~-50mm 波动,维持运行。 几分钟后,热工人员赶到现场,发现#3 控制器离线、#23 控制器为主控状态, 但#23 控制器主控下的 I/O 点(汽包水位、主汽温、主汽压、给水压力、等)均为 坏点,自动控制手操失灵。经过多次重启,#3 控制器恢复升为主控状态。在释放 强制的 I/O 点时,监盘人员发现汽包水位急剧下降,就地检查发现旁路给水调节 门在关闭状态,手动摇起三次均自动关闭,汽包水位 TV 和显示表监视不到水位, 手动停炉、停机。 6.2 原因分析 根据能追忆到的历史记录分析,可以推断#3 控制器(主控)故障前,#23 控 CABLETRON 集线器总通讯板故障导致 MFT 误动5PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn 制器(辅控)因硬件故障或通讯阻塞,已经同 I/O 总线失去了通讯。当#3 控制器 因主机卡故障离线后,#23 控制器升为主控,但无法读取 I/O 数据,造成参与汽水 系统控制的一对冗余控制器同时失灵,给水自动控制系统失控,汽包水位保护失 灵。在新更换的#3 控制器重启成功后释放强制点的过程中,DCS 将旁路给水调节 门指令置零(逻辑如此设计是为了在控制器故障时,运行机组向更安全的方向发 展) ,关闭旁路调节门。而旁路调节门为老型号的阀门,相当于解除了自保持的电 动门(接受脉冲量信号) ,切手动时不能做到电气脱扣,因此,紧急情况下不能顺 利打开,造成汽包缺水。 6.3 防范措施 6.3.1 更换#3、#23 控制器主机板,同时考虑增加主机板的备品储备。 6.3.2 增加通讯卡,使控制器与 I/O 卡之间的通讯为冗余的。 6.3.3 对所有控制器、I/O 卡、BC 卡的通讯进行监测,增加脱网逻辑判断功能, 生成报警点并进行历史记录。一旦控制器工作异常,可及时报警并处理。 6.3.4 增加控制器超温报警功能,在控制器出现故障之前可以采取措施,将事 故消灭在萌芽之中。 6.3.5 汽包水位等重要调节、保护系统的输入信号,一般应为三路相互独立的 信号,通过分流器将这三路信号变成六路信号,分别进六块端子板和 AI 卡件,送 入两对控制器,一对控制器用于调节、保护,另一对控制器只参与保护。这样可 以很好地解决一对冗余的控制器同时故障时,重要保护失灵的问题。 6.3.6 更换重要自动调节系统的执行机构,使之具有完善的操作功能。 6.3.7 DCS 失灵时,若主要后备硬手操或监视仪表不能维持正常运行,运行人 员应立即停机、停炉。 6.3.8 关闭 MIS 系统接口站中的所有硬盘共享功能,确保 DCS 系统同 MIS 系统 只具备单向通讯功能。 七、结 束 语 以上案例只是在一定范围内发生的 DCS 故障的几个比较典型案例,即使将这 些案例的反措全部应用到每套 DCS 中去,也不能避免 DCS 故障的再次发生。在更 大范围内,由 DCS 故障引发的停机事件也不会太少,有些事件肯定会涉及到控制 器负荷率高、网络通讯负荷率高等问题,由于目前还没有有效的手段监测控制器 负荷率和网络通讯负荷率,找出这类事件的根本原因还有一定的难度,因此,消 除这类缺陷也比较困难。 要防止各类事故的发生,必须从源头-DCS 的设计和制造抓起,将国内应用的 各种类型的 DCS 发生过的故障情况反馈到有关部门,由有关部门召集专家进行分 析研究,制定出相应的标准、制度和反措,强制执行,并形成一个大的闭环质量 控制体系,长期良性循环。6PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn 预防 DCS 系统不正确动作的几点看法摘要: 针对 DCS 系统出现问题导致机组误动停机的事例, 介绍了预防 DCS 系统缺陷所取得的 一些经验,从系统维护管理、检修等诸方面提出了防范对策。1引言 某火电厂 2×135Mw 机组的热工控制系统是按照机炉电一体化控制来设计的,分散控制(DCS)部分采用国产 XDPS―400 系统,包含了机组的模拟量控制系统 (MCS)、数据采集系统(DAS)、顺序控制系统(SCS)、锅炉安全保护系统(FSSS)、电 气量控制系统和电网控制系统等六大功能。机组 2000 年 11 月投产发电至今,因 DCS 系统原因导致设备异动 6 次。事后分析认为,可以通过加强管理,规范检修工 艺来减少类似事故的发生,以下是对故障的分析和改进的意见。 2 事件介绍 ① 2000 年 12 月 6 日 2l 时,运行人员在投 2 号炉下层燃烧器给粉自动时,发 生所有下层燃烧器的给粉机全部由自动跳为手动,给粉机单操输出跟踪燃烧总操 指令,导致下层所有给粉机转速骤降至 200r/min 左右,机组被迫急降负荷。事 后调查分析确认:故障主要原因是 DCS 系统组态中,没有考虑燃烧总操指令与层 操手动输出指令出现偏差大于 5%时, 必须禁止投入层操自动这一控制功能。 另外, 运行人员在没有检查总操输出指令与层操手动输出指令参数是否相近的情况下, 就随手投入自动调节系统,则很容易发生灭火停炉事故。经过对系统控制方案改 进,将原组态控制方案“层操输出与该层反馈偏差大跳层操手动”改为“(总操输 出指令十层操偏置)与该层反馈偏差大跳层操手动” ,则燃烧总操指令与层操手动 输出指令出现偏差大时,闭锁该层给粉系统的自动投入,经过静态检验后投置运 行,末再出现类似障碍。 ② l 号机组在 2001 年 1 月 4 日 13 时 11 分 6 秒时发生所有给粉机全停(此时 启动各给粉机信号并末消失,且燃油快关阀全开但所有油角阀全关),l s 后保护 装置发出 MFT 动作信号,同时各给粉电源盘的备用电源自动投入,再经 l s 后“给 粉机全部电源丧失”报警,和“所有燃料丧失”报警,发“MFT 动作”信号并跳机。 调查分析事件发生原因,认为存在两个问题:a.DCS 系统部件巡检维护不到位, 对于单元件出现故障报警的迹象未能及时发现处理;b.DCS 组态判据不合理,给 粉机只用 1 个 DO 点发长脉冲信号输出作为启停信号,当 DO 端子的公用电源故障, 无法避免控制继电器失电,引起给粉机异常全停。事后,通过改进系统组态及现 场控制回路,将单信号控制改为双信号外加继电器自保持回路,确实保持继电器 有电,消除了类似事故的发生。7PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn ③ 2002 年 2 月 9 日,运行人员在运行操作中投入 2 号炉 A 引风自动,该液力 偶合器勺管开度指令由 11.94%突变为 68.23%,导致电动机过电流时间过长, 多功能微机保护装置动作,A 引风机跳闸,减负荷运行。调查分析事件发生原因, 该故障主要是 DCS 系统软件的 EPID 模块下限值设定错误,当投引风控制自动时, 液力偶合器勺管开度指令不是按自动控制参数经 EPID 功能块运算后,由勺管开度 指令信号 11.94%逐渐逼近 68.23%,而是从 11.94%突变为 68.23%。事后 通过修改 EPID 模块下限定值,避免了类似事故的发生。 ④ 2002 年 11 月 9 日 ll 时 30 分,1 号机组 B 侧送风机因液偶故障处于抢修 状态,带 87MW 负荷运行(2 号机组停运检修)。DCS 系统运行中接收到 2 台送风机 全停信号,MFT 动作,机组解列。调查分析事件发生原因,因热控人员在做 2 号机 组 A 侧送风机检修试验时走错间隔,误做 1 号机组 A 侧送风机试验,导致 1 号机 组 DCS 系统收到 A 侧送风机停运信号而跳机。这次事故是维修管理不严格,没有 将运行设备进行标示隔离的人为责任事故。 ⑤ 2003 年 1 月 3 日,1 号机组 A 给水泵因故障退运检修,B 给水泵运行。19 时 22 分 21 秒 B 给水泵工作油出口温度由 88. 32℃突变为 98. 08℃, 后由 98. 1s 08 ℃再突变为 165℃,经过 37s 温度值由 165℃降回到 l16.35℃,然后温度逐渐返 回到正常值。运行人员对这一现象未能引起重视,没有即刻要求热控人员退出该 项保护,及时处理元件缺陷,留下了安全隐患。19 时 44 分 3 秒 B 给水泵工作油出 口温度再次由 102.72℃突变为 165℃,1s 后油温度由 165℃降回到 147.59℃, 恰好触发保护装置动作, 给水泵跳闸, B 由于 A 给水泵正在检修, 导致锅炉无补水, 延时 10s 后 MFT 动作停机。事后热控人员拆下 B 给水泵工作油出油温度元件,检 查为元件开路。调查分析事件发生原因,该故障主要是 DCS 系统软件的模块检测 功能不完善,当采样信号在测量范围内跳变,没有判据进行过滤和分析诊断,并 加以闭锁。通过组态改进,增加了温度信号跳变时自动闭锁保护功能,并发信报 警,消除了此类事故。 ⑥ 2004 年元月 1 日,2 号机组低压厂用电源因为系统扰动,电压瞬间降低到 150V,2 台空气预热器主电机接触器低励释放跳闸,MFT 启动造成机组停运。空预 器主电机接触器低励释放跳闸引起停机事件以前也发生过,事故分析的防范措施 要求将“空预器 2 台主电机跳闸即启动 MFT 动作跳炉” ,改为“主电机与辅助电机 同时跳闸,延时 60s 启动 MFT 动作” ,热工人员按要求做了相关的组态修改,但由 于组态修改后没有及时进行电子存盘,以后在 2 号机组小修停运时,也没有将此 工作进一步完善,致使 DCS 在小修中停电维护后,组态中的延时功能单元丢失, 诱发了同类障碍的再次发生。 3 分析归纳 对于以上几次事件的异动情况,笔者认为 DCS 系统基本上都是硬件故障、系8PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn 统软件故障及人为故障三大类。在机组投产之初,由于设计、制造和调试人员对 运行工况熟悉深度不够,总会存在一些系统或组态上的不周之处,同时也因为运 行操作人员对新机组性能特点认识不足,没能及时对事件苗头的蛛丝马迹加以重 视,导致机组多次误跳。管理制度执行力度不够,也使生产付出了代价。 在机组建成投产后,就必须尽快组织多专业人员对热控系统的控制、保护和自 动功能逻辑进行逐项分析确定,对一些影响运行稳定的逻辑参数需充分研究讨论 其合理性,认真分析当元件出现故障时可能引起的工况后果及对策。对于系统硬 件故障,可以通过专业维护人员经常性检查设备运行状态、分析硬件结构配置的 合理性、外围设备控制回路及电源配置的合理性得以避免;对系统软件故障,则 要求专业维护人员通过对被控对象特性、控制过程及口圈系统的了解,分析控制 组态是否合理,各功能模块参数设置定值是否正确,系统对识别元件损坏和设备 异常的功能设置是否完整,应及时进行修改完善。有些故障在系统运行正常情况 下,表现并不明显,一旦操作不当或控制对象受到扰动时,则会暴露成危害,所 以在避免系统软件故障上必须做到多观察勤分析;对人为故障,既有维护人员在 对口圈系统维护过程中违章作业出现的故障,也有运行人员误操作所导致的故障, 避免人为故障的方法是必须一丝不苟地执行完善的 DCS 系统管理制度和有关规程, 强化训练监盘操作技能,严格生产纪律。具体做法如下: ① 认真执行 DCS 系统维护检修工艺管理制度,做到不怕麻烦,不留死角,不 粗心大意。 ② 加强设备巡视,通过望(看状态指示是否正常)、闻听(听元部件运行中有 无异声异味)、切(红外线测温仪扫描部件表面确认温度是否异常)等,提前发现设 备可能存在的故障隐患并及时采取措施。每天检查 DCS 系统自检画面,检查内容 包括节点及网络状态检查、I/O 工作状态检查、温度补偿值检查、重要报警历史 数据检查,发现异常及时汇报;每天检查电子间、工程师站及主控室 02S 设备工 作环境,发现异常及时处理;每天检查 DCS 系统硬件设备的健康状况,检查内容 包括 MMI,DPU,I/O 卡和端子板及冷却风扇的工作状况。 ③ 对于重要系统,如给水、送引风、协调、减温水、一次风系统每天检查运 行历史曲线,查看该系统调节量、被调量、反馈、输出信号是否正常,调节品质 是否符合热工技术监督关于自动系统投运要求。 ④ 运行中,尽量避免组态修改,尤其不得进行 A,B 实时网络有关的更改调 试工作。如果必须在运行中进行系统组态修改的,修改后的组态程序及时写人 DPU 电子盘, 同时拷贝写盘到辅控 DPU, 及时进行系统备份, 更新工程师站内原有文件, 做好记录。尽量不以 ENG 级别登陆 DPU,以免造成过多的 DPU 变黄和拷贝的现象。 ⑤ 应定期检查 MMI 的硬盘, 关闭不必要的共享功能。 原则上 MMI 不应开放 “完 全控制”的共享功能,最多设置“只读”的共享功能。9PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn ⑥ 在停机时要逐个复位 XDPS 系统的 DPU 和 MMI,最好能每隔半年复位一次 DPU 和 MMI。 ⑦ 对于 DCS 系统和外系统(比如 MIS,SIS 等)的接口,必须在外系统侧的网 关站上有可靠的防毒和杀毒屏障,并及时更新病毒库。同时及时更新操作系统的 补丁,从而提高系统的安全性。 ⑧ 一般 CMOS 电池的寿命为 2 年,应注意检查 DPU 主机卡 CMOS 电池电量,防 止因电池将尽而引起 CMOS 数据丢失。 ⑨ 进入工程师站或电子间工作的所有人员, 必须加倍警惕自己的每一项操作 或通讯联络,都有可能危及系统安全。 ⑩ 由于大小修期间,板卡的吹扫清灰,DPU 停电及硬件设备的检查校验都有 可能造成 DPU 站数据的丢失,放大小修前应有专人检查系统组态与备份是否相符 和正确,检修后开机时再检查组态备份与 DPU 运行程序应一致。 ⑾ 坚持 DCS 系统信号强制及投退保护管理制度:DCS 系统投退保护及强制信 号工作必须严格按照《DCS 系统工程师站维护检修管理制度》要求进行,同时征得 运行值长同意, 在运行人员投退保护及强制信号记录薄上办好工作手续, 《DCS 参照 系统维护检修的内容及方法》进行工作;工作时由工作负责人与工作监护人共同 填写相关表格并存档。 4 结束语 DCS 分散控制系统是发电厂近期来应用发展最快的技术,已经日渐趋于成熟,DCS 系统的控制品质也在逐渐提高,性能将更加优越,抗干扰的能力将进一步提高, 对于如何避免控制组态设置不周、外围控制回路搭配不合理及使用不当导致的设 备异动,我们认为是当前热工专业人员努力的方向,因此本文就此一问题阐述了 在 DCS 系统维护管理方面,所应做的一些工作,愿得共识之士加以探讨和指正。10PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn LC 卡通讯中断问题的探讨摘要:通过对某发电厂 MEH-ⅢA 控制系统 LC 卡件通讯中断现象的分析,找出原因,采取对 策,包括机柜浮空,指令冗余, 制作专用接地网等多项措施,确保 MEH 系统长周期安全运行。一、系统概述 MEH-ⅢA 控制系统由给定部分、反馈部分、调节器、执行机构和机组对象等 环节构成,如下图所示。其控制功能包括锅炉给水流量和给水泵汽轮机转速自动控制,调节阀阀位控 制,正常运行操作和监视,超速保护和试验,与 DEH-ⅢA 联网,在 DEH-ⅢA 操作 员站上操作 MEH-ⅢA,进行故障追忆及打印。 DPU 为系统主机部分,装载给水泵汽轮机的控制软件,通过 PDEX344 卡与 BC 卡连接,实现对下位机的通讯控制,同时通过网络接口卡实现 DPU 联网,冗余 的 DPU,互为备用,无扰切换。 I/O 卡件箱安装有 MCP、BC、LC、DI、DO 等卡件,MCP 测速卡将现场测速传 感器来的脉冲信号转换成数字信号后,由 BC 卡与上位机通讯,把实际转速信号送 至 DPU。LC 过程控制卡用于与 CCS 的接口,其输入信号有 CCS 允许和 CCS 给水流 量要求信号,输出信号有转速给定值、实际值和锅炉自动。 DI/DO 卡用于开关量的输入输出,现场输入信号有速关阀、调门的开关信号, 已脱扣和挂闸信号,开关量输出信号经滤波器隔离为无源触点,包括脱扣、挂闸、 速关阀开和试验等信号。BC 站控制卡对 I/O 其它卡件管理,与 PDEX344 卡通讯, 将主机信号送至 I/O 卡,并把现场的开关量状态信号反馈到 DPU,BC 卡有 2 块,1 块主控,另 1 块跟踪,组成冗余 I/O 网。 2、 LC 卡通讯中断统计11PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn LC 卡是一块高性能智能型的双回路控制卡,其中,8 路 AI 可用于被控制回路 的模拟反馈信号的采集,2 路 AO 可作为模拟回路的控制指令,其输出是 4 ~20mA 的电流信号;4 路 DI 和 4 路 DO 可用于开关回路的控制。 2.1 2.2 2003 年 5 月,#3 机组 LC 卡通讯中断,复位后恢复,5 月 31 日,新华控 2004 年 12 月 20 日,新华控制工程公司服务部在赴现场处理 DPU 主机 制工程公司服务部带一块新 LC 卡赴现场更换。 卡服务期间,发现系统积灰严重,部分风扇已堵转,易造成散热不良或静电积聚, 导致损坏卡件和主机卡。 2.3 2.4 2.5 2005 年 1 月 28 日,#4 机组出现同样的 LC 卡通讯中断现象。 2005 年 2 月 7 日,#4 机组再次出现同样的 LC 卡通讯中断现象。 2005 年 4 月 1 日,服务部在现场配合一次调频调试时,接报#4 机组使用的新 LC 卡又发生 LC 卡通讯中断,小机转速调门失控事故现象,小机在正常运 行中,突然光子牌发出“小机上水方式异常”报警,小机转速失去控制,汽包水 位波动,运行人员立即稳定负荷,并通过小机再循环控制阀调节再循环流量,控 制水位稳定。热工人员检查发现控制小机转速的 LC 卡通讯灯熄灭,工作指示灯闪 烁仍在工作,但是卡件的输出不再变化,转速失去控制。 2005 年 4 月 4 日,检查 LC 卡版本和程序均正确,核对该卡件的硬件编码序列 号,发现即为新华公司 1 月底寄出的新 LC 卡。 3、 LC 卡失控原因分析 从故障报警和故障现象分析判定,认为造成小机转速失控的原因是 LC 卡与 BC 卡件之间的通讯失败,中断,LC 卡失控。综合现场情况,产生通讯失败原因分 析,初步认为是 LC 卡长期运行在积灰环境下,元器件性能下降,抗干扰能力降低, 在受到干扰的情况下,导致卡件工作异常。 具体表现在 1)外部干扰问题,包括接地的干扰、信号干扰。2)卡件之间连 接件的接触问题,包括连接插头、插座、焊点、印刷电路。3)卡件工作电源的干 扰。3)软件的干扰。4)LC 卡带负载的大小是否影响 LC 的工作,既 LC 卡的带负 载能力。5)BC 卡的问题造成 LC 卡通讯中断。 4、 采取措施 将原来使用的控制低调门的 LC 卡件更换为新卡。厂家无偿更换一 BC 卡。 现场使用的早期 LC 卡, 因为在生产中将卡件上的 EPROM 更换为 80C31 芯片, 需要对少量电路进行修改,所以,对原有的印板电路进行了割线和飞线的改动, 这些改动新版的 LC 卡中进行了印板电路的更改,故现在带到现场的 LC 卡与早期 的 LC 卡从外观上略有不同,但卡件的控制原理相同。 4.2 指令冗余。 4.1 更换新 LC 卡和 BC 卡。12PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn 若要实现 LC 卡冗余的设想,所有信号必须都要能够提供双路,实施难度大, 因此,采用 AO 卡与 LC 卡进行控制指令冗余的方案,如图 2 所示。图 2 LC9/LC5 切换逻辑组态 由于 MEH 系统中不存在 AO 卡,考虑到 MEH 系统和 DEH 系统需要分开,故决 定不利用 DEH 系统中备用 AO 卡通道,而是另外增加硬件实施以上冗余方案。 正常工作时,MEH 指令通过 LC 卡输出,当 MEH 出现异常情况时,自动或手动 切换 LC 卡的输出到另一路备用的控制输出,备用的输出通道在备用状态时,始终 跟踪阀门的实际反馈。 当前控制低调门的 LC9 卡故障,CRT 画面中“M“黄闪报警,3 秒后自动切换 投入冗余 LC5 卡件,低调门有 2mm 行程的波动,由当前的“切除冗余”绿色按钮 自动切换至“投入冗余”红色按钮,运行人员可以在软手操方式选择“切除冗余” 和“投入冗余”按钮,通过增减指令控制低调门,当 LC5 卡件故障“E”黄闪报警, 千万不要点击“投入冗余”按钮,DEH(3-8)DO 卡件故障,“H”黄闪报警,同时 继电器失电,触点处在“切除冗余”方式,在硬手操方式不能进行“切除冗余” 和“投入冗余”的操作。 切换输出分成下列几种情况。 1)当 DPU 检测到 LC 卡故障时,DPU 自动切换输出。 2)LC 卡在自检中显示异常,MEH 在自动情况下,阀门的指令和实际阀门的反 馈偏差大于 10%且延时 3 秒后,MEH 自动切换到软手操,3 秒后切换输出指令。 3)LC 卡在自检中显示正常,MEH 在自动情况下,阀门的指令和实际阀门的反 馈有偏差,运行人员切 MEH 到硬手操后,增减操作无效时,由运行人员在 CRT 画 面上,手动切换输出。 4)LC 卡恢复正常后,需要运行人员在 CRT 画面上操作投入按钮,将输出指令 由 AO 切换到 LC 卡输出。 4.3 增加高限块。 由于 MEH 系统 CCS 要求转速大于 5600rpm 后,CCS 要求转速要快速累加到一 较大值,当 CCS 要求转速降到 5600rpm 以下时,要经过较长时间才能克服累加到 的较大值,对汽包水位控制不利,经研究决定,MEH 系统中,CCS 要求转速增加 5600rpm 高限功能。 4.4 检查并整改接地系统。13PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn 4.4.1 I/O 卡箱背面右下角处无接地线,实际上,XDPS 系统 I/O 卡箱背面右 下角处接地是卡件 37 芯连接电缆屏蔽层的接地,一般通过总线板的固定螺钉与机 柜地相连,达到接地的目的,对于目前的系统设计,考虑到其特殊性,在印板的 固定螺钉上,增加了一根接地线至机柜的 CG 地,以确保 37 芯电缆屏蔽层的良好 接地,无论是否有该接地线,卡箱对机柜的接地都是满足系统要求的,即 MEH 系 统 I/O 卡箱背面右下角无接地线对系统的正常运行是没有影响的。图3I/O 卡件箱背面4.4.2 对 MEH 系统的接地情况进行检查,接地网是否独立,接地线是否压接牢 固,绝缘皮是否有破损,接地线的线径是否满足厂家说明书要求,信号线屏蔽层 的接地检查、测试。 对 MEH 的接地进行测量,机柜与底座不绝缘,发现固定底座的 4 个螺丝绝缘 处理不合适,打开柜角材料,用磨光机磨掉原螺丝,新螺丝下面加钢纸垫套黄蜡 管后,从下往上穿,下面用呆扳手或套筒固定住,上面套绝缘套后用螺丝拧紧, 对螺丝进行绝缘处理后,发现机柜与地仍不绝缘,将 MEH、DEH 柜吊开,待 DEH 柜 绝缘处理合格后,MEH 柜绝缘合格。测试情况如表 1。14PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn 说明:新华公司最新说明书要求机壳与底座绝缘,经过处理已经达到要求(均> 5MΩ)。 制作 DCS 和 DEH、MEH 系统接地网材料,小修前把接地网做好,小修期间把 #4 机组的接地线改接到新做的接地网上。小修后将系统地、屏蔽地、安全地在机 柜内短接, 100 mm2 铜电缆引至独立的接地点。 对 MEH 系统机柜浮空的要求已经满足,新的接地点安装工作已经结束,经过 精密测试接地电阻<0.3Ω,并经过验收合格。 4.5 对卡件之间连接件环节进行检查。 包括连接插头、插座、焊点、印刷电路是否完好,有无破损、摩擦、虚焊 的现象,并对备用槽位进行检测测试,把 LC 卡改为使用备用槽位工作,改移后一 定要通过静态、动态试验验证,方可投入运行。 对 MEH 系统卡件之间连接件的接触情况,包括连接插头、插座、焊点、印 刷电路进行了检查,MEH 卡件电容、各插头插座针脚无发黑、虚焊等异常现象,柜 内各个接线端子紧固。 4.6 系统清灰。 MEH 卡件清灰,未有严重积灰现象,各个风扇清灰,加入钟表油、黄油;发 现有一风扇不转,更换风扇。 4.7 卡件工作电源电压稳定性测试,交流成分测试。 在小修停机前 1 小时内进行卡件输入、输出的干扰测试,测试前要做好相应 的安全措施,测试结果如表 2。 干扰测试4.8 提高内存容量 原 CPU 内存负荷率 70%,将#3 机更换下来的一块 16M 的内存插到#4 机 CPU 主板上,使#4 机组内存容量由 16M 增加为 32M,CPU 内存负荷率由 70%降到 40%。 4.9 LC 卡输出 4~20mA 模拟量信号的负载能力进行试验 检查在输出信号为满度时, 长时间 (10 小时以上) 是否对 LC 卡工作有影响。 将可变电阻串入控制低调门的指令中,增加可变电阻值,LC 卡硬件说明书要求 LC 卡最大负载能力是 600Ω,实际 LC 卡最大极限带负载能力是 4900Ω,在此基础上 每增加 10Ω,指令降低 0.2mA。带负载时间 6 小时,拔出 LC 卡观测元器件温度, 未发现高温高热现象。 5、结束语15PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn 通过试验验证,在“切除冗余”和“投入冗余”的操作中,有 3.3%的概率会 发生低调门全关的现象,原因主要有:1)逻辑中两个 DO 输出运算周期不同步, 使一个继电器动作时间早,另一个继电器动作时间慢,出现两个继电器切换不同 步现象,2)两个继电器本身的动作时间有差异,需要研究最完善的方案。16PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn 某电厂#4 机组高调门关闭问题的分析及处理2005 年 5 月 18 日,某电厂#4 机组(DEH-IIIA)大机六个高调门发生突然关闭 的现象,电厂热工技术人员与新华公司人员进行了讨论分析,决定实施和需要核 实的问题如下: 1. #4 机 DEH 系统主控 DPU 切换原因分析 1)本 DPU 出现单网,有报警功能,但本次没报警。2)DPU 与 BC 板通讯超时, 有报警功能(设计时间较长,几秒后才发) ,本次没有报警。3)本 DPU 出现死机 现象,有报警功能,但本次没报警。4)DPU 中 344 卡(双机切换卡)故障,没有 报警功能;A.344 卡始终抢主控。B.让另一 DPU 重启。 本次事故 DPU 没有报警,说明只有第 2) 、4)种情况可能存在,#3、#4 机组 下次有停机机会时验证报警功能。 2. DPU 与 BC 板之间通讯出错 针对 5 月 18 日,#4 机 DEH 系统出现的甩负荷情况,新华公司技术人员通过历 史数据和现场实际检查情况认为,该现象可能是由于 DPU 与 BC 板之间通讯出错引 起,造成当时 GV 快速关闭,不是因为 DPU 切换和切换时间长引起的,瞬间通讯出 错的原因可能由以下两部分造成: 1)DPU 中的 344 卡和 BC 板硬件有可能瞬间的故障,发送了错误数据,当时 DEH 系统报警也没有关于卡件的报警,在升级补丁文件期间,也对 DPU 和 BC 板进 行了检查工作,目前暂未发现以上硬件有异常情况存在,仍需要通过一定时间的 观察,来确认以上硬件是否确实有问题。 2)DPU 中的 344 卡和 BC 的通讯可能受到干扰,发送了错误数据,目前经过新 华公司的分析需采取的措施是对通讯软件升级,将公司的新版补丁文件 VIO.DLL 用于现场,该文件在处理通讯纠错方面有较强的能力,对现场的抗干扰和纠正通 讯错误有一定的改善作用。 目前已经对#4 机的 DEH 系统进行了补丁文件的处理, 对怀疑有问题的#1 站 2 块 BC 板进行了更换,对 BC 板与 DPU 中 344 卡的通讯线进行了晃动检查,采取上 述措施后,没有发现异常情况,对于是否能够真正解决该问题还需要进行观察, 同时对#3 机 DEH 系统也进行了通讯软件的升级工作。 3. 新华公司 DEH 系统 DPU 的跟踪方式问题:两台 DPU 同时进行数据采集、同时进 行逻辑运算、同时跟踪网上数据,两台 DPU 单独运算,分别与 BC 板通讯,相互交 换数据进行比较,一旦主控 DPU 故障,副控 DPU 马上变为主控,并根据自己采集 的数据参与实时控制,本次高调门 VCC 卡切手动的原因是由于通讯错误产生的。 4. DPU 切换时间长问题:DPU 数据采集后的发布时间为 0.5S,DPU 记录用数据采 样周期为 1S 后才能采集到, 如果在切换指令发布上网时, 记录数据采样刚好过去,17PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn 这样就需要等 1S 后才能采到,因此这种情况下存在打印记录中切换时间较长。 5. 针对 DEH 系统 DPU 中增加阀门指令变化率逻辑的修改,新华公司认为:1)若在 DPU 加阀门指令变化率的限制, 则会限制住机组在紧急情况下需要 DEH 甩负荷时而 要求的阀门快速准确响应机组变化的要求; 本次高调门关闭是由于 DPU 中的 344 2) 卡和 BC 的通讯问题,发送了错误数据而导致的,与 DPU 组态没有关系,即使对逻 辑进行了修改,仍然无法避免因通讯问题造成的类似情况的发生。 6. 针对此次高调门关闭事故要求采取的措施: 1)对当前的通讯软件安装新版补丁文件 VIO.DLL。 2)对基本控制柜#1 站 2 块 BC 板进行更换。 3)检查 BC 板与 DPU 中 344 卡的通讯线。 4)在工程师站,将 Hisrec.cfg 文件中的采样时间由 1S 修改为 0.5S,从而使 DPU 的记录采样时间缩短到 0.5 秒。 7. 需新华公司进一步研究的问题: 1)针对本次问题研究新的程序,由热工分场负责联系进展情况。 2)DPU 通讯超时,落实具体多长时间,联系进展情况,DPU 中 344 卡故障研 究增加报警功能。 8. DPU 主板更换安全措施 8.1 更换目的 由于系统 DPU 原主控板故障率较高,频繁出现 DPU 主控板离线现象,给 DEH 系统带来设备隐患,为保证 DEH 系统正常工作,确保设备的长周期安全运行,对 DEH 系统 DPU 原主控板进行更换,更换为低功耗主控板。 8.2 更换过程 1)更换安装前需要检查原先系统运行状况,通过画面自检和柜内查看。 2)更换安装前,需要将原来三对 DPU 的组态进行上装备份到 ENG 站。 3)逐个将 DPU 停电,解除 DPU 后部连接电缆后将 DPU 卸下,拆除原先 DPU 中 的主机板,将新的主机板安装进入 DPU 机盒,正确连接所有电缆线,待所有 DPU 安装完成后,对 DPU 系统进行逐个送电。 4)DPU 送电运行完成后,需要将各自备份的组态下装到 DPU,如新 DPU 的配 置 I/O 站数量与原先不同, 需要修改成与现场一致, 并需复位 DPU, 以使修改生效。 5)所有 DPU 完成送电和组态下装后,需要进行一下 DPU 切换与所属 I/O 站通 讯情况检查。 更换工作完成,进行设备的静态试验,保证更换前后 DEH 系统原功能正常。 8.3 安全注意事项 1)在更换 DEH 系统 DPU 主控板期间,工作人员要带防静电手环。 2)解除 DPU 连接电缆时,要作好标记,恢复时确保正确连接。18PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn 3)工作人员正确操作上装和下装 DPU 组态的步骤,严格执行监护记录制度。 9. DPU 补丁文件升级步骤 由于#4 机 DEH 近期出现了甩负荷事件,新华公司针对发生的情况进行分析后 认为,该事件是由 DPU 与 BC 板之间的通讯错误产生,该错误的产生可能由硬件故 障或者外部干扰通讯引起,由新华公司提供一个最新版本中的一个 VIO.DLL 文件, 该项措施旨在加强通讯方面的处理能力,尽可能的减少错误的发生。 9.1 操作步骤 1)将 DEH 系统解除 CCS 控制,并投入功率回路的情况下,将控制系统转为单 阀工况,在手操盘上将钥匙开关打在手动位置。 2)从光盘中将 VIO.DLL 文件拷贝到 D:\XDPS2.0\X2BIN\XDPU 目录下。 3)用 SENG 级别连接 11(31)号 DPU,密码为 ENG。 4)连接成功后,选择“OP”图标后选中下装文件,选择 VIO.DLL 文件,选择 打开后,提示操作成功。 5)选择复位 DPU。 6)1 分钟后该 DPU 启动成功,所做的修改已经生效。同样方法对另一个 DPU 进行操作。 9.2 注意事项 1)虽然此项工作可以在自动方式下进行,但为了确保机组安全,仍切在手动 下进行。 2)在进行工作过程中,如需要进行增减负荷,从 DEH 手操盘对阀门进行控制, 运行也可以靠升降主汽压带负荷。 3)理论上此项工作不影响机组负荷,运行人员加强监视即可。 9.3 系统检查 在升级工作完成后,对系统进行进一步检查,检查内容包括以下部分:1)BC 板检查。虽然此次报警中没有卡件报警出现,但可以检查卡件外表和跳线设置。2) DPU 检查,查看连接电缆,DPU 主板和 344 卡的工作情况。19PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn 某电厂 DCS 系统死机离线测试情况一 概述 根据某电厂上报的情况发现,某电厂 DCS 系统死机离线现象严重,根据现场 工作人员介绍,自从 2003 年 5 月机组发电开始, DCS 系统开始出现频繁死机,最 严重时 2 天内发生 2 次死机现象,DCS 制造厂技术人员在 1 年来,到某电厂有 100 多人次,但问题仍未能得到很好的解决。据我们调查了解 DCS 制造厂的该 DCS 系 统在其他一些电厂也经常出现死机现象,故怀疑系统本身设计上存在问题。以上 情况引起电科院领导的高度重视,要求我们尽快查找原因并解决,将 DCS 系统的频 繁死机概率降低,故我们与 3 月初前去大唐某电厂进行了初步调研,并与现场人 员研究决定于 4 月份进行测试, 由现场人员先进行前期准备, 先根据 DL/T 659-200X 《火力发电厂分散控制系统验收测试规程》做些检查,并通报 DCS 制造厂。 二 检查及试验 根据 DL/T 659-200X《火力发电厂分散控制系统验收测试规程》 ,由现场工作 人员先进行了检查,主要是可能引起死机的方面,包括以下内容 1. 分散控制系统的工作环境符合以下技术指标: 温度 湿度 振动 温度变化率 15℃~ 28℃ 45%~ 70%,任何情况下不许结露 ≤5℃/h 振幅&0.5mm2. 分散控制系统的接地应符合制造厂的技术条件和有关标准的规定。屏蔽电缆的 屏蔽层必须单点接地。分散控制系统采用独立接地网时,若制造厂无特殊要求, 则其接地极与电厂电气接地网之间应保持 10m 以上的距离, 且接地电阻不得超过 2 Ω。当分散控制系统与电厂电力系统共用一个接地网时,控制系统地线与电气接 地网只允许有一个连接点,且接地电阻应小于 0.5Ω。 3. 存贮余量的测试。通过工程师工作站或其他由制造厂提供的方法检查每个控制 站的内存和历史数据存贮站(或相当站)的外存的容量及使用量。内存余量应大于 存贮器容量的 40%,外存余量应大于存贮器容量的 60% 4. 中央处理单元的负荷率.所有控制站的中央处理单元恶劣工况下的负荷率均不 得超过 60%。计算站、操作员站、数据管理站等的中央处理单元恶劣工况下的负 荷事不得超过 40% 5. 抗射频干扰能力的测试 用功率为 5W、频率为 400MHz~500MHz 的步话机作干扰源,距敞开柜门的分散控制 系统机柜 1.5m 处工作。分散控制系统应正常工作 在以上检查未发现问题后,我们在 4 月份主要做通讯方面的检查。 我们在 4 月初在某电厂与 DCS 制造厂人员一起更换了系统通讯的交换机,并20PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn 在工程师站安装了系统通讯测试软件,并检查了部分组态,其中在系统通讯状态 页中发现多处错误,其可能造成系统错报误报,进行更改后消除该现象。 4 月 12 日因某电厂 2#机组即将停运,故我们赶往某电厂进行网络通讯负荷 测试,因 DCS 制造厂不同意在机组正常运行时测试,只能在机组停运前进行。但 我们实际测试时,因操作已经基本完成,故通讯负荷很低只有 2~3%,符合国家 规定(但在机组正常运行时,在操作频繁的情况下,通讯负荷应比目前有变化, 应比现在高,故不能说明该系统完全符合国家规定要求) 。在机组停运后我们进行 了服务器及通讯网络的冗余测试,结论为冗余符合要求。 我们在 4 月 18 日对某电厂 2#机进行了全面的系统通讯测试,测试软件为 DCS 制造厂提供的第 3 方软件 SnifferPro,该软件为网卡测试软件,故 DCS 制造厂不 同意在正常运行时测试,只能在机组停运时进行,经过几天测试,初步结果如下: 1. 在 2#机组停运时,服务器网卡的通讯负荷很低,最大约 3%,完全符合要 求。 2. 经实验证实服务器与上位网线均为冗余设置。 3. 工程师站因操做很少,网卡通讯负荷正常不到 1%。 4. 1#机组 15#站个别卡件出现离线现象, 经现场人员分析为因接地造成离线, 可排除。 5. 三 测试中发现系统时钟不同步。 现象分析 由以上可看出在机组停运时,通讯负荷不超标,均正常,但此时也未发生死 机和离线现象。故我们又做了如下实验: 1. 人为提高服务器网卡通讯负荷到 16-25%之间,操作操作员站,发生 2 次 操作员站离线, (共做 7 次实验) ,这说明当通讯负荷高时可能发生死机离线现象, 故需要与和利时厂家联系,由其提供可用于机组运行时测试网络负荷的工具。 2. 经软件 SnifferPro 运行几日,在 1#机组 2#机组均发现出现一些不存在 的 IP 地址,其上有很少量的数据。这说明在网络通讯时,有故障点,其产生的原 因现怀疑为通讯软件有问题,是否如此,须和利时厂家进行解答。或者是交换机 的问题,也须和利时厂家进行解答 四 目前 DCS 系统的工作状况 在我们于 4 月份进入某电厂现场后,经过更改部分组态后,经过现场调查,由 4 月至今 1#机组和 2#机组均仍未发生实际上的死机和离线现象,可以说目前的 工作是有效果的,至少部分上已经降低了死机的频率,但并不能说已经完全解决 DCS 系统死机。 五 建议 现场需要加强重视程度认真完成电科院于 4 月初提出的几点工作,主要建议如下:21PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn 1. 检查组态,删除空点和错误点。 2. 调整各站负荷,使之负荷分配均匀。 (该项工作因工作量大及费用较高, 可以等其它原因排除后,再考虑进行) 3. 经调查发现,原始设备组态中,每台操作站均配备一台打印机,但现在 所有操作员站实际上一共只有 1 台打印机,其余的打印机实际上不存在,请现场 工作人员将不存在的打印机组态删除。 4. 当运行时出现死机和离线现象时,如能及时发现,询问操作人员进行哪 些操作,和出现的现象,同时将设备日志,全日志打印输出,保留服务器中当天 历史数据,记录现场的工作环境,记录服务器的存储容量,以备进行调查分析。 5. 在检修期间,按照我们发给现场的 DL/T 659-200X《火力发电厂分散控制 系统验收测试规程》对 DCS 系统进行全面的检查测试,并完成检查报告。 6. 此外,造成 DCS 系统死机的原因是多方面的,我们只是一项项的排除可能 引起死机的因素,目前电科院所提出的要求只能是解决由外部因素可能在 DCS 系 统上造成影响的因素,只能是尽可能的降低死机现象出现的频率,如果想彻底解 决 DCS 系统死机,仍需要 DCS 厂家在软硬件和网络设计上进行考虑该类型 DCS 易 频繁死机的内在原因。22PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn 某热电厂#4 机(100MW)DCS 通讯紊乱事故的情况一、工程背景某热电厂#4 机组 100MWDCS 系统, 由某控制工程有限公司总承并负责软件组态和现场调试,新华控制工程有限公司只提供 XDPS-400 硬件。该系统于 2001 年 5 月 3 日移交,并在 2003 年 5 月完成了新增 DPU 的扩容工作。二、事故起因2003 年 10 月 22 日,新华公司工程师应电厂要求,在现场进行 ASDPU 实时数 据通讯。目的是将#3 机组中的公用系统的控制,通过通讯功能在#4 机组中能进行 监视和操作。调试通讯软件的工作中,因配置失误将#3 机组中的大量实时数据广 播到#4 机组的实时网中,导致#4 机组的通讯紊乱,DPU 的负荷率急剧升高,多个 DPU 先后复位。机组 MFT。 事故扩大经过:运行人员手动打闸停机后,6KV 开关自投成功,但#0 高备变 高压侧 303 开关自投不成功。两台交流润滑油泵失电,由于该厂润滑油压低联启 直流油泵的联锁未做电气硬逻辑联锁,故直流油泵未自动联启,同时没有及时手 动启动直流油泵,导致汽机#4 瓦化瓦。三、原因分析经某电科院、热电厂、新华公司三方联合调查后认为 DCS 系统本身软硬件工 作是稳定可靠的。本次事故是因安全管理不善,人为失误导致 DPU 复位。 经现场调查, 机组 DPU 的负荷率偏高, #4 有半数 DPU 高于 75%, 而新华 XDPS-400 在同类型 100MW 机组的使用中,DPU 负荷率都在&规范书&允许的范围内。因此#4 机组的 DCS 系统在通讯异常的情况下容易导致 DPU 复位。新华将会同山东电科院 及电厂在停机时对组态进行检查和优化。 四、经验教训 1、投入商业运行的控制系统,无论是新华公司的工程师,还是用户的维护人 员,原则上不准在机组运行时对系统再进行软、硬件的改动。尤其不得进行与 A、 B 实时网络有关的更改或调试工作。 2、如果在机组运行时的确需要进行在线修改,新华公司的工程师必须与用户 单位的技术部门共同制定安全措施并得到批准后方可实施。在线实施时必须要有 监护人员。 3、系统设计必须坚持《规范书》中的安全原则,在电气保护逻辑中设置交、 直流润滑油泵的掉闸直联和低油压联动的硬逻辑。其他涉及机组安全停机的联锁 功能,也应考虑设计硬逻辑联锁。23PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn 某厂#2 机组 DPU 异常事件分析及处理一、事件经过 2003 年 10 月 26 日 23:10 某电厂#2 机组正常运行(当时负荷 280MW) ,操作 员站及大屏显示的运行参数突然变为坏点(粉红色) ,持续 2 分钟后仍未恢复,DCS 系统网络通讯堵塞,系统处于瘫患状态,机组被迫手动停机。 热控人员立即到场检查发现:有 8 个 DPU(分散处理单元)自检状态显示处 于离线脱状态,4 对主/备用 DPU 均处于离线状态。检查离线状态 DPU 机柜,发现 对应的 DPU 主机都在停机状态,进一步检查出现异常问题的 DPU 历史状态,发现 第一出现异常问题的 DPU 为 5 号 DPU,时间为 23:06:50,错误信息为“Send Fail” “WSAEWOULDBLOCK” (传输故障) 从 23:07:10 起, 号 DPU 出现下网信息 , 6 “Shutdown for I/O Driver Fail”(I/O 驱动出错),并且在每 1 秒钟内该信息报文重复广播 450 余次,此后历史记忆显示其它 DPU 相应出现报警。热控人员通过手动复位脱网 的 DPU,相应 DPU 上网、显示、操作均恢复正常。 二、原因分析 根据报警历史的检查结果,6 号 DPU 从 23:07:10 起,每秒钟都发出大量的 “Shutdown for I/O Driver Fail”的系统报文,至 23:09:25 停止发送。这些大 量的报警信息导致 DCS 系统网络异常,使得多个 DPU 离线。 按系统设计原理, “Shutdown for I/O Driver Fail”是在该 DPU 复位时,为 记录复位原因而发出的一条系统报文。正常情况下, “Shutdown for I/O Driver Fail”的报警通告次数应该是一次的,出现该报文后 DPU 应自行复位。 从历史记录看,6 号 DPU 并未复位,并持续发出报警信息。DCS 制造厂判断 为 WINDOWS NT 操作系统方面的安全漏洞,使得在特定条件下会引发重复报警。 三、防范措施 1. 针对可能发生的引发大量报警通告的极端工况,新华公司将#2 机组的软件版 本统一成 R04SP3,取消了相应的报警通告,避免再次发生类似现象。 2. 对于 DCS 系统和 MIS 的接口,新华公司建议在 MIS 侧的网关站上,加装病毒防 火墙,并及时更新病毒库。同时及时更新操作系统的补丁。从而提高系统的安 全性。 3. 今后对于 WINDOWS NT 操作系统发布的关于安全性方面的补丁,新华公司在经 过项目验证后,应及时配合电厂予以更新。 4. 运行中出现任何异常,及时与热控专业人员联系。 5. 进一步提高 DCS 系统的可靠性和稳定性,DCS 系统日常维护中还应注意以下一 些事项: (1) 日常维护过程中, 在不需要修改 DPU 组态的情况下, 不应以 ENG 级别登录 DPU。24PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn 以免造成过多的 DPU 变黄和拷贝的现象。 (2)班组技术人员处理缺陷时,如果不需要连接 DPU,尽量使用 DPU 组态软件离 线的打开组态文本文件,来查找测点位置,而不要去连接 DPU。 (3)对 DCS 系统所有的修改,无论是组态软件、系统软件还是文件属性等,都应 在工程师站有详细的文字记录。 (4)应定期检查 MMI 的硬盘,关闭不必要的共享功能。原则上 MMI 不应开放“完 全控制”的共享功能,最多设置“只读”的共享功能。对于系统维护需要更新文 件的“ENG”目录,即便开放“完全控制”的共享功能,用户级别也不能设置成 “EVERYONE” ,而应设置成“ADMINISTRATOR”或其他专用帐号。 (5)对于一对冗余的 DPU,尽量使用同一型号的硬件。 (6)参照西门子等系统的维护要求,应利用停机时间逐个复位 XDPS 系统的 DPU 和 MMI。一般要求每隔半年要复位一次 DPU 和 MMI。 (7)对已投运的 DCS 系统不要任意增加功能和硬件,以免影响 DPU 的负荷率和稳 定性。如确有增加的必要,也应经过仔细的论证及双方认可。 (8)DPU 的 WATCHDOG 跳线时间应设置成 10 秒。25PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn 某电厂#3 机组硬件驱动程序不匹配 引发的 DCS 网络通讯故障1.事件经过 某电厂#3 机组 DCS 系统在 2004 年 5 月底由原来 V1.2.0 升级到 V2.3.1B 版 本,在升级时更换了主控单元 DP 卡、多功能卡、电子盘,但网卡未相应的升级。 系统升级后调试期间运行正常。但在 6 月 7 日发生如下异常情况: 17:46 副司炉发现锅炉水位满水,迅速又变为-300mm,同时看到所有辅机电 流晃动,此时司炉发现画面无法进行操作,汽机操作员站也同时无法操作。 17:47 分汽轮机发生跳闸,主汽门关闭,查 SOE 纪录,依时间顺序为发电机 断水保护、转速全故障、发电机差动保护。 工程师站上发现 16、17、19 号 I/O 站两主控单元均显示故障,其它站及服务 器正常,机柜内实际显示 B 主控单元故障,A 主控单元显示正常(原运行为 B 为主, A 为备用),但 17 号站卡件 DP 通讯灯闪烁,多次复位 B 主控单元故障无法排除, 设备监视画面中三个 I/O 站主控单元仍为故障,因此重新启动 B 服务器程序(原运 行为 B 为主,A 为备用),17:56 分主服务器切换到 A 服务器,当时故障仍然存在, 又重启 A 服务器程序,B 切为主,系统逐渐恢复正常。 2.原因分析 依据运行记录及从操作员站能看到的一些当时来自其它站的 SOE 日志等情况 来看,服务器和操作员站软件运行是正常的,以及机组跳闸后油泵的正常启动(此 油泵的控制逻辑在 23 号站) ,说明 23 号站工作正常,从设备状态分析,其它站工 作也是正常的。 主控单元发生切换,但切换没有成功,表现为设备状态图上的主控故障灯和 这些主控上数据库点的无效状态,原因是主机状态的主控在重起动后未成功。而 这些状况的出现是因为主控单元的网络驱动和网络任务没能成功启动,和这个直 接相关的就是网卡。可以认为:因新版本软件与原来的网卡驱动程序不匹配,这 样当 16、17、19 号 I/O 站主控单元切换后因个别点的扰动造成主控单元的网络驱 动和网络任务没能成功启动,进而使 16、17、19 号 I/O 站故障离线导致 DCS 系统 紊乱。 由于在发生问题后,为尽快恢复系统,服务器被运行人员退出重起,并且两 台服务器重起的间隔时间较短,使得服务器历史库的冗余机制被破坏,造成部分 历史数据丢失,这给问题的分析带来一些麻烦。 3.处理和预防措施 根据上面 2.2 中的分析和目前 MACSIIV2.3.1B 的使用情况, 认为现在#3 主控 单元的网卡在 V2.3.1B 下是存在隐患的。 建议将所有 8 个站的主控网卡换为 3c905c26PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn 网卡。现已完成在线更换网卡,更换过程中对系统和机组运行没有造成影响。 对于服务器历史数据的丢失,建议:在需要在线重启服务器时按如下步骤: (1) 退出服务器从机并重起观察是否运行正常,观察 10 分钟左右。 (2) 退出服务器主机,观察原来是从机状态的服务器是否成功切换到主机。 并重起该服务器。27PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn 某厂#1 炉汽包水位高Ⅲ值 MFT 动作跳闸1.经过 2003 年 10 月 18 日,机组跳闸前负荷为 250MW,主汽压力 11.2Mpa,主汽温度 530 ℃,再热汽温度 535℃,再热汽压力 3.27MPa,负荷控制为手动方式,汽包水位与炉膛 压力两个子系统为自动方式.9:52#1 机组五台 CRT 全部死机,联系热控张学玉处 理,10:35 左右值班人员发现汽包水位上升(B 侧电接点水位显示+80),10 时 38 分 53 秒,#1 机组跳闸解列,经处理后于 13 时 10 分 43 秒重新并网运行. 2.原因分析 上午 9 时 52 分 35 秒,热控 MAX1000 控制系统运行的两台 RTP 死机,网络数据 交换中断,控制系统的整个上位机 GP 无法显示实时数据,至 10 时 40 分 59 秒系统 恢复,在此期间 MAX1000 系统的所有信息没有记录.从 DEH 系统记录的数据来看,在 9 时 52 分 35 秒至 10 时 31 分 04 秒这段时间内,两台小机控制方式为投入远方,接 受 CCS 发来的控制信号,且这一信号为一恒定量,A 小机的转速为 4156r/min,B 小机 的转速为 4053r/min,从 10 时 31 分 04 秒开始,CCS 向两台小机发出的信号开始变 化,为一均匀变化的增加信号(速率为 20.6r/s),该信号极有可能是由于网络故障 或 DPU 扰动切换造成水位调节回路的副调节器 PID 输入产生正偏差而进行调节的 输出信号,两台小机的实际转速也以这一速率增加.在 10 时 35 分 02 秒,A 小机的转 速为 5395r/min,运行人员将 A 小机从远方切到手动方式,进行手动降转速,在 10 时 36 分 08 秒,B 小机的转速为 4985r/min,运行人员将 B 小机从远方切到手动方式, 进行手动降转速,在 10 时 38 分 53 秒,汽包水位高机组跳闸. 3.本次异常暴露的问题 (1) MAX1000 控制系统设备及网络有缺陷,经事后检查发现 RTP 故障死机。除 此之外,现在网络结构较复杂,所使用的通讯介质为同轴电缆,若网络上有一处出 现问题,很可能造成整个网络通讯出现故障。 (2) 控制系统从 9 时 52 分 35 秒出现故障死机到 10 时 40 分 59 秒系统恢复, 热控检修人员处理故障的时间为 48 分钟,处理时间过长. (3) 运行人员监盘不到位,没有及时发现运行参数的变化,对突发性事件的操 作经验不足. 4.防范措施 (1) 热控检修人员应将有故障的 RTP 恢复,检查每台 GP 的网址及网络的各个 插,接口,对网络负荷进行重新分配. (2) 热控检修人员要加强对控制系统设备的状态及控制系统网络的负荷检查 巡视,发现问题要及早采取措施. (3) 加强技术培训,提高热控值班人员的技术水平与处理事故的能力. (4) 运行人员要加强对突发性的故障处理的培训,提高突发事件的处理能力.28PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn (5) 在明年两台机组检修期间,将对其控制系统网络进行局部改造.即将同轴 电缆更换为使用双绞线和 SWITCH 进行通讯. (6) 制定 GP 死机情况下事故处理预案.29PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn 某厂#1 机 MAX1000 系统 GP 死机1.异常经过 2003 年 9 月 28 日 17 时 46 分,#1 机组 MAX1000 所有 GP 显示数据丢失, 运 行人员解除 AGC 至手动,执控人员首先对 GP 进行复位,开始没能恢复正常,又对 RTP 进行复位, 18 时 28 分 GP 恢复数据显示. 2.原因分析 经分析可能存在以下几方面原因:一是因上位机及网络已连续运行时间长,硬 件性能已不稳定;二是 MIS 系统从工作站取得信息后,因为 MIS 系统数据量较大,又 增加了工作站负荷,工作站在数据收发量偏大,负荷偏重情况下容易造成死机。 3.防范措施 (1) 热控人员要坚持设备巡视,发现异常及时处理. (2) 研究制定 MAX1000 系统死机情况下应急方案,确保出现异常时机组安全运 行. (3) 在明年机组检修期间,将对其控制系统网络进行局部改造,提高设备可靠 性。30PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn 某厂#4 机组 DCS 人机接口站感染病毒某厂#4 机组操作员站感染病毒,造成操作员站反应迟缓。#4 机组为 125MW 机组,2003 年进行 DCS 改造,DCS 系统为新华公司的 XDPS-400。2004 年 8 月 28 日凌晨,运行人员发现操作员站对操作指令执行有几秒的滞后。随后在检查中, 发现各#4 机组各操作员站,工程师站均感染了一种名为 lovgate(爱情后门)的病 毒。该病毒挤占用计算机内存空间,造成操作员站反应迟缓。#4 机组有一台操作 员站作为专门的通讯机,与厂 MIS 相连,厂 MIS 网从 DCS 取数。分析病毒可能是 通过 MIS 的网络传播至操作员站。确定原因后,在 9 月 1 日对#4 机组所有操作员 站使用杀毒软件杀毒,同时安装病毒防火墙。杀毒后,各操作员站运行速度恢复 正常。同时,暂时将 DCS 与厂 MIS 网隔离。计划再加装硬件防火墙,并定期更新 硬防火墙软件。31PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn 一起 DCS 系统异常的分析及处理某厂组(125MW)的 DCS 控制系统是北京和利时公司的 HS2000 系统,共配置 1 台工程师站,3 台操作员站,4 台 I/O 控制采集站(其中 DAS 配 1 台冗余 I/O 采集 站、MCS 配 1 台主控单元冗余 I/O 控制站、SCS 配 2 台主控单元冗余 I/O 控制站) 和两台网关设备。另外,系统配置相应的继电器柜。I/O 控制站具体功能分配: #11---DAS 站,#12---MCS 站,#13---SCS 站,#14---SCS 站。自从 2000 年 3-6 月 份大修改造中完成以来运行正常。 2004 年 8 月 9 日下午 14:20,运行人员告#3 机组 DCS 系统出现严重异常,大 多数设备操作失灵,机组的正常运行受到严重威胁。热工人员赶到现场进入#3 机 DCS 电子间后,发现电子间空调已经停止工作,环境温度有 50 多度,从工程师站 的 CRT 上看到仅有#11 站的 DPU 还在工作,其余 3 个站已经下网。首先采取了紧急 处理措施:迅速打开窗户进行通风,然后对下网的各站 DPU 复位,几分钟后除#14 站主 DPU 外,其余各 DPU 均上网。运行人员告#3 炉给粉机转速无法调整,中排给 粉机转速 CRT 显示 615r/min ,实际为满速,造成主汽压力上升至 13.9Mpa,且还 在上升。立即手停部分给粉变频器,以控制主汽压力。 14:50,对仍然存在问题的#14 站两只 DPU 进行检查,发现主 DPU 下网,从 DPU 虽工作正常,但是其内组态已丢失,当即拆下主 DPU,打开主 DPU 外壳,发现 主 DPU 内 M201 电源卡上一电容已经烧坏,而 2003 年,#14 站主 DPU 曾经因内存出 现故障更换过,于是找来换下的旧 DPU,拆出其配件,更换在主 DPU 的坏卡后安装 原位;而且原旧 DPU 为#14 站的主 DPU,换下后一直未对#14 站组态修改下装过,因 此用旧 DPU 的电子盘代替从 DPU 的电子盘是可行的。当拆下从 DPU,打开其外壳, 发现其电子盘用电池,已经脱落,此 DPU 从#3 机 DCS 投运以来从未动过,更换电 子盘完全可以,安装原位后网络运行正常。至 18 时,以上工作完成后,运行人员 检查各运行设备画面状态及操作情况,告各设备运行正常,但上排#2、中排#4、 下排#1 给粉机转速均不能调节,减温水自动投不上。经检查组态,怀疑问题涉及 到#13DPU 与#14DPU 之间的通讯,需要下装#13 与#14DPU 的组态,而给粉机总 电源等重要设备的控制又在#13DPU 中,如果立即重新下装#13 站的 DPU,可能造 成锅炉熄火,导致机组非计停。汇报值长,值长告暂时不动,先维持现状,等有 机会再处理。时至 22:30,各重要保护均已投入,但主压力自动和 AGC 未投入。 由于时值迎峰度夏,省调要求机组负荷较高,而三台给粉机只能启动在最低 的 300r/min 转速,主汽压力上升不了,负荷带不上去,热工人员及时修改了相应 的三台变频器的最低转速至 500r/min(临时),应以满足负荷要求。 之后,分别于 8 月 17 和 8 月 19 日夜间,两次对#13 和#14DPU 进行了下装 工作,仍未能解决上述问题。32PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn 由于这次异常之前系统组态一直工作正常,问题肯定还是出在 DPU 及其通讯 上。经过咨询厂家, HS2000 系统的组态编译后必须对所有的 DPU 站、工程师站及 操作员站全部下装一次才能保证运行软件数据库一致,否则版本不能保证一致, 可能造成部分设备操作异常。如此重大操作只有在机组停下来才能进行。 8 月 22 日,#3 机组临检停机一天,对#3 机 DCS 系统进行整体下装。但仍未 能解决问题。 为什么?在仔细翻阅工程师手册中发现需要清空所有 DPU 内电子盘中的组态, 再重新下装。经过大家研究后,认为此法可试行,但是机组虽停,仍有部分重要 设备在运行,如盘车、顶轴油泵等, 不能清空所有的 DPU 内的组态,只能清空一 只下装一只,并且主与从 DPU 分开下装。本次下装后,问题得到了解决。 8 月 23 日,#3 机组顺利点火并网迎接早峰。所有保护、自动、AGC 均正常投 入。 此次异常在我厂各 DCS 系统中从未发生过,其处理的经过对我们今后对 DCS 系统的运行维护提供了宝贵的经验,可供参考。另外,这次异常的导火索是#3 机 DCS 电子间空调坏,这点提醒我们电子间的空调必须至少安装两台,且环境温度报 警信号应引入 CRT 中。33PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn XDPS 组态时间配合异常事件分析某电厂一期工程 2×300MW 机组,采用哈尔滨锅炉厂生产的亚临界自然循环汽 包锅炉,给水系统配置两台 50%汽动给水泵和一台 50%电动给水泵。控制系统分 别于 2002 年和 2003 年进行了全面升级, 现均为上海新华控制工程公司的 XDPS400 系统。 一、故障情况 2004 年 5 月 13 日上午 8:01,#2 炉因炉膛负压低引起 MFT 动作,联锁电动 给水泵顺序启动。3 分钟后,电动给水泵由于工作油温过高,温度保护动作跳闸。 根据历史数据分析,发现引起电泵温度保护动作的原因是联锁顺序启动电泵过程 中应该开启的电泵冷却水电动门没有联锁开启,从而导致电泵工作油温迅速上升 至跳闸值。 二、逻辑介绍 在 DCS 控制系统中,电泵的顺序启动逻辑和电泵冷却水电动门的控制逻辑分 别设计在机侧 SCS 的#10 和#8DPU 中。 2.1 #10DPU 中电泵顺序启动逻辑如图一所示图一电泵顺序启动逻辑图当 A 小机跳闸、B 小机跳闸、锅炉 MFT 三个信号任一为 1 时,其信号将经 Qor8 (8 输入数量或)功能块触发定时器 Timer 功能块发出一个 2 秒的脉冲,与电泵联 锁投入条件相与后经一个或门启动步序控制器 Step 功能块开始顺序启动电泵。顺 序启动电泵的程序如下:首先发出 &顺控启动电泵润滑油泵及开冷却水&的命令; 当电泵辅助油泵运行和润滑油压大于 0.15MPa3 秒的条件均成立时,步序控制器发 出&顺控启动电泵&的命令;当电泵运行信号为 1 时,发出&开电泵出口门&的命令;34PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn 当电泵出口门开的信号为 1 时,步序控制器判断顺序启动已经完成,结束顺序启 动电泵程序。 2.2 在顺序启动电泵的逻辑中,Step 功能块发出的&顺控启动电泵润滑油泵 及开冷却水&指令将在两个地方被使用, 一个是在#9DPU 中的电泵润滑油泵的控制 逻辑中用以启动电泵润滑油泵, 另一个是在#8DPU 中 57 页的电泵冷却水电动门的 控制逻辑中用以开启四个冷却水电动门,其中图二为四个冷却水电动门之一的电 泵工作油冷油器冷却水进口门控制逻辑。图二电泵工作油冷油器冷却水进口门控制逻辑图在图二中通过开关量下网功能块引用点 STEP1039A 来引用顺控指令,该信号 送到数字手操器 DEVICE 功能块中,将 DEVICE 功能块的 ReqA 和 Dmd1 输入信号同 时置 1,使 DEVICE 功能块切至自动模式并在输出 Out1 上输出信号 1,然后通过 DO 输出板驱动继电器送出&电泵工作油冷油器冷却水进口门开&指令。 三、异常原因分析 3.1 为查清电泵冷却水电动门没有联动开启的原因,首先利用 XDPS 系统提 供的历史趋势和报警历史功能展开了事故分析。在历史站上进行历史趋势查询时, 发现在 MFT 发生后顺序启动电泵过程中代表&顺控启动电泵润滑油泵及开冷却水& 的点 STEP1039A 没有变化,数据一直为 0。 对这一现象,开始分析认为可能是由于逻辑中设计顺序启动的第一步完成反 馈信号只有电泵辅助润滑油泵运行和电泵润滑油压大于 0.15MPa3 秒两个相与的条 件,而当时电泵润滑油泵一直运行使这两个条件均成立,使得第一步完成的信号 一直存在,从而导致顺序启动中跳过了第一步,没有发出开电泵冷却水电动门的 指令。但这个分析被否定了,因为在新华公司提供的说明书中对步序控制器 Step 功能块是如下说明的:在 Step 功能块中,步序的执行既是条件触发的,同时又是 时基的,当前步的操作成功(反馈信号到达或达到设定时间)后,程序自动进行 下一步。因此分析认为在本逻辑中,当 MFT 动作触发 Step 功能块开始执行后,首 先就会发出第一步指令&顺控启动电泵润滑油泵及开冷却水&,当第一步完成信号35PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn 到达时,步序控制器才会停止第一步指令而发出第二步指令,那么在逻辑中如果 没有手动跳步,根据 XDPS 对页及功能块执行的方式,则不管完成信号是什么时候 送达,第一步的指令最少会存在一个执行周期。 为验证这一想法,在 DCS 系统上做如下试验:在电泵顺启的逻辑中,加入一个 计数器 Cnt 功能块,将 Step 的输出 Step1 接至 Cnt 的输入 Z 上,用 Cnt 功能块对 Step 的 Step1 指令变化进行累加计数,然后强制电泵辅助油泵运行及润滑油压大 于 0.15MPa 两条件为 1,再在画面上手动按下&顺控启动电泵&按钮 10 次。然后检 查 Cnt 的计数输出 Y,结果 Y 显示为 10。试验结果证明了上述分析是正确的,从 而肯定当时 Step1 曾经变化过,即 STEP1039A 点曾经变化为 1 过,且存在的时间 长度为 200ms。 对于历史趋势中 STEP1039A 点一直为 0 的原因,分析认为由于历史数据的收 集时间为 500ms, 当点 STEP1039A 只变化一个执行周期时历史数据可能不能收集到 这个变化,从而导致其在历史曲线中显示一直没有变化。 3.2 即然在#10DPU 中发出过开冷却水电动门的指令,那为什么四组冷却水电 动门均没有开呢?是指令时间太短使电动门来不及开启,还是有别的原因?为判 断是否指令太短影响了电动门的开启,分析了冷却水电动门的逻辑,发现其中 DEVICE 功能块定义的输出信号模式参数 OutM 选择的是&10&。对此,在新华公司的 说明书中是如下定义的: OutM,输出信号模式,该参数定义了输出 Out1、Out2 信号的形式。 0-输出指令为定长单脉冲。 当相应反馈为真时或 STOP 信号有效时, 信号 Reset 1-输出指令为脉冲列。当相应反馈为真时或 STOP 信号有效时,信号 Reset 2-输出指令为长信号,当相应反馈为真时或 STOP 信号有效时,信号 Reset 10-输出指令同 2,反馈为真时,也能发出信号 从以上可知,当输出信号模式参数 OutM 定义为&10&时,如果不发出 STOP 命 令,则不管进入到 DEVICE 功能块的开指令存在的时间有多长,输出指令均会发出 一个长信号直至相应电动门开到位。经测试,当电动门已开启的信号是正常时, 发出的开指令时间最短是由电动门的开启时间决定,最长可以达到 DEVICE 功能块 参数设备行程时间 Tover 中定义的时间,在电泵冷却水电动门的控制逻辑中设备 行程时间 Tover 定义的是&50&。在历史数据中,电动门已开启信号一直为 0,输出 至电动门的开指令也一直为 0,报警历史中也没有运行人员操作这一电动门的记 录。从以上分析看,不存在由于指令时间短而不发出开门指令的可能。 3.3 在肯定了#10DPU 一定会发出开冷却水门的指令和否定了#8DPU 不会由 于接收到的信号短而没有开门的可能后,开始怀疑是不是因为这两个逻辑不在同 一个 DPU 内, 而导致发生 MFT 时由于信号较多以致#10DPU 发出的短时间指令没有 送到#8DPU,丢失在网络中。经过分析,这一可能也排除了,因为36PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn (1) #10DPU 和#8DPU 均采用冗余的 100M 网络接入到同一房间内的交换机上, 网络路径并不远,采用的交换机链接也使得由于冲突而丢失数据的可能性大大降 低; (2) 新华公司的 XDPS 系统在实时网中并没有使用例外广播的方式,这样机组 异常时和正常运行时相比,网络流量并不会有大的变化以致引起网络堵塞,这一 点从多次的运行异常处理和分析中得到证实; (3) 三是在本次事故前 8 天即 2004 年 5 月 5 日这台机组也发生了相同的事 故,而在上次电泵联动后冷却水电动门顺控正常开启。 3.4 排除了多种可能后,在认真分析逻辑组态时发现两页组态在页执行周期 上有比较大的不同,其中电泵顺控的逻辑页执行周期为 200ms,电泵冷却水电动门 控制逻辑的页执行周期为 500ms。 是不是由于页执行周期的差别使指令没有得到执 行? 在 XDPS 系统中执行周期表示页被计算的周期,同页中的功能块具有相同的计 算周期,每一页的计算按功能块的执行序号顺序执行。因此一页组态中每个功能 块会依执行序号在一个执行周期内运算一次。这样如果两页执行周期不一致而又 有引用关系时,就有可能由于执行周期的不一致而发生随机的信号丢失现象,根 据概率理论,信号不被丢失的概率等于两页执行周期的时间比。在这里由于# 10DPU 中电泵顺控页的执行周期是 200ms,#8DPU 中电泵冷却水控制逻辑页是 500ms,则在上述情况下#10DPU 中点 STEP1039A 的一次页执行周期的变化能被冷 却水控制逻辑检测到的概率是 2/5。 为了验证这一分析,在 DCS 系统上再做了一个试验:在原试验的基础上再在 #8DPU 电泵冷却水电动门控制逻辑页中加入一个计数器 Cnt 功能块,将代表点 STEP1039A 的开关量下网功能块 NETDI 的输出 Y 接至 Cnt 的输入 Z 上,用 Cnt 功 能块直接监视#8DPU 中点 STEP1039A 的变化情况。强制#10DPU 中电泵辅助油泵 运行及润滑油压大于 0.15MPa 两条件为 1,再在画面上手动按下&顺控启动电泵& 按钮 20 次。检查电泵顺控逻辑中 Cnt 的计数输出 Y 显示为 20,检查电泵冷却水电 动门控制逻辑中 Cnt 的计数输出 Y 显示为 7。 受这一结果启发, 重新查询了以往的历史数据, 发现在 2004 年 4 月 15 日 15:12 也有一次电泵联动后冷却水门未联开的现象,当时只是由于运行人员及时手动进 行了操作才没有发生油温高跳电泵的情况发生。 为了排除这一现象与网络的关系,再在 DCS 系统中做了一个试验:在#10DPU 中新建了一页, 计算周期为 500ms, 将点 STEP1039A 用页间开关量输入功能块 PgDI 做一个页间引用,将其输出直接接到一个计数器 Cnt 功能块的 Z 上,再进行上面 的试验,在手动按下&顺控启动电泵&按钮 20 次后,检查新页上的 Cnt 的 Y 显示为 9。37PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn 3.4综合以上分析和试验,最后判断导致这次电泵顺控启动后没有联锁开启冷却水电动门异常的原因是逻辑存在时间配合上的问题。 四、吸取的教训 4.1 为什么会存在这种问题呢?事后仔细回顾了这个逻辑形成的过程。在 DCS 系统改造后初期,XDPS 系统基本上还只是复现了原来的 PLC 控制逻辑,电泵 的顺控只有一个基本的顺序启动功能,即手动按下顺控按钮后,发出启电泵辅助 油泵的指令,当油泵运行信号及油压大于 0.15MPa 同时满足时发启动电泵指令, 电泵运行信号返回后再发出开出口门的信号,当出口门开的信号返回时顺控完成。 由于当时的运行方式要求辅助油泵在电泵备用时长期运行,故在这里启电泵辅助 油泵实际上也只是由于润滑油压是启动条件之一,而为防万一而加入的一个步骤。 由于电泵顺控的逻辑只是做为一个辅助功能而加入的,一直很少使用,故在 DCS 改造设计时,该页的执行周期是 500ms。2002 年 12 月 6 日,根据运行人员要求, 在电泵顺控逻辑中加入在电泵联锁投入时任一小汽轮机跳闸情况下联锁顺序启动 电泵的逻辑,同时因节能考虑将辅助油泵改为联锁备用,相应地在顺控逻辑中对 油压信号加入 3s 延时。由于电泵顺启逻辑在使用性质上的变化,为保证给水的快 速恢复,组态实现时将电泵顺控的页执行周期修改为 200ms。2003 年 11 月 4 日, 根据运行要求,再将 MFT 动作加入联锁顺启电泵的逻辑中,同时也应运行要求将 联锁开冷却水门的逻辑加入到顺控逻辑中。在组态实现时将 Step 的指令 Step1 在 送到润滑油泵的同时也送到#8DPU 中作为开启电泵冷却水电动门的指令。考虑到 冷却水电动门的开启与否并不是电泵的启动条件,为保证事故情况下电泵的及时、 顺利启动,在电泵顺控逻辑中第一步指令的完成反馈信号没有加入冷却水电动门 开或开到位的判断。作为一般的控制设备,电泵冷却水电动门的控制逻辑页的执 行周期采用的是普通的 500ms。 4.2 从上面的情况看,出现两页逻辑时间配合上的问题,有其偶然性也有其 必然性,从中可以吸取以下教训: 1) 应加强对组态工作的管理。XDPS 是一个开放、强大的控制系统,组态修改 十分方便,可以满足生产现场的各种需要。但从电厂的生产工作的安全性要求从 发,应加强对组态工作的管理,对每一次的修改要求应认真进行必要性、可行性 及实现方案的讨论,避免组态修改的随意性; 2) 应认真分析 XDPS 系统的功能和特点。XDPS 系统是一个强大的系统,要用 好它就应十分熟悉和了解它,以往对一个执行页内功能块的执行顺序对实际逻辑 的执行结果的影响有一定的认识,组态中还能注意到这个问题,但更深一层的页 与页间的时间配合基本上就没有考虑到了。逻辑的设计是一个系统工程,应以系 统的观念进行考虑。 3) 逻辑设计应充分考虑运行方式的变化。本次出现逻辑时间配合上的问题,38PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn 实际上还有一个原因,即运行方式的变化。在顺序启动电泵的逻辑中加入联锁开 启冷却水门的设计时,当时的运行方式要求电泵辅助油泵联锁备用,由于最少存 在 3 秒的延时,故在这种方式下实际上是不存在两页逻辑的时间配合问题的。而 在事故发生前,因冬季防冻要求已经将电泵辅助油泵改为长期运行,虽然事件发 生时已经过了冬季但运行方式却并没有更改,从而导致出现了时间配合上的问题。 因此在重要的保护和联锁逻辑设计时,应充分考虑包括现场设备和控制设备甚至 DCS 系统本身可能的多种运行方式,在组态中推行容错设计,以提高系统应对各种 异常的能力。 五、改进措施 完善以上逻辑有多种方法: 5.1 将#10DPU 中电泵顺控启动的逻辑页的执行周期由 200ms 改为 500ms。 这一方法最简单,但不符合将电泵顺启作为联锁启动的一种实现方式的运行需要, 可能会影响事故情况下给水系统的安全运行。 5.2 将电泵冷却水门已开或非关的信号引入顺启电泵逻辑中第一步完成的 信号中。这一方法虽然完善了顺启逻辑,但同样也不符合运行实际要求,会影响 电泵的及时启动。 5.3 将顺启去开冷却水电动门的指令单独进行时长扩展。实现的方法有多 种,最简单的就是将在 Step 功能块的输出处将第一步指令一分为二,将至电泵冷 却水电动门的指令输至一个定时器 Timer 功能块,并将其工作方式设定为单脉冲, 计时时间设为 2 秒,最后将 Timer 的输出 D 送至一个上网开关量功能块上,由其 传递到#8DPU 的电泵电动门控制逻辑页中。经测试,这样可以避免出现上述的时 间配合问题,也能达到运行实际要求。39PDF 文件使用 &pdfFactory Pro& 试用版本创建 www.fineprint.cn 电动给水泵跳闸原因分折某热电厂 13 号机组为 300MW 汽轮发电机组,采用 3 台电动给水泵。其中 1 号 给水泵工作电源由厂用电 6kV―A 段电源驱动,3 号给水泵工作电源由厂用电 6kV ―B 段电源驱动,2 号给水泵设计为备用泵,有 2 套驱动电源(厂用电 6kV―A 段和 B 段)。 13 号机组热工控制系统采用的是美国西屋公司生产的 WDPF―B 型 DCS 控制系 统。给水泵的程控就包含在该控制系统中。由于 2 号给水泵控制在控制时序和逻 辑上的不严谨,造成误跳,引起汽包水位低保护动作和锅炉主保护 MFT 动作。 1.给水泵跳闸经过 13 号机组正常运行时给水泵运行状态为:1 号泵备用,2 号泵 A 段运行,3 号 泵 B 段运行。运行人员发现 3 号给水泵有缺陷需停泵检修,决定做倒泵检修。考 虑到倒泵后,1 号和 2 号给水泵同时运行在 6kV―A 段电源,为保证 6kV―A、B 段 电源负荷的平衡,2 号泵也需倒电源。步骤为:启 1 号泵、停止 2 号泵 A 段、启 2 号泵 B 段、停 3 号泵并停电。 运行人员按照步骤开始正常操作:启动 1 号泵,停止 2 号泵 A 段。在稳定系 统操作过程中发现 1 号泵润滑油湿逐渐升高并报警,随即迅速启动 2 号给水泵 B 段,2 号泵启动后马上跳闸,立即启动 2 号泵 A 段,启动成功。此时汽包水位波动 剧烈,汽包水位低保护动作,触发锅炉主保护 MFT 动作,锅炉灭火。 2.事故分析 2.1 锅炉灭火的属因分折 造成此次锅炉主保护动作的直接原因为: 号给水泵启动失败, 2 汽包水位失控, 汽包水位低保护动作。 从运行人员确定措施到执行,直至锅炉灭火的全过程来看,其内容正确,操 作正确。此次灭火非人为因素造成。 对 2 号给水泵电机及其 6kV―A 段油开关、6kV―B 段油开关全面检查,未发现 任何异常和掉牌记录。2 号泵启动失败非电气原因所致。 从 DCS 系统历史站调出事件顺序记录(SOE)进行分析。 记录主要内容如下: SOE 15:45:26 15:47:34 1

我要回帖

更多关于 热水循环泵 的文章

 

随机推荐