当前位置:首页 > 新闻
容错服务器在火电企业管理信息系统中的应用与研究
点击:4037来源: ceasia-china.com作者:Kenny Fu
时间:2019-12-13 09:17:58

近年来,随着经济的发展,我国的电力事业也飞速的发展。同时随着计算机技术的发展,其应用已经逐渐深入了电力系统的各个领域,在电力系统中发挥着非常重要的作用。

随着电力体制改革的进一步深化,发电企业管理模式由生产型管理向经营型管理转变,即电厂不但要保证安全生产,同时还要不断提高管理水平,降低运营成本,实现利润的最大化。因此,一套符合发电企业生产经营特点、安全、可靠、先进的管理信息化系统,是实现电厂以较少的投入获得最大的产出这一目标的必要条件。基于火电企业管理信息系统(Management Information Systems,以下简称MIS)在企业中的核心作用,一旦MIS中的任意一台服务器系统停机或双机切换失败,将造成应用程序混乱和数据丢失,直接影响电力企业正常的协同运作,比如无法接收SIS端的实时上传的数据、无法进行数据统计分析,生产计划无法分解下发、生产计划完成情况无法反馈到集团系统等等。因此,具有一套安全可靠、较高性价比的硬件平台是电厂信息系统的前提。容错服务器是传统双机热备硬件系统无法比拟的高可靠解决方案,适合作为电厂企业管理信息系统的硬件平台。在可靠性要求高的实时工业控制系统、空中交通管制系统、金融管理系统等领域应用中,容错服务器已被得到广泛应用。

系统设计原理

Stratus 容错服务器由于采用了部件级全硬件冗余技术,整个硬件系统从主板、CPU、内存以及I/O 模块都采用双硬件模式,冗余硬件在同一时刻执行同一指令,可保证整个系统的连续可用性高于99.999%。由于硬件冗余技术的使用,因此可以不必再担心某一个部件的故障导致整个系统的失效,系统能容忍任一部件的故障并继续工作。

该技术从工作原理上讲是比较好理解的,就是把传统计算机系统原来的I/O输入输出单元、CPU和内存单元等分割成两块,即增加一套I/O输入输出单元、CPU和内存单元,再将原来的南北桥芯片,改为故障检测和隔离芯片,即在技术系统中采用双I/O输入输出单元、双CPU和双内存单元,再借助时钟同步和锁步等技术实现其连续可用性的功能。

该容错技术的特点表现在主机内部有冗余的,CPU部件和I/O部件,同时,CPU部件和I/O部件交叉通信,用部件冗余的方式消除系统内部包括CPU、内存、I/O 控制设备、硬盘(RAID1)甚至底板的单点故障。Stratus 容错技术与传统双机热备方案相比,后者仅仅是系统级别(即服务器级别)的冗余,严格意义上说,必须配置连接镜像的外置磁盘阵列柜,才能实现真正意义上的从物理结构上消除系统和存储的单点故障,但整个系统依然连接在两台服务器的心跳线上,仍然存在切换的单点故障。从物理上讲,这种系统级别冗余有赖于脚本程序设计和集群的实施水平,而Stratus容错服务器完全避免了这种无法确定的人为因素。集群系统和Stratus容错服务器硬件结构的比较如图1所示。

图1 集群系统与容错服务器硬件结构比较

Stratus容错服务器的关键技术

Stratus容错服务器是为全球最苛刻的应用领域确保提供连续高可用性运行时间的创新技术的结晶。其中,Stratus ftServer系列容错服务器是专门为基于Intel架构的关键性业务应用设计的,完全满足7*24h 连续运行的关键性业务应用需要,采用了三项关键技术。

1 同步技术

时钟同步技术(Lockstep Technology)采用冗余的容错硬件,能保持多CPU、 内存单元在精确同步状态条件下,在同一时刻执行同一指令,当某一个部件出现故障,其冗余部件就像已激活了的备件一样,能继续正常的操作,因此预先防范了停机的可能性;同步技术能确保包括瞬时错误在内的任何硬件错误不影响系统的运行,系统可以在任何ABCD 内存单元发生错误的情况下不丢失数据或改变状态,系统也不需要产生中断进行错误处理,系统可自动地侦测和纠正错误。

2 故障安全软件

故障安全软件(Failsafe Software)与时钟同步协同工作,能预防有可能升级到停机的软件错误。与典型服务器和集群不同,ftServer硬件和软件透明地处理绝大多数错误,屏蔽操作系统、中间件、和应用软件。Stratus方案的另一个优势在于,它始终如一地保护和维护驻留内存的数据,其管理和诊断特性能自动检测、隔离和排出瞬时硬件错误,即一旦出现问题立即可以被识别,并自动进行分类,此外它还可对其他软件问题进行跟踪和分析,使支持人员可以在软件故障发生之前纠正错误,强化设备驱动程序显著地增加了ftServer 系统内操作系统环境的稳定性。

3 Active Service体系

Active Service体系具有强大的服务能力。Stratus ftServer系统能够持续监视自己的操作,发现故障后,服务器能准确隔离故障,自动呼叫Stratus支持中心,明确地报告应采取的应变措施。ftServer的远程支持能力,是通过系统的访问适配器及Stratus全球主动服务网络维护客户系统实现的,服务工程师据此实现诊断、排障和解决问题,其中问题的在线解决率可达到95%以上。必要时,系统还能自动地订购其热插拔替换部件,确保相应的部件能在24h内运到全球主要地点。因此,客户可以在ftServer无中断的情况下,轻易安装需要更换的部件。

MIS中的应用设计

针对电力行业的特点以及MIS在火电行业的应用发展情况,高可靠性管理信息系统的推广势在必行,结合MIS在火电企业的重要性,以及现阶段企业效益最大化的原则,一套安全、可靠并具有较高性价比的电厂管理信息系统解决方案是实现这一目标的重中之重。就目前火电企业MIS中服务器的应用情况,主要涉及到MIS中的SIS系统镜像服务器、中心数据库服务器、网管服务器、档案服务器、WEB服务器 及应用服务器等;通过各个子系统服务器的高效联合工作可实现数据集中化、业务流程化、内部管理规范化、信息准确化和业务处理快速化,因此无论从覆盖范围还是从软件功能复杂性考虑,它都是一个极其复杂的系统工程。其中作为承担系统运行基础设施之一的服务器系统选型将决定该MIS的运行效果,根据信息化系统设计的先进性、实用性、稳定可靠性、开放性、可扩展性、安全性和易于管理的原则,MIS通常会在中心数据库和核心应用配置高可靠性的容错服务器,这样不但可以提高运行效率,而且提高了整个系统的可靠性。

基于对上述系统的实现进行分析,设计了以Stratus容错服务器为核心的火电企业MIS的高可靠性服务器系统,它可保证系统的7-24h连续可用性。其中关键的中心数据库服务器、SIS系统镜像服务器、应用服务器、WEB服务器等均可根据火电企业不同应用系统的规模大小选用不同配置的容错服务器,如图2所示为某火电企业MIS结构图,整个系统服务器均采用硬件级容错服务器,使MIS可靠性、稳定性较传统方式有了较大的提升。

图2 MIS结构图

应用分析

Stratus容错服务器在国内众多行业实际运行效果表明,采用Stratus容错服务器可进一步提高系统的可靠性,可达到99.999%以上的连续可用性,对各个业务系统进行统一部署、集中管理,从而实现减少运营维护成本,提高运行效率。

1.连续可用性

从用户和应用角度考察,Stratus是以自动实现和透明的方式提供连续可用性的,每个ftServer系统都是专门为确保系统连续可用性而设计的,可以完全满足火电企业对MIS连续可用性的要求。

2.操作简便性

由于Stratus自动将连续处理能力注入到每一个运行的系统,消除了故障切换脚本程序和反反复复的测试过程以及为使用传统的Cluster集群系统方案的可识别问题而付出的额外负担,因此可减少维护工作人员投入和节约系统维护工作量。

3.经济性和投资效益显著

从整体软硬件投入成本角度分析,一套完整的双机热备系统应该包含:两台服务器及其磁盘阵列柜,两套企业版操作系统,两套企业版数据库系统,两套中间件及应用程序。Stratus容错服务器的冗余机制通过Stratus本身的时钟同步技术实施,上层应用充分透明,只需要单机版软件(操作系统、数据库系统、中间件及应用程序)就可实现其功能,在连续可用性指标方面,双机热备系统是难以与之相提并论的。ftServer系列容错服务器具有较高的性价比和市场竞争力,而运行的连续可用性在99.999% 以上,可避免非计划的停机故障。

结论

通过上述容错服务器应用设计思想的阐述、关键技术的剖析以及与传统双机热备方案的技术比较可见,在火电企业MIS中采用连续可用性的Stratus容错服务器技术,不仅可满足整个平台系统连续运行需要,而且还能完成不间断的数据处理、存贮及应用服务,保障整个管理信息系统应用、数据、通信的安全可靠,保证关键系统的高效、安全和可持续地运行。目前,容错服务器在许多行业领域取得了良好的应用效果,这将为其在火电企业信息管理系统服务器解决方案中提供科学、有效的参考。

> 相关阅读:
> 评论留言:
联系地址:北京丰台区广安路9号国投财富广场4号楼3A19
企业邮箱:tiger.lin@fbe-china.com
©2019 版权所有©北京中福必易网络科技有限公司 
热线电话:+(86)10 63308519