服务器集群故障检测

admin3年前云服务器53

  集群服务可以检测和隔离网络故障。集群服务使用改进的网络故障检测方法改善故障恢复操作。故障检测和防范是服务器集群所具有的突出优点。当集:群中的节点或应用程序失效时,集群服务器可以通过重启失败的应用程序或将故障系统的工作分散给幸存的集群节点来做出响应。集群服务器故障检测和防范包括双向故障转移、应用程序故障转移、并行恢复及自动故障恢复。

  集群服务可以检测各个资源或整个节点的故障,并动态地将应用程序、数据和文件资源转移到集群中可用的正常服务器上,然后重新启动它们。借此,数据库、共享文件和应用程序等资源可以对用户和客户端应用程序保持高度的可用性。

  集群服务器在设计上带有以下两个不同的故障检测机制。

  •心跳通信,用于检测节点故障。

  •资源监视器和资源DLL,用于检测资源故障。

  1.检测节点故障

  在集群节点之间的通信允许集群服务检测节点故障和状态改变并且将集群作为一个实体进行管理。可以为这种节点到节点的通信设立多重网络以便于消除单一点的故障。在集群节点上运行的集群服务跟踪集群中节点的当前状态,并且确定组及其资源何时故障转移到备用节点。这种通信采用在每个节点的集群服务之间定期发送消息的形式进行。这些消息被称为“检测信号”,或称“心跳气”。

  通过心跳通信,每个节点可以恰查其他节点及它们的应用程序的可用性。如果服务器设有对心跳通信;做出响应,则正常工作的服务器会启动故障转移过稳(包括对故障服务器拥有的资源和应用程序的所有权进行仲裁)。仲裁是使用质询和辩护协议来执行的。换而言之,如果某个节点似乎发生了故障,则会在给定的时间内允许它以几种方式中的任何一种表明它仍处于正常运行当中,并且可以向其他正常的节点通信。如果它无法证明自己正在正常运行,则此时会将它移出集群。

  多种事件都可能导致节点无法响应心跳消息,如计算机故障、网络接口故障、网络放障,甚于在可能是由于少有的高峰活动期。通常来说,当所有节点进行通信时,配置数据库管理器会向每个节点发送全局性的配置数据库更新。当心跳通信失败时,日志管理锦还会将配置数据库的变更保存到仲裁资源中。这保证了幸存的节点可以在恢复过程中访问最新的集群配置和本地节点的注册表数据。

  要注意的是,故障检测算法相当保守。换句话说,它会尽量多地给那些明显发生故障的节点以质询的机会,然后才会进入故障转移过程。如果导致心跳响应失败的原因是暂时的,避免故障转移所可能造成的潜在影响当然是再好不过了。但是,由于无法知道这样的节点还将沉默多长时间,故该节点可能遭受长时期的故障影响。因此,在经过一个合理的时间段后就应该启动故障转移过程。

  2.检测资源故障

  如果资源在当前主机节点上是不可操作的而且不能重新启动,则集群服务认为此资源发生了故障。集群服务按以下方式检测资源故障。

  (1)在周期性的时间间隔内,集群服务检查资源以了解资源是否可操作。集群服务通过定期调用资源监视器来完成此项任务。反过来,资源监视器则依赖于每个资源的资源主动态链接库(DLL)执行一段过程以检测资源是否正常工作。资源DLL通过资源监视器将结果传给集群服务。可以通过设置“LooksAlive”和“lsAlive,轮询间隔来指定集群服务检资资源故障的频率。集群服务在每个“lsAlive”时间间隔内请求对资源的状态进行比“LooksAlive"间隔内所傲的更彻底的检查。“lsAlive”轮询问隔通常比“LooksAlive”轮询问隔长。

  (2)如果资源DLL报告资源不可操作,那么集群服务会尝试重新启动资源。可以指定集群服务在一给定时间间隅内尝试重新启动资源的次数如果集群服务在指定的时间向陆内所做的尝试的数量超过了最大重新启动尝试次数,但是资源仍不可操作,那么集群服务会认为资源出了故障。

  可以配置是否故障资源引起包含该资源的组故障转移到其他节点。如果故障资源配肯为引起包含该资源的组故障转移到其他节点,那么集群服务将尝试故障转移。如果故障转移尝试次数坦过组的阙值而资源仍然处在故障状态,则集群服务将尝试资源的重新启动。在资源的“故障重试周期”属性(所有资源的一个一般属性)指定的周期结束后,将做重新启动尝试。集群服务开始对资源尝试重新启动然后故障转移。

  虽然“故障重试周期”属性的单位是ms,但按分钟顺序选择值。还可以选择比资源重新启动周期属性值大的或者相等的值并强制执行这个规则。

免责声明:本文内容来自用户上传并发布,站点仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。请核实广告和内容真实性,谨慎使用。

相关文章

河南服务器托管收费标准是什么?河南服务器托管多少钱一年?

河南服务器托管行业正变得越来越受欢迎,与目前的信息发展有很大关系。对于一些企业来说,选择河南服务器托管,除了运营商的声誉外,还有一个价格问题,那么河南服务器托管的收费标准是什么?河南服务器托管的收费标...

便宜的香港服务器性能受哪些因素影响

影响香港服务器性能的因素有:1、CPU处理器,不同的CPU型号所提供的处理能力不同;2、内存,内存的读取速度会影响香港服务器的性能;3、存储类型,如固态硬盘SSD,传统的HDD硬盘等,所提供的性能不同...

购买韩国服务器应该考虑哪些方面

购买韩国服务器应该考虑的方面:1、需要对韩国服务器进行速度以及稳定性测试,从而保障服务器能够快速稳定的运行;2、需要了解清楚韩国服务器的带宽资源方面,避免投入过多的成本;3、需要注意韩国服务器是否具备...

武汉服务器托管费用一般要多少钱

武汉服务器托管费用一直是用户最关心的问题。现在的IDC行业市场混乱,很多企业为提高托管费用会乱标注收费项目。一般的武汉服务器托管费用是由机柜、带宽、IP等因素决定的。小编就给大家科普一下武汉服务器托管...

香港免费vps服务器为什么受欢迎

香港免费vps服务器受欢迎的原因有:1、香港免费vps服务器采用全10Gbps光纤网络和直连大陆专线的骨干网,能实现全国高速网络连接;2、香港免费vps服务器SSD存储,机房线路稳定,能保证网站的正常...

选择高防服务时主要有哪些考量

在选择高防服务时主要有那些考量:1.看高防服务器可以防御哪些类型的攻击。2. 看高防服务器流量清洗和调度的峰值能有多大。3.选择高防服务器是考量服务器的性能是否能做到兼顾。具体分析如下:一、网络层攻击...