![]() |
NEC Fault-Tolerant容错服务器,秉承NEC对容错技术的一贯追求,专为金融,交通,能源,制造业,科研机构等行业提供卓越安全保障的核心计算产品。欢迎点击这里下载NEC FT容错服务器视频资料! 走出“阳春白雪”的NEC 5800FT容错服务器NEC 5800/ft 容错服务器的主要特点
NEC 5800/ft 容错服务器的人性化设计
容错小知识什么是容错 常见的容错手段 常见的容错手段有:空间冗余、时间冗余和信息冗余。通过冗余的机器来确保系统的容错性,这种方式通常称之为空间冗余。此外还有利用时间的冗余和信息的冗余确保容错性的方式。例如检查点( CheckPoint )就属于时间冗余的一种,将机器运行的某一时刻称作检查点,在此时检查系统运行的状态是否正确,不论正确与否,都将这一状态存储起来,一旦发现运行故障,就返回到最近一次正确的检查点重新运行。重要数据的异地备份则是信息冗余的典型例子,对于至关重要的数据备份在不同的地方,可以防止因自然灾害等不可估计的因素带来的损失。总的来说,提供容错的手段多种多样,如何选择应取决于应用系统的实际情况。容错服务器采用的是空间冗余的方式。 容错计算机的典型特征 容错计算机应包括故障侦测、故障容许和故障恢复等方面。 故障侦测: 是指在系统运行过程中有了故障时自动找出故障。 故障容许: 是指如何保证系统在出现故障之后仍能够正常运行。 故障恢复: 是指让系统自动地清除故障影响,恢复正常运行。评估计算机系统容错性的标准 计算机系统的容错性通常可以从系统的可靠性、可用性、可测性等几个方面来衡量。而对于通用计算机来说,一个重要的指标就是系统的可用性。可用性是指在一年的时间中确保系统不失效的时间比率。从容错的角度看,可用性应在 99.999 %以上。 容错( Fault Tolerance )不是 HA ( High Available ) HA 指的是计算机系统的高可用性。其变迁过程是从双机冷备份到双机热备份。对于一些相对重要的应用领域,考虑到计算机系统的可靠性问题。在构建系统时,对应用服务器做冗余配置。早期是双机冷备。既两套服务器配置一样,一台工作。故障时,启动另一台服务器。 随着技术的发展,在两套服务器上配置了双机容错软件。该软件的作用是将双机冷备系统中人工发现故障,人工启动服务器的工作,通过软件自动完成。目前流行的说法是自动侦测、自动接管用户、自动重启应用。其标准的工作流程如下图所示:
双机热备解决了在无人职守时计算机系统的冗余冷备问题,大大缩短了宕机时间。 使一年系统不失效的时间比率达到 99.9 %。相对于单机的 98 %,双机热备系统可用性较高,简称 HA (高可用)。 从 HA 的工作原理我们看到,通过系统的冗余配置,在一定程度上解决了系统的可靠性问题。但是由于两套服务器的 CPU 、内存的等部件不能同步。因此,当一台服务器故障时,其应用有间断,在断点处,数据必然丢失。另外,由于双机热备主要是通过 HA 软件完成。因此,对中间应用软件有选择。不能完全透明。且软件消耗系统资源、配置复杂、维护成本高。 容错服务器是通过部件冗余的方法来达到容错的目的。自动侦测、自动接管、自动恢复。其核心是通过专用的 ASIC 芯片来同步两套系统的 CPU 、 Cache 、内存等冗余部件。从而保障了故障接管时,应用无断点。其工作原理如下图所示:
因此,容错服务器不仅是配置冗余,且应用同步。整个系统真正达到了“永不停顿”地工作。 |





