频 道 直 达 - 新闻 - 培训 - 软件 - 教程 - 前沿 - 组网 - 系统应用 - 安全 - 编程 - 存储 - 操作系统 - 数据库 - 服务器 - 专题 - 产品 - 案例库 - 读书 - 博客 - BBS
51CTO.COM_中国最大的网络技术网站
找资料:

9.4 Watchdog和Softdog

作者: 黄永兵译 出处:51CTO.com  2008-07-20 15:17    砖    好    评论   进入论坛
阅读提示:《Linux企业集群》一书讲解如何在一个计算机网络中用有限的资源部署计算机,以及安装自由软件让计算机象一台服务器那样一起运行。其中第九章描述Stonith和Ipfail,本文说的是Watchdog和Softdog。

9.4 Watchdog和Softdog

内核有它自己的方法处理挂起的系统,叫做watchdog,watchdog只是一个内核模块,它检查计时器确定系统是健康的,如果watchdog认为内核挂起,它可能做出激烈的响应,如重启系统,如果你想保护你的高可用服务器配置,服务器挂起时导致服务中断,Heartbeat也检测不到,你应该在你的内核中启用watchdog。

注意:这里我们讨论的是服务器挂起而不是应用程序问题,Heartbeat(在编写本书时Heartbeat 2之前的版本还不可用)不会监视它控制的资源或应用程序,看其是否健康 -- 要监视必须使用另一个软件包,如Mon,将在第四部分中详细讨论它。

正常情况下,连接到系统的watchdog设备允许内核判断系统是否挂起(当内核看不到外部的计时器设备正确地更新时,它就知道出现某些错误了)。

watchdog代码也支持用软件替换外部的硬件计时器,该软件叫做softdog,softdog维护一个内部计时器,在另一个进程写入/dev/watchdog设备文件时更新,如果softdog没有看到进程写入/dev/watchdog文件,它认为内核一定出故障了,它将启动一个内核恐慌,正常情况下,内核恐慌将导致系统关闭,但是你可以修改这个默认行为,将其改为默认行为为重启系统。

在内核中启用Watchdog

要在内核中启用watchdog,首先你需要确定softdog模块已经编译进内核了。

注意:在一个正常的Red Hat或SuSe发行版上你不需要将watchdog添加到内核,因为标准发布的版本Red Hat内核已经包括了一个已经编译好的softdog模块的副本。

如果你从源代码编译的内核,从/usr/src/linux目录运行makemenu config命令,在下面的子菜单中检查或启用“Software Watchdog”选项:

Character Devices【字符设备】
Watchdog Cards --->【watchdog插件】
[*] Watchdog Timer Support【watchdog计时器支持】
[M] Software Watchdog (NEW)【软件watchdog(新)】

如果在内核中这个选项没有被选中,按照第3章中描述的步骤重新编译并安装你的新内核,如果你正在使用Red Hat提供的标准模块内核(或如果你刚刚编译完你自己的内核,并启用了software watchdog支持),输入下面的命令确定该模块是否载入了当前运行的内核:

#insmod softdog
#lsmod

你应该看到列出了softdog,正常情况下,如果你在/etc/ha.d/ha.cf中启用了watchdog支持,Heartbeat开关(init)脚本将为你插入这个模块,假设启用了watchdog,现在你应该从内核中移除它,并允许Heartbeat在它启动时为你添加,使用下面的命令从内核中移除softdog:

#modprobe -r softdog

内核恐慌 -- 挂起还是重启?

在内核恐慌时要强制系统重启而不是暂停,需要修改传递给内核的启动参数,在使用LILO启动装入程序的系统上,编辑/etc/lilo.conf文件,在“image=”行前增加下面这样一行内容:

append="panic=60"

然后运行:

#lilo -v

也可以使用下面的命令:

#echo 60 > /proc/sys/kernel/panic

配置Heartbeat支持Watchdog

除使用我们刚刚描述的(作为服务器正常配置的一部分,在系统挂起时提升它的可靠性)softdog计时器之外,你可以告诉Heartbeat更新softdog计时器,这让watchdog知道Heartbeat正在运行并很健康,如果计时器没有更新,watchdog将通知并强制内核恐慌,实际上,我们是告诉watchdog观察Heartbeat。

注意:使用Heartbeat 1.2.3时,你可以用apphbd观察Heartbeat,然后让watchdog观察apphbd。

当你在/etc/ha.d/ha.cf文件中启用了watchdog选项后,Heartbeat将每隔相当于deadtime长的时间写入/dev/watchdog文件(或设备),因此,出现任何导致Heartbeat更新watchdog设备失败的事情,一旦watchdog超时周期(默认是一分钟)过期,watchdog将启动内核恐慌。

#vi /etc/ha.d/ha.cf

取消下面这一行的注释符号:

watchdog /dev/watchdog

重启Heartbeat,让Heartbeat开关(init)脚本准确地配置watchdog设备:

#service heartbeat restart

当你运行下面的命令时你应该看到softdog:

#lsmod

注意:你应该在所有Heartbeat服务器上做这个事情,以便保持所有的Heartbeat配置是一致的。

要测试watchdog的行为,在主服务器上使用下面的命令杀掉所有的正在运行的Heartbeat守护进程:

#killall -9 heartbeat

你应该在系统终端和/var/log/messages文件中看到下面的警告消息:

Softdog: WDT device closed unexpectedly. WDT will not stop!

这个错误告诉你内核将恐慌,你的系统应该重启(如果你象前面描述的那样对/proc/sys/kernel/panic做了修改的话)。

【责任编辑:董书 TEL:(010)68476606】

回书目   上一节   下一节
专题
Windows Home Server 家用服务器专题
Linux——从菜鸟到高手
服务器维护与应用基础
服务器基础知识入门
服务器节能与绿色IT
我也说两句

匿名发表

(如果看不清请点击图片进行更换)


中 国 最 大 的 网 络 技 术 网 站 ·
技 术 成 就 梦 想
订阅技术快讯
电子杂志下载
名称:SQL Server数据库管理精品黄皮书
简介:书中文章经过精挑细选,便于用户能根据自己的实际工作和学习,快速在本书寻找到相关资料。内容涵盖了SQL Server的安装与升级、语句查询、数据备份和恢复、自动化任务、数据同步、数据字典、安全和预防、性能和优化、集群等各方面应用信息,以及DBA管理人员在数据库管理工作中
名称:2007路由技术大全
简介:《2007路由技术大全》由51CTO.com网站特别策划制作,该书包括路由器技术、路由器产品、路由器配置、安全设置、路由器故障处理、路由器密码恢复,以及广大网友在实践使用中的心得经验和技巧文章,内容注重实用性,适用于初学者入门,也适合多年从业者提高,是一本实践和理论完
名称:网络安全精品应用黄皮书
简介:《2007精品网络安全黄皮书》包括了9个大类24个小类, 800余篇文章,内容包含了熊猫烧香病毒、DDOS攻击、ARP病等热点问题的介绍及解决方案。从病毒查杀、防范、系统、数据等各方面的安全设置到黑客技术的了解、防范,涉及到了安全应用的全部领域, 由浅至深内容全面。
CCNA认证考试Pass必备
CCNA认证考试Pass必备
华为七千人主动辞职规避新劳动法
华为七千人主动辞职规避新劳..
微软出价446亿美元收购雅虎
微软出价446亿美元收购雅虎
· 微软出价446亿美元收购..
· 虚拟化的“赤壁之战”
· Windows Server 2008专..
· 无线重中之重:安全问题
· 802.11n:下一代的无线..
· 脉冲无线电uwb专题
· AIX操作系统管理应用
· 云计算时代来临
· 求职必杀技 决战面试官
· 龙芯要做中国的“奔腾”
· 2008年上半年IT技术图..
· 服务器节能与绿色IT
· IT工程师该不该考CCIE..
· 浏览器的战国时代
· 2008年上半年全国软考..
· 无线网络环境
ARP攻击防范与解决方案
ARP攻击防范与解决方案
SQL Server 2008/2005全解
SQL Server 2008/2005全解
SOA 面向服务架构
SOA 面向服务架构
· SOA 面向服务架构
· SQL Server 2008/2005..
· Apache技术专题
· 三层交换技术专题
· SQL Server入门到精通
· 无线网状网(MESH)
· Windows远程桌面应用
· C#技术开发指南
· Apache技术专题
· Windows集群服务应用
· C#技术开发指南
· 文档格式标准开战 OOXM..
· 路由器设置与口令恢复
· Linux 集群技术专题
· PHP开发应用手册
· SOA 面向服务架构
ARP攻击防范与解决方案
ARP攻击防范与解决方案
SQL Server 2008/2005全解
SQL Server 2008/2005全解
SQL Server入门到精通
SQL Server入门到精通
· SQL Server入门到精通
· SQL Server 2008/2005..
· SOA 面向服务架构
· Apache技术专题
· C#技术开发指南
· 三层交换技术专题
· Apache技术专题
· C#技术开发指南
· Windows远程桌面应用
· 企业数据恢复指南
· Windows集群服务应用
· 路由器设置与口令恢复
· Linux 集群技术专题
· SOA 面向服务架构
· 了解统一威胁管理(UTM)..
· 解析35岁技术人的价值..