Category Archives: NSM
Nagios华丽的外衣NagVis
如果你用过Nagios的话,它的2D、3D Map一定会给你留下一些印象;2D Map的确能比较试用一点,不过看上去还是挺难看的。NagVis就是看到了这一点,它力求能让各种状态信息表达的更炫,更好看;它可以说是Nagios的一个不错的插件,直接copy到Nagios的相关目录下,配置一下就行了。它的效果如下图所示: 说的在玄虚一点它可以是一个“业务流程管理视图”[CA Unicenter中的名词,OpenView里也有类似的概念]。其实就是把原子的监控对象:被监控节点和节点上的服务;和业务系统或者IT的逻辑关系相结合起来。例如:我的业务系统A的其中一个数据库服务器的数据库进程停了,这个可以影响到所有物理包含或者逻辑包含它的对象的状态。NagVis试图用漂亮的图标来表达这些状态和关系,是管理者能看的更加直观。
Install Smokeping via yum
From : http://ai.net.nz/horde/wicked/display.php?page=SmokePing Install needed packages rrdtool yum install rrdtool perl-CGI-SpeedyCGI yum install perl-CGI-SpeedyCGI fping yum install fping Or do them all together: yum install rrdtool perl-CGI-SpeedyCGI fping Smokeping wget http://people.ee.ethz.ch/~oetiker/webtools/smokeping/pub/smokeping-2.0.9.tar.gztar xvzf smokeping-2.0.9.tar.gzmv smokeping-2.0.9 /usr/local/smokepingchown -R root:root /usr/local/smokeping cd /usr/local/smokeping/binfor foo in *.dist; do cp $foo `basename $foo .dist`; done cd /usr/local/smokeping/etc/for foo in *.dist;
如何看懂Smokeping图表
RTT(Round-Trip Time) 简单说它是一个数据报在网络上两点中间往返一次的时间。是影响TCP性能和表征网络运行状况的重要参数。在网络中实时、准确地测量大量TCP设备和系统的RTT参数是网络管的重要环节之一。Smokeping就是这样的自动测试系统,它向目标设备和系统发送各种类型的测试数据包,测量、记录和展示RTT。 Median RTT 中间数 它是中间数并不是平均值。Smokeping有多种类型的探针,探针在默认的设置下,每300秒向目标设备发送20测探测数据包。假如这20个数据包都返回的话,它就记录下了20个RTT,那么Median RTT就是第十个包的RTT;如果有5个包丢失的话,那么Median RTT就是第八个返回的包的RTT值。 Avg RTT 评价值 它是每一个测试回合中所有RTT的算术评价值。 Avg pkt loss 它是丢包率。 上图中测试的三个服务器,是用默认的FPing探针探测该服务器是否在线。Smokeping就装在OpenNMS上,可以看出它的RTT最小;奇怪的是它的丢包率却是最大。其它的,一个是美国的一个Web服务器,另一个是美国的Exchange邮件服务器。 Last 3 Hours 最近的3小时 Median Ping RTT (506.2 ms avg)中间数的平均值是5.6.2毫秒。如果是绿色的短横线,说明一个300秒的周期内所有的包都返回都有RTT的时间记录下来;如果是蓝色的短横线则说明有2个包丢失。 Packet Loss:丢包率。从上图中我们看出全都是绿线,所以丢包率当然是0。 Probe:10 HTTP pings using echoping(1) every 300 seconds 这张图是2007-1-11 12:00:05生成的。每一个绿色的短横线都是一个测试回合300秒内用echoping测试HTTP协议10次。绿色画出的是中间数的位置,一个回合中的其它值都在它附近被以灰度的形式被刻画;灰度的范围越小越好,灰色的范围像是烟雾一样笼罩在中间数附近。在中间数附近的烟越小越好,说明网络很平稳。RTT曲线的起伏还显示了网络的负载情况。 点击这里看一个网上的Demo update : 2008-1-18 现在OpenNMS把smokeping集成了,你可以在OpenNMS中配置使用这个功能。
翻译[opennms-discuss]邮件组里的一个讨论“Nagios转变”
全文在=》China OpenNMS ——————————————– 我们已经在一个中等规模的企业实施了Nagios,用来监控一堆Cisco设备:交换机、路由器、防火墙,还有各种类型的服务器 (Windows,Linux和Unix)。对我们来说Nagios工作的非常好。我们现在看OpenNMS,是由于她有好看的用户界面和集成的服务资源 图。我喜欢Nagios是由于它的模块化。我能很容易的写一个插件来完成任何相关的事情。 我看到OpenNMS有NRPE和NSCLIENT的能力,但是有一些邮件和资源图不能彻底的采集到。有人正打算用OpenNMS作为Nagios或者其他 软件的替代品?我的答案是非常确定的,可是我也非常想听到一些关于OpenNMS的成功或者不很成功的故事。我正在测试环境中使用 的是OpenNMS1.3.2。 Thanks! Jon Christensen ——————————————– 我们也有一个和你类似的环境(路由器、交换机、各种服务器),目前有大约250个节点。 使用一个CentOS4的服务器,我们已经在上面安装了OpenNMS1.2.9,Syslog-NG,Swatch, Logtool(http://xjack.org/logtool/), 在Windows上用Informant MIB,在几乎所有Linux/Unix上的是NET-SNMP,和它们一起的还有很多在客户端的自定义脚本;它们中的 大多数都使用send-event.pl或者和它无关。 应为所有这些,我们已经能完全替代了HP OpenView,虽然这是我的一面之词:这个架构是如此的模块化,以致于我们能做的比我们 使用OpenView的还要多,因种种理由。 Tim Selivanow NOC Technician EasyStreet Online Services, Inc. ______________________________________ 我的个人观点: 从Nagios转到OpenNMS上,其实不太容易。由于一下因素: 1)Nagios非常模块化,架构让人决定非常稳定可靠;它没有用到Java。 2)它的文档非常好,包括它官方的使用手册和用户上传的文档;从文档可以看出这个欧洲Base的项目非常踏实,风格严谨。开发ONMS的那帮老米显得比较自作聪明一点。 3)Nagios的论坛很好,有很多人可以互相帮助。
Cisco网络设备如何配置SNMP代理
Cisco是网络设备的老大,它的设备以稳定、成熟和高性能著称。很多用户都以自己的网络设备是99%的Cisco设备而自豪。 对于任何一个网络设备如果没有配置SNMP代理,就不能被任何管理工具管理。下面的这个连接就是关于如何配置Cisco的SNMP服务:http://www.cisco.com/univercd/cc/td/doc/product/software/ios122/122cgcr/ffun_c/fcfprt3/fcf014.htm 可网管网络设备都内置有SNMP代理,很多网管不喜欢配置、enable SNMP服务的理由如下:不希望SNMP服务占用CPU、内存等资源;不信任SNMP服务的安全性;不认确认SNMP管理协议的价值。我个人认为:通过SNMP协议对网络设备管理的价值将远远高于它对设备造成的消耗和带来的风险。如果你同时面对和管理30台以上的网络设备,试想把它们的运行状况做一遍检查,您需要花的时间是多长。 网络管理系统和网络设备的互动如下: 网管系统主动定时读取MIB的值,存储和分析得到的数值,产生报表和报警事件。 网管系统被动作为网络设备发送Trap的目的地,网管系统需要能翻译各种网络设备的Trap信息的意义。