Monthly Archives: May 2007
Hyperic HQ小测手记
HQ的网站是一个显的非常商业化的网站;看上去制作的比较精良也比较专业。从HQ的官方文档(好像没找到pdf手册)中看出它能监控的东西还真的非常多,无论是商业的软件还是开源的都有一大串的matrix;他们在被监控的及其上是需要安装和运行代理的。所以从这一点上讲和商业软件也没有什么区别,总之看的数据多应该比较好,不过数据收集的多有时候会给监控对象代理太重的workload。 如何安装 下载HQ\hyperic-hq-installer-3.0.4-389-x86-linux从HQ的网站。这个压缩文件包含:安装程序,服务器端程序(好像包括一个内嵌的PostgreSQL数据库),代理程序,服务期端shell程序,JRE。 BTW:服务器端和代理都是Java程序,如果自己配置好JRE的话可以下载不包含JRE的安装包。Windows上的代理包是一个zip文件,为了方便我都下载的含有JRE的安装包。 由于是纯Java的应用所以服务器端和代理端看似好像都没有任何依赖性要求,只是需要在服务器端安装xorg-x11-libs包,否则不能正常绘图,看不到图形。 在Linux下的安装过程大致如下。 mkdir /opt/hq useradd hq -G root -d /opt/hq su hq tar zxvf hq.tgz cd hyperic-hq-installer/ ./setup.sh /opt/hq/server-3.0.4/bin/hq-server.sh start 注意最好建立一个新的用户为HQ,服务期端本身需要被非root用户安装和启动。另外代理和服务器端都需要特殊的两个端口通信,所以安装完之后必须停止或者配置防火墙;否则不能访问服务器,服务器也不能和代理通信。启动代理之前需要配置好防火墙。 试用: 总体说HQ的安装和配置都是非常简单的,不过他的Web界面更是简洁。当代理启动了之后,会自动出现在Auto-Discovery下面,点击Add Resource按钮将它变成一个正式的监控对象。默认的情况下,代理会收集一定数量的监控指标;大概是可收集数量的20%左右。当在某个监控对象上(例如Memory Used)设置了收集间隔之后,服务器端就开始了定时的数据收集,所收集的数据默认情况下用折线图的形式展示。可以根据某个指标建立一个告警,告警的逻辑也相当的完整:逻辑判断,巅峰判断,升级处理;看似能想到的都有了。由于是第一次使用展示没有看的如何建立一个告警规则应用于所有监控对象的。我用HQ对我的一个服务器(iis,MS Sql,.net)做了监控,从数据收集和展现效果上来说,真的堪称可与商业软件媲美。 使用结论: 安装简单方便,在Linux下代理端完全无需关照包依赖性。代理配置的安装配置需要一定量的工作,必须配置服务器地址,通信端口等。 代理程序对服务器的工作负担还是比较大的,特别是在启动的那几分钟内。代理进程对CPU的使用率可以达到50~80%,之后就比较低了。对内存的利用一般是30MB左右,当然这应该是可以通过降低收集数的数量和频率来降低的。 用户界面的使用还真的是很方便,还支持告警信息的RSS访问。总之HQ是一个开源软件中的重量级选手:功能强,复杂性高,代理程序负担较重。其他使用小结,待续。
ZABBIX特点介绍,转自它们的网站
FROM:http://www.zabbix.com/features.php ZABBIX offers functionality that will make your IT resources look more transparent, and it will also help to easily identify performance and availability problems. ZABBIX greatly increases the productivity of system administrators by providing simple-to-use monitoring system. Key features 开源的方案Open Source solution 能编译运行在多种OS:AIX, FreeBSD, HP-UX, Linux, MacOS X, NetBSD, OpenBSD, Solaris, Tru64/OSF SQL database存储配置、性能等各种信息
What is ZABBIX?
第一次看到这个软件是在OpenNMS的邮件讨论组中,他们计划做一个vmware的image放到VMTN上 。我在VMTN里哪里点击了一下监控管理这一类,一个叫OpenESM的项目进入了我的视线。它能引起我的注意是因为,它在项目的描述中说:我们理解ITSM、、、、Check it out! 大致浏览了一下他们的网站,发现他们的目的是在Zabbix的基础上作一下优化和开发,加入若干特色:GSM modem发短信、新报表、SLA监控等。 现在很多项目都有迅速实施的解决方案。对于很多开源项目来说,它们对于新手的相同门槛就是安装。安装上了,不会配置;配置好了,不会用;用上了解决不了问题。 我先下载了OpenESM ,一个不算太大的文件1.3GB。解压缩之后用VMWare打开运行,猜出root的用户名是openesm,登陆之后发现它是一个Fedora的虚拟机。登陆OpenESM的控制台, http://ip/ 接下来就需要去www.openesm.com上下载手册了,否则无法继续下去。照着手册安装代理,在我的两个Windows的机器上。安装需要先下子代理安装包,允许安装命令的时候需要制定自己的主机名和服务器的主机名。在控制台中加入这两个安装了代理的机器,由于是初次使用没用玩自动发现之类的功能。收集了一阵子数据之后,很快发现了很多有趣的数据。 最终总结如下 这是我安装的第一个有代理程序的开源监控软件,感觉在Windows下代理的安装还是比较方便的。比我想象的简单,安装文件只有一个exe文件,装完之后形成一个服务。我记得在查阅文档的时候看到了一文档,上面列出了所有代理程序能收集的数据的表格,说明了什么数据在什么操作系统中支持,那些不支持。它能在多种操作系统上安装,他的安装时说从代码编译安装,windows上不需要,在非windows上就以为这需要安装编译器什么的。这好像并不是特别好。 可用性和性能的数据都能收集。 事件管理功能,能触发action,还没有试过,能触发邮件和GSM短信等。没有试过。 没有试的还挺多,还需要进一步研究。
Install OpenNMS 1.3.2 on OpenSuse 10.2 system (The simplest version )
1>Install dependence packages zliu3:~yast -i rrdtool zliu3:~yast -i postgresql zliu3:~ # rpm -qa |grep rrdtool rrdtool-1.2.15-25 zliu3:~ # rpm -qa |grep postgresql postgresql-8.1.5-13 postgresql-libs-8.1.5-13 postgresql-contrib-8.1.5-13 postgresql-pl-8.1.5-15 postgresql-server-8.1.5-13 rcpostgresql start copy jdk/tomcat 5.5 package files to /opt cd /opt tar xzvf jdk1.5.tar.gz tar xzvf tomcat5.5.tar.gz export JAVA_HOME=/opt/jdk1.5.0_09 export OPENNMS_HOME=/opt/opennms export CATALINA_HOME=/opt/apache-tomcat-5.5.20 export PATH=$PATH:$JAVA_HOME/bin java -version $CATALINA_HOME/bin/startup.sh
OpenNMS网络和系统管理简介
1.1 概述 Opennms能够帮助IT管理部门持续的监控分布式的异构系统和网络设备的运行状态,它可以支持SNMP网络管理协议确保管理的扩展性,并且提供非常灵活的定制功能从而有利于管理范围的伸缩。它内置的故障事件管理以提供故障事件的记录和分析的能力,快速隔离非根源事件并迅速发现故障原因。Opennms良好的设计可以快速部署实施,简单友好的图形界面能够使得用户迅速掌握,从而降低操作的复杂度,提高IT管理效率。 1.2 体系架构 作为一个通用的网络系统故障监控平台,其体系架构应如下图所示: 附图1. Opennms体系架构 我们从下至上对Opnnms体系架构作一一的介绍: u 被管理对象层,SNMP代理程序是数据采集和动作执行层。对应网络设备来讲,该层对应与网络设备本身的网络管理功能,不需要在设备上单独部署功能模块;对计算机来讲,该层是运行在目标计算机上的SNMP服务,负责采集该系统运行状况、性能等数据,并向管理层汇报。 u Opennms监控引擎是实现网络和系统可用性、故障管理的业务逻辑和策略的处理层。他利用特定的轮询策略:从代理程序层收集数据、更新和维护被管理对象状态、执行相关的报警事件通知。 u 管理对象数据库是网络和系统管理的数据存储层。其中以面向对象的方式保存着网络和系统资源的模型,记录着他们的配置、描述和状态等信息。这些模型和信息是通过Opennms网络扫描模块自动建立起来的,并由管理者层自动维护。 u 图形用户界面是网络和系统管理的数据表示层。他以各种直观、生动的用户界面向用户展示网络和系统中各种对象的关系、配置、状态和故障情况,是优秀的用户接口。 针对某企业简称user short name的环境,其IT故障监控子系统的管理框架为: u 被管理对象层——启动核心路由器和交换机的SNMP网管协议,作为网络设备故障的数据提供源;在所有需要管理的服务器上运行SNMP服务,作为监控操作系统故障的数据提供源。 u Opennms网络监控服务器——新增一台服务器,部署Opennms的监控引擎模块,由该模块对被管理对象层的数据源进行自动的数据采集和翻译采集的结果。并实时发送报警信息。 u 对象存储库——在和Opennms监控引擎安装的机器上安装PostgreSQL,作为Opennms监控模块的对象存储库。 u 图形用户界面——某企业简称user short name管理员可使用任何的WWW浏览器连接Opennms网络监控服务器的用户界面,使用合适的用户名,在某种适当的权限下查看和浏览网络监控信息、状态信息、可用性报表和性能报表。 1.3 功能介绍 1.3.1 网络节点自动发现 对象存储库中的信息并不是靠管理员手工输入和维护的,而是由Opennms网络监控引擎-自动扫描模块自动从用户的计算机系统中搜索发现出来的。 附图2. 网络节点自动发现 1.3.2 图形用户管理界面 在某企业简称user short name这 样的网络和系统中,需要一些友好的监控视图。目的是使得管理员能够通过直观的界面,迅速发现故障,从而在最短的时间内解决故障。该用户界面视图可使得管理 员通过管理工具看到现实世界对象的真实反映,而不是抽象的符号。使用户能够监控整个系统的概貌,系统的大体分布和总体运行状况等。并且决策适当的故障排除 方案,各种界面视图可通过Intranet进行浏览查看。 附图3. 网络管理员管理主页 该用户界面的最左边是:Nodes with Outages,表格中列出了最近发生故障状况的12个节点,这些节点可能是网络故障,或者是某些网络服务出错等。 用户界面的中间是:各种网络服务的服务水平报告。它列出了最近24小时之内各种网络服务的服务质量水平;其中的网络服务可能包括:网络接口的UP时间、Web服务、DNS和DHCP服务和数据库服务等。 最右侧的是一些比较常用的功能选项:报警提示信息、节点的性能报表、节点网络服务相应时间报表和自定义的性能报表。 1.3.3 故障监控