OpenNMS网络和系统管理简介

1.1 概述

Opennms 能够帮助 IT 管理部门持续的监控分布式的异构系统和网络设备的运行状态,它可以支持 SNMP 网络管理协议确保管理的扩展性,并且提供非常灵活的定制功能从而有利于管理范围的伸缩。它内置的故障事件管理以提供故障事件的记录和分析的能力,快速隔离非根源事件并迅速发现故障原因。Opennms 良好的设计可以快速部署实施,简单友好的图形界面能够使得用户迅速掌握,从而降低操作的复杂度,提高 IT 管理效率。

1.2 体系架构

作为一个通用的网络系统故障监控平台,其体系架构应如下图所示:

**附图 1. ** **Opennms****体系架构**

我们从下至上对 Opnnms 体系架构作一一的介绍:

u 被管理对象层,SNMP 代理程序是数据采集和动作执行层。对应网络设备来讲,该层对应与网络设备本身的网络管理功能,不需要在设备上单独部署功能模块;对计算机来讲,该层是运行在目标计算机上的 SNMP 服务,负责采集该系统运行状况、性能等数据,并向管理层汇报。

u Opennms 监控引擎是实现网络和系统可用性、故障管理的业务逻辑和策略的处理层。他利用特定的轮询策略:从代理程序层收集数据、更新和维护被管理对象状态、执行相关的报警事件通知。

u 管理对象数据库是网络和系统管理的数据存储层。其中以面向对象的方式保存着网络和系统资源的模型,记录着他们的配置、描述和状态等信息。这些模型和信息是通过 Opennms 网络扫描模块自动建立起来的,并由管理者层自动维护。

u 图形用户界面是网络和系统管理的数据表示层。他以各种直观、生动的用户界面向用户展示网络和系统中各种对象的关系、配置、状态和故障情况,是优秀的用户接口。

针对某企业简称 user short name 的环境,其 IT 故障监控子系统的管理框架为:

u 被管理对象层——启动核心路由器和交换机的 SNMP 网管协议,作为网络设备故障的数据提供源;在所有需要管理的服务器上运行 SNMP 服务,作为监控操作系统故障的数据提供源。

u Opennms 网络监控服务器——新增一台服务器,部署 Opennms 的监控引擎模块,由该模块对被管理对象层的数据源进行自动的数据采集和翻译采集的结果。并实时发送报警信息。

u 对象存储库——在和 Opennms 监控引擎安装的机器上安装 PostgreSQL,作为 Opennms 监控模块的对象存储库。

u 图形用户界面——某企业简称 user short name 管理员可使用任何的 WWW 浏览器连接 Opennms 网络监控服务器的用户界面,使用合适的用户名,在某种适当的权限下查看和浏览网络监控信息、状态信息、可用性报表和性能报表。

1.3 功能介绍

1.3.1 网络节点自动发现

对象存储库中的信息并不是靠管理员手工输入和维护的,而是由 Opennms 网络监控引擎-自动扫描模块自动从用户的计算机系统中搜索发现出来的。

**附图 2. ** 网络节点自动发现

1.3.2 图形用户管理界面

在某企业简称 user short name 这 样的网络和系统中,需要一些友好的监控视图。目的是使得管理员能够通过直观的界面,迅速发现故障,从而在最短的时间内解决故障。该用户界面视图可使得管理 员通过管理工具看到现实世界对象的真实反映,而不是抽象的符号。使用户能够监控整个系统的概貌,系统的大体分布和总体运行状况等。并且决策适当的故障排除 方案,各种界面视图可通过 Intranet 进行浏览查看。

**附图 3. ** 网络管理员管理主页

该用户界面的最左边是:Nodes with Outages,表格中列出了最近发生故障状况的 12 个节点,这些节点可能是网络故障,或者是某些网络服务出错等。

用户界面的中间是:各种网络服务的服务水平报告。它列出了最近 24 小时之内各种网络服务的服务质量水平;其中的网络服务可能包括:网络接口的 UP 时间、Web 服务、DNS 和 DHCP 服务和数据库服务等。

最右侧的是一些比较常用的功能选项:报警提示信息、节点的性能报表、节点网络服务相应时间报表和自定义的性能报表。

1.3.3 故障监控

被管理对象的数据采集和状态维护是由 Opennms 的监控引擎模块实现的。每个所管理的所有对象存储在数据库中。可以管理的对象包括:

u 支持 SNMP 网管的网络设备

u 部署了 SNMP 服务的服务器上的操作系统

Opennms 采取统一的通讯方式从这些管理对象上采集可用性和故障信息,信息的采集有两种方式:

u Opennms 主动地通过 SNMP 协议定期查询被管理对象状态

u Opennms 被动接收被管理对象发来的 SNMP Trap

Opennms 得到被管理对象的轮询或 Trap 信息后,根据收到的信息类型、对象原来的状态和网络系统管理的策略和逻辑判断对象的状态是否发生变化。如果发生了变化,则可以按照管理策略采取若干更新操作。

1.3.4 故障事件管理

当 被管理对象的运行状态发生变化时,就会产生事件。如果该事件是由正常变为故障,则会产生故障报警。事件管理是通过收集、确认事件,对事件进行分类和过滤, 关联不同来源的事件完成对事件的处理和响应。通过事件管理,系统管理人员可以方便、迅速、及时掌握系统运行的故障和警报,及时进行处理,保障系统的正常、 稳定运行。

IT 系统管理人员所关注的问题,如系统资源出现短缺、数据库连接失败、网络通信中断、主机文件系统溢出等等都会以事件的形式表现出来。

**附图 4. ** 事件管理控制台

1.3.5 操作系统监控

Opennms 对各种计算机操作系统的可用性、运行状况和故障的集中监控是通过本身的 SNMP 服务程序完成的。这些 SNMP 代理程序是 SNMP 服务的组成部分。在本次建议的方案中,在所有的被监控服务器上其监控的主要内容包括:

u CPU 利用率,显示系统、用户、空闲时间的百分比;

u 虚拟内存(Virtual memory)利用率;

u 文件系统使用情况,显示磁盘空间使用情况;

u 监视文件系统的使用率,当使用率超过特定阈值时向系统管理员报警;

u 监控网络端口的输入、输出、错包,以及端口是否被停用或者删除;

u UNIX 系统还可以监控

² Load Average:服务器平均处理量

² 共享内存

1.3.6 网络节点配置信息管理

被监控对象节点在数据中的配置信息是 IT 设备的资产信息,每个网络节点都是一个特定的 IT 资产设备。每个节点在数据库中有很多属性字段供选择填写,主要有三类属性信息:

  1.      配置种类信息:配置分类、告警分类、轮询属性和阈值分类。
    
  1.      标识信息:资产描述、厂商、型号、资产编号、操作系统等
    
  1.      位置信息:负责人、部门、楼层、房间、机架编号等
    

**附图 5. ** 节点资产信息

1.3.7 全面的节点监控

每个被监控的节点都能被细致的记录和监控。当查看某节点的信息时,有这样几类信息:状态信息、各种网络服务总的可用性、SNMP 属性、各个接口熟悉、最近发生的 5 个事件和最近的故障事件。

**附图 6. ** 节点监控视图

在查看某个节点是,界面上的信息分为三类:网络服务可用性报表、当前状态和监控事件信息。在菜单栏还能有很多功能选项:查看故障事件、资产信息、响应时间报表、SNMP 性能报表、重新扫描、节点管理和更新 SNMP 信息。

1.4 特点和优势

Opennms 在网络和系统管理方面,有非常广泛的用户,特别是中小企业用户,Opennms 具有很多极好的特点:

u 方便易用的用户管理界面——Opennms 可以提供故障事件视图、节点视图、相应时间视图、性能视图等各种管理视图。

u 基于 Open Source 协议开发——用户可以按照自己的需求,通过修改软件本身或者软件的源代码来定制。

u 跨平台管理——Opennms 支持任何能运行标准 SNMP 协议服务的操作系统系统,并且可以从一个单一的用户界面分别管理其局域网(LAN)。

u 切实可行的事件管理系统——Opennms 通过方便易用的交互式控制台,为 IT 管理员显示关键事件,提供自动的事件响应,可以以电子邮件方式发出事件通知。

u 方便的集成——Opennms 可以与第三方产品集成。例如 Opennms 可以方便的与 Dell、HP、IBM 等厂商的服务器自带的 SNMP 故障管理软件集成。

u 2005 Linux World 推荐管理产品 ——Opennms 获得 2005 年 Linux 世界大会的“最佳网络系统管理软件”的荣誉。已经被认定开源软件世界中的最佳网络系统管理软件。

版权所有,如果转载请著名出处。

曾被www.vshj.com转载:http://www.vshj.com/Article/2006/200607/Article_97842.htm

文章中所提到的图片请参阅我的相册。

署名-非商业性使用-禁止演绎 4.0 (CC BY-NC-ND 4.0)
comments powered by Disqus
本博客始于 2007 年
Built with Hugo
主题 StackJimmy 设计