apt如何监控内存和cpu?速卖通详细描述源代码

写出ubuntu linux系统中查看本机cpu和内存信息的命令和用法,以及如何解读这些命令_百度知道
写出ubuntu linux系统中查看本机cpu和内存信息的命令和用法,以及如何解读这些命令
查看CPU信息cat /proc/cpuinfo显示当前硬件信息sudo lshw获取CPU序列号或者主板序列号#CPU IDsudo dmidecode -t 4 | grep ID#Serial Numbersudo dmidecode
Serial#CPUsudo dmidecode -t 4#BIOSsudo dmidecode -t 0#主板:sudo dmidecode -t 2#OEM:sudo dmidecode -t 11显示当前内存大小free -m |grep &Mem& | awk '{print $2}'查看硬盘温度sudo apt-get install hddtempsudo hddtemp /dev/sda
其他类似问题
为您推荐:
查看cpu信息还有sudo cat /proc&#47lscpu /看cpusudo cat /meminfo
///cpuinfo
//proc&#47
一个在ubuntu下查看设备硬件的 好工具-dmidecode
参考如下使用方法:
如果要读取特定设备信息可以用 dmidecode -t type
下面是type 代码的含义
Base Board
Memory Controller
Memory Module
Port Connector
System Slots
On Board Devices
OEM Strings
System Configuration Options
BIOS Language
Group Associations
System Event Log
Physical Memory Array
Memory Device
32-bit Memory Error
Memory Array Mapped Address
Memory Device Mapped Address
Built-in Pointing Device
Portable Battery
System R...
ubuntu的相关知识
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁监控宝博客
— admin @ 11:02 上午 日
监控宝用户通过监控宝网站可以创建各种类型的项目,比如:网站监控(http/https、FTP、SMTP)、服务性能监控(Apache、IIS、Mysql)、服务器监控、网页性能管理等类型,而这些项目之间很可能是有关联的。
那么如何将这些分散的监控项目整合在一起并建立关系?如何能通过一张图整体观测、实时监控并快速定位问题?应用架构图可以解决这几个问题。
应用架构图是描述监控项目间关系的示意图,图中各项目的运行状态会实时刷新。通过它,您不仅可以实时观测某个项目的最新状态,还可以对关联项目的运行情况一目了然。
例如,下图名为“0725-Nancy001”的应用架构图。我们发现图中“test_0715_lily_001_xs”的状态条显示黄色,说明该site项目触发了告警线。与之相关的“717_09”项目、“4月12号-Mogdb”项目、“0528-Server1-dengchao”项目为绿色,说明这3个项目是正常的;而与之相关的“4月12号-Apache”项目为黄色,也触发了告警线。
因此,“test_0715_lily_001_xs”告警的原因很可能是“4月12号-Apache”项目性能不佳引起的。
如果您已经是监控宝企业版的用户,那么创建应用架构图非常简单,创建步骤分为六步: 第一步,找到创建应用架构图的页面。登录后,选择“报表中心&应用架构图”,点击“创建应用架构图”按钮。
第二步,输入名称。
第三步,编辑层。应用架构图默认显示5层,您可以通过删除、添加等操作编辑层。
第四步,编辑项目。每层都有固定的类型可供选择,您可以在层上添加、删除、编辑项目。(这些调用项目均是用户之前创建的或有权限看见的项目)
第五,编辑连线。 项目间的关联通过编辑连线实现。首先,选中画布右上角的连续按钮;然后,点击选择第一个项目,此时该项目处于选中状态(背景为灰色);最后,选择第二个项目,此时项目间将自动画出连线。
最后,保存应用架构图。
注意:目前应用架构图只支持企业版用户。
— admin @ 3:28 下午 日
我们推出了Oracle服务的监控插件,帮助您实时了解到以下性能指标:
并发性能(req/s),统计毎秒逻辑读的次数;
IO性能,统计每秒IOPS,MBPS及物理读,物理写的次数;
内存进程,统计session,内存及进程数;
表空间,统计Oracle表空间的使用情况;
Top Sql,统计Oracle在逻辑读,消耗时间,cpu时间的前十条sql语句;
Oracle服务的监控还支持自定义报警,能够针对逻辑读,IOPS,MBPS等设置指标告警阀值。
注意:目前只支持Oracle 10及11的监控。
如果您已经在使用监控宝,那么创建Oracle监控项目非常简单,通过以下连接可以快速创建:
/service_task_create_step2.php?task_type=orcale
如果您尚未注册监控宝,请通过以下连接快速注册:
注:Orcale监控只能通过采集器方式创建项目。使用Orcale插件需要的运行环境有:
采集器所在机器必须装有sqlplus,并且此机器具有能通过sqlplus连接目标Oracle的权限。
创建Oracle项目时需要用户提供一个Oracle帐号及连接服务名。此帐号的权限需求有:对系统表dba_tablespace_usage_metrics的查询权限,能执行dbms_workload_repository.modify_snapshot_settings操作修改awr的快照生成频率(此需求是因为要保证awr的生成频率和项目的监控频率一致)。
如果是linux环境,给root添加oracle的全局变量 source $HOME/.bash_profile
性能图表一览
以下其中一部分Oracle性能监控图表,它们的含义以及涉及到的性能优化建议,我们会在随后尽快完善。
并发性能:
内存进程:
空间统计:
类归于: , — admin @ 5:35 下午 日
运行采集器
通过 这篇文章我们了解也如何创建采集器、安装插件、创建具体的插件任务,然后我们下面就具体介绍怎么在windows系统下运行采集器:
一、运行环境的要求
采集器需要Python环境(因为我们的采集器是python开发的),目前监控宝完全支持Python的2.4/2.6/2.7/3.2版本。
关于版本建议使用2.6或者2.7
若使用python2.4时,需要装hashlib、ctypes、simplejson内库
http://pypi.python.org/pypi/hashlib
http://pypi.python.org/pypi/ctypes
http://pypi.python.org/packages/source/s/simplejson/simplejson-1.1.tar.gz
2、跟据您需要做的监测任务,需要对python添加相应的扩展,如:
若要使用mysql性能监控,需要安装Python的MySQLdb扩展件; 若要使用redis性能监控,需要安装Python的
redis module扩展件
3、跟据您需要做的监测任务,需要在运行采集器的机器安装对应的客户端,如:
若要使用服务器性能监控,需要安装net-snmp;
centos/rhel下安装:
yum -y net-snmp-utils
ubuntu下安装:
apt-get install snmp snmpd snmp-mibs-downloader
windows下安装:
http://jaist.dl.sourceforge.net/project/net-snmp/net-snmp%20binaries/5.6.1.1-binaries/
net-snmp-5.6.1.1.x86.exe
可以去到上述地址下载相应的snmpwalk.exe安装包,如果是32位系统就下载32位安装包就好,
如果以上链接失效可以上官网:http://www.net-snmp.org/download.html 下载相应的exe的安装文件
二 、Python安装
实例安装Python —–Windows 2003
1、下载系统对应的Python版本
如:http://www.python.org/ftp/python/2.7.5/python-2.7.5.msi
2、双击后默认安装
3、配置PATH,将Python 运行目录加入PATH系统变量
1)右击我的电脑 选择“属性”
2)选择高级标签 ,单击环境变量
3)、找到系统变量 — Path ,编辑,在最后添加;C:\Python27\
(C:\Python27\ 是你python安装的路径)
4)、 开启一个CMD窗口,我们输入python 命令 如出现图中样式,说明python安装成功。
B 、LINUX安装python
因不同LINUX版本较多,请自行编译安装或者使用系统 自带python版本,安装完成之后请确认要shell窗口下可以正常运行python命令如下:
三、下载对应操作系统的采集器程序-示例。(目前支持Linux和Windows)
四、运行采集器示例
运行采集器 实例— windows 2003
1、解压采集器代码, 解压后会出现jkb_agent为名字的文件夹,进入到这个文件夹
2、下面介绍windows版的采集器用户,建议把采集器安装成windows服务来运行,具体步骤:
特别提醒:******若采集器使用IIS插件来监控IIS(因为IIS插件使用logman命令读取IIS状态信息,读取过程会调用到IIS的服务,所以要开放IIS服务的交互权限),请把名为ASP.NET State Service 的服务,修改属性,在登录选择页,选择“本地系统帐户”并勾“选允许服务与桌面交互”)*****
(1)下载python版相应的pywin32
注意:下载时一定要选择python版本和系统位数的下载包。如python2.7,系统64位的就选择:,如果python是其他版本就选择对应python版本的对应位数的安装包下载
安装完成后,在你的python安装程序中就会出现Python Win:
(2)安装pywin32后,进入到采集器程序解压目录(jkb_agen),运行serviceInstall.bat (这个脚本既帮你安装了服务,同时也帮你启动了服务),成功后在windows服务列表中会出现名为JKBAgentService的服务,这是采集器的服务。你可以打开管理工具——&服务,找到JKBAgentService,如下图所示:
注意:运行serviceInstall.bat 前确保此采集器没有其他采集器已经在此机器上安装了服务,并且此采集器没有以cmd窗口方式运行。
(3)一台机器只能有一个采集器以服务方式来运行
(4)在采集器程序解压的目录jkb_agen下有和采集器服务相应的操作脚本(windows版特有):
serviceInstall.bat(安装并启动服务) ,serviceStart.bat (启动服务),serviceStop.bat (暂停服务),serviceUnstall.bat (停止服务并删除服务)
— admin @ 3:09 下午 日
我们推出了IIS服务的监控插件,帮助您实时了解到以下性能指标:
请求频率(req/s),IIS服务器整体的被请求频率;
站点响应时间(ms),IIS服务器各应用请求响应时间;
站点数据发送率(Byte/s),IIS服务器各应用的数据发送率;
请求状态统计,通过日志分析得出应用的请求状态。
响应时间(ms),IIS服务器整体的请求响应时间;
站点请求频率(req/s),IIS服务器各应用的被请求频率;
IIS服务的监控还支持自定义报警,能够针对响应时间,请求频率设置指标告警阀值。
注意:目前我们支持IIS 7.0和IIS 6.0的监控。
如果您已经在使用监控宝,那么创建IIS监控项目非常简单,通过以下连接可以快速创建:
/service_task_create_step2.php?task_type=iis
如果您尚未注册监控宝,请通过以下连接快速注册:
任务创建:
1、IIS服务性能监控功能必须使用采集器,如何运行采集器:
创建采集器及添加插件任务:
注:windows版的采集器用户,建议把采集器安装成windows服务来运行,具体步骤:
(1)进入服务列表(开始-&运行-&services.msc),请把名为ASP.NET State Service 的服务,修改属性,在登录选择页,选择“本地系统帐户”并勾“选允许服务与桌面交互”
(2) 下载python版相应的pywin32
注意:下载时一定要选择python版本和系统位数的下载包。如python2.7,系统64位的就选择:,如果python是其他版本就选择对应python版本的对应位数的安装包下载
安装完成后,在你的python安装程序中就会出现Python Win:
(3)安装pywin32后,进入到采集器程序解压目录(jkb_agen),运行serviceInstall.bat (这个脚本既帮你安装了服务,同时也帮你启动了服务),成功后在windows服务列表中会出现名为JKBAgentService的服务,这是采集器的服务。你可以打开管理工具——&服务,找到JKBAgentService,如下图所示:
注意:运行serviceInstall.bat 前确保此采集器没有其他采集器已经在此机器上安装了服务,并且此采集器没有以cmd窗口方式运行。
(4)一台机器只能有一个采集器以服务方式来运行
(5)在采集器程序解压的目录jkb_agen下有和采集器服务相应的操作脚本(windows版特有):
serviceInstall.bat(安装并启动服务) ,serviceStart.bat (启动服务),serviceStop.bat (暂停服务),serviceUnstall.bat (停止服务并删除服务)
2、填写监控信息,主要填写IIS服务器日志路径和选择对应的采集器。示例:
性能图表一览
以下其中一部分IIS性能监控图表,它们的含义以及涉及到的性能优化建议,我们会在随后尽快完善。
请求频率(req/s)
响应时间(ms)
站点响应时间(ms)
站点请求频率(req/s)
站点数据发送率(Byte/s)
请求状态统计
2016年五月
9101112131415
16171819202122
23242526272829Nagios是一款开源软件,能有效监控 Windows 、Linux、VMware 和 Unix 主机状态,交换机、路由器等网络设置等。当监控出异常时提醒系统管理员,当异常恢复时也会通知。Nagios提供一个基于浏览器的web界面,方便管理人员查看系统的运行状态,网络状态、服务状态、日志信息,以及其他异常现象。
朋友们如果觉得麻烦,可以试试OneAlert一键集成nagios,轻松实现微信、电话、邮件、短信、APP的告警通知。
说明:安装机器为CentOS系统
2.1安装依赖包
由于Nagios提供了Web界面,因此需要安装Apache;由于配置Web界面需要PHP模块支持,所以需要安装PHP,还需要其他插件。
sudo yum install httpd php php-cli gcc glibc glibc-common gd gd-devel net-snmp
2.2创建用户和分组
sudo useradd -m nagios
sudo passwd nagios
sudo groupadd nagcmd
sudo usermod -a -G nagcmd nagios
#添加用户到分组
2.3安装Nagios
wget http:
tar xzf nagios-4.0.8.tar.gz
cd nagios-4.0.8
sudo ./configure --with-command-group=nagcmd
sudo make all
sudo make install
sudo make install-init
sudo make install-config
sudo make install-commandmode安装 Web界面
sudo make install-webconf
为web界面创建登录账号
sudo htpasswd -c /usr/local/nagios/etc/htpasswd.users nagiosadmin
其中nagiosadmin为账号名可更改,同时会提示添加密码。重启Apache服务
sudo service httpd restart
Nagios 可执行程序所在目录
Nagios 配置文件目录
Nagios cgi 文件所在目录, 也就是执行外部 命令所需要文件所在的目录
Nagios 网页存放路径
Nagios 外部插件存放目录
Nagios 日志文件、Lock 等文件所在的目录
var/archives
agios 日志自动归档目录
用来存放外部命令文件的目录
2.4安装plugins
安装tar xzf
sudo ./configure --with-nagios-user=nagios --with-nagios-group=nagios sudo make sudo make install
默认安装目录:/usr/lib64/nagios/plugins/安装完毕,web界面
3. 基本配置
3.1 配置文件列表配置文件作用
控制CGI访问的配置文件
nagios.cfg
Nagios的主配置文件
resource.cfg
变量定义文件,在此定义的变量,用于其它配置文件中使用,如$USER1$ & & & & & & & & & & &
objects为目录,内部含有大量的配置文件
objects/command.cfg &
命令定义配置文件
objects/contacts.cfg
联系人和联系人分组配置文件
objects/localhost.cfg
定义监控本机的配置文件
objects/printer.cfg
监控打印机的配置文件,默认不启用此文件
objects/switch.cfg & & &&
监控路由器的配置文件,默认不启用此文件
objects/templates.cfg
定义主机和服务的配置文件
objects/timeperiods.cfg
定义监控时间段的配置文件
objects/windows.cfg
监控Windows机器的配置文件,默认没有启动此文件
Nagios 在配置方面非常灵活,默认的配置文件并不是必需的。可以使用这些默认的配置文件,也可以创建自己的配置文件,然后在主配置文件 nagios.cfg 中引用即可。
注:在以后修改配置文件后,可以利用以下命令行检测配置文件是否正确,可以根据错误提示修改
sudo /usr/local/nagios/bin/nagios -v /usr/local/nagios/etc/nagios.cfg
&修改完配置文件后web界面不会立马修改,需要重新加载、启动nagios服务。
sudo service nagios reload
sudo service nagios restart
3.2 命令配置文件
文件名称:commands.cfg文件定义格式:
define command{
command_name
command_line
例如,查看本地负载的命令
# 'check_local_load' command definition
define command{
command_name
check_local_load
command_line
$USER1$/check_load -w $ARG1$ -c $ARG2$
其中,变量$USER1$在resource.cfg中定义
# Sets $USER1$ to be the path to the plugins
$USER1$=/usr/local/nagios/libexec
$USER1$中自带很多可执行的文件,可在命令行使用-v,查看具体的用法,这里$ARG1是发出警告(w)的条件,$ARG2是发出严重警告(c)的条件。可以用命令执行,命令执行,如
[master@usr]$ /usr/local/nagios/libexec/check_load -w 5.0,4.0,3.0
-c 10.0,6.0,4.0
OK - load average: 0.00, 0.01, 0.05|load1=0.000;5.000;10.000;0; load5=0.010;4.000;6.000;0; load15=0.050;3.000;4.000;0;
3.3 监控本地主机
确认nagios.cfg中有对localhoast.cfg文件的引用
# Definitions for monitoring the local (Linux) host
cfg_file=/usr/local/nagios/etc/objects/localhost.cfg
localhost.cfg自带了对HTTP、ROOTPartition、SSH等服务的定义。在localhost.cfg定义主机
define host{
linux-server
其中host_name是对被监控机器的名称,alias是被监控机器名称的别称,address是被监控机器的ip(127.0.0.1表示本地机器),use指明的是被监控机器继承的模板(定义模板的位置在templates.cfg,具体含义参考报警部分)。
然后在localhost.cfg里完成对服务(service)的定义
define service{
local-service
service_description
check_command
check_local_disk!20%!10%!/
其中,use指被监控机器集成的服务模板(定义模板的位置在templates.cfg,具体含义参考报警部分),host_name指主机名,与上面定义的host_name所指含义相同,service_description指要显示在web界面的内容,check_command指明要执行的命令名称(命令定义的位置是commands.cfg),示例中的参数20%表示,磁盘剩余空间少于20%($ARG1)时开始报警,10%($ARG2$)表示,磁盘剩余空间少于10)时开始报警。对本机其他的监控的配置一样。配置完成后可以在浏览器上浏览效果(地址:部署nagios所在机器的ip/nagios)监控主机页面
监控服务页面
3.4 监控远程Linux/UNIX主机
监控远程的Linux/UNIX由两部分组成:运行在监控主机上的check_nrpe,运行在被监控主机上的NRPE守护进程。其中check_nrpe不是nagios自带的可执行文件,是安装plugins时带的可执行文件(位置在:&/usr/lib64/nagios/plugins/)。当监控远程的Linux/UNIX时,工作流程如下:
nagios运行check_nrpe这个插件,并告诉它要执行什么命令
check_nrpe连接到被监控端的NRPE守护进程,告诉它命令
被监控端的NRPE守护进程执行具体的操作
被监控端的NRPE守护进程把执行的结果返回给Nagios做后处理
被监控端的插件安装与配置
CentOS系统
yum install epel-release
yum install nrpe nagios-plugins-all openssl
Debian/Ubuntu系统
apt-get install epel-release
sudo apt-get install nagios-nrpe-server nagios-plugins
安装完后进行配置打开/etc/nagios/nrpe.cfg文件,在allowed_hosts后面添加上监控机器的ip
## Find the following line and add the Nagios server IP ##
allowed_hosts=127.0.0.1 192.168.1.150
开启NRPE服务CentOS系统
systemctl start nrpe
chkconfig nrpe on
Debian/Ubuntu系统
sudo /etc/init.d/nagios-nrpe-server restart
回到监控主机,新建目录servers
sudo mkdir /usr/local/nagios/etc/servers
创建监控远程Linux/UNIX主机的脚本
sudo touch /usr/local/nagios/etc/servers/clients.cfg
在nagios.cfg中添加上目录servers,这样目录中的文件都会被引入到监控中来。
cfg_dir=/usr/local/nagios/etc/servers
以&监控远程Linux/UNIX主机的CPU负载&为例被监控端进入目录cd /etc/nagios/nrpe.cfg添加命令行:
command[check_load]=/usr/lib/nagios/plugins/check_load -w 15,10,5 -c 30,25,20修改后重启服务
service nagios-nrpe-server restart
监控端打开servers/clients.cfg文件定义主机
define host{
linux-server
10.61.88.23
10.61.88.23
10.61.88.23
define service {
generic-service,srv-pnp
10.61.88.23
service_description
check_command
check_nrpe!check_load
notifications_enabled
其中check_command中check_nrpe!后面的命令check_load对应被监控端的command[check_load]对应的命令。
监控远程windows
nagios对windows进行监控需要在被监控端安装NSClient,NSClient++来监控windows主机有三种方式:check_nt、check_nrpe、nsca。check_nt自带很多功能,可以完成很多基本的需求,但是扩展性差;check_nrpe可以通过执行自己定义的脚本做到很好地扩展。为了满足自己的需求,可以以上几种方式结合使用。在objects目录下创建文件windows.cfg,添加主机和服务。
添加主机和服务
define host{
windows-server
My Windows Server
192.168.0.5
#监控 windows 主机的开机运作时间
define service{
generic-service
service_description
check_command
check_nt!UPTIME
#监控 windows 主机的内存使用状况
define service{
generic-service
service_description
Memory Usage
check_command
check_nt!MEMUSE!-w 80 -c 90
#内存使用到达80%则warn,到达90%则Critical
check_nrpe
原理使用check_nrpe监控windows的原理与监控linux主机的原理一致,这样可以根据特定的需求自己写脚本。以监控某个进程是否运行为例编辑NSClient配置文件NSC.ini,去掉以下几行前面的&;&号(去掉注释,使其生效)
NRPEListener.dll
script_dir=scripts\
CheckExternalScripts.dll
在NSClient安装目录下的scripts文件夹下,新建一个check_run.bat批处理文件,如下
tasklist |find "%1" &NUL
IF ERRORLEVEL 1 GOTO err
IF ERRORLEVEL 0 GOTO ok
echo CRITICAL: Process does not exist
echo OK: The process of normal
说明:脚本的退出值与nagios的报警提示对应关系为:0--正常,1--警告,2--严重警告在NSC.ini文件中[External Scripts]下面添加如下行:
check_run=scripts\check_run.bat
chrome.exe
重启NSClinet可以在被监控端check_nrpe所在的目录(CentOs默认的安装目录为:/usr/lib64/nagios/plugins/)
./check_nrpe -H hostip -c check_run
注:-H后写刚才脚本所在的机器,-c后写命令,这里对应配置文件中的check_run
如果结果与预期的一致,那么就可以继续配置监控端了
配置监控端修改commands.cfg,增加命令
define command{
command_name
command_line
/usr/lib64/nagios/plugins/check_nrpe -H yourip -c check_run
修改windows.cfg,增加服务
define service{
generic-service-urgent,srv-pnp
要展示信息的机器的ip
service_description
check_fileexistspan
check_command
4.1 报警配置文件
修改联系人
配置文件是contacts.cfg.联系人定义方式为:
define contact{
contact_name
nagi 用户名称
Nagios A 用户别称
****@****修改为需要通知的邮箱
&该contact继承了templates.cfg中的genetic-contact,如下
define contact{
generic- The name of this contact template
service_notification_period
24x7 service notifications can be sent anytime
host_notification_period
24x7 host notifications can be sent anytime
service_notification_options
w,u,c,r,f, send notifications for all service states, flapping events, and scheduled downtime events
host_notification_options
d,u,r,f, send notifications for all host states, flapping events, and scheduled downtime events
service_notification_commands
notify-service-by- send service notifications via email
host_notification_commands
notify-host-by- send host notifications via email
DONT REGISTER THIS DEFINITION - ITS NOT A REAL CONTACT, JUST A TEMPLATE!
&,host_notification_commands指定的方式为notify-host-by-email,如果是微信或短信等其他方式,用逗号隔开写在后面即可。其中命令notify-host-by-email的定义在commands.cfg中默认已定义,如下
# 'notify-host-by-email' command definition
define command{
command_name
notify-host-by-email
command_line
/usr/bin/printf "%b" "***** Nagios *****\n\nNotification Type: $NOTIFICATIONTYPE$\nHost: $HOSTNAME$\nState: $HOSTSTATE$\nAddress: $HOSTADDRESS$\nInfo: $HOSTOUTPUT$\n\nDate/Time: $LONGDATETIME$\n" | /usr/bin/mail -s "** $NOTIFICATIONTYPE$ Host Alert: $HOSTNAME$ is $HOSTSTATE$ **" $CONTACTEMAIL$
联系人分组定义方式为:
define contactgroup{
contactgroup_name
Nagios Administrators
这里填写刚才定义的contact_name
4.2 修改报警时间周期
define host{
linux-server
server_10.61.91.37
server_10.61.91.37
contact_group这里添加报警组名称(上面刚定义的)
}要使主机或服务能够发邮件,必须在定义主机或服务时添加说明,以服务为例。修改localhost.cfg中本机的修改。这样主机出现异常时会发送异常到报警组,报警组把异常分配给组里的成员,然后成员按着自己预先设定的报警方式进行报警。主机继承了linux-server模板,模板的定义在templates.cfg文件,文件中存在着主机和服务的继承关系,可以根据需要自己定制参数,以linux-server模板为例:
define host{
linux- 主机模板名称
generic- 继承通用模板
check_period
24x7 监控的时间段为一周七天,每天24小时,具体定义详见timeperiods.cfg
check_interval
5 对主机每5分钟检测一次(注:这里的数值单位默认为分钟)
retry_interval
1 重试检测时间为1分钟
max_check_attempts
nagios对主机的最大检查次数,即nagios在检查发现某主机异常时,并不马上下定论
check_command
check-host-指定检查主机状态的命令,其中&check-host-alive&在commands.cfg文件中定义
notification_period
主机故障时,发送通知的时间范围,其中&workhours&在timeperiods.cfg中进行了定义;
notification_interval
30 故障出现,没有修复,每30分钟再发一次告警
notification_options
d,u, 定义主机在什么状态下可以发送通知给使用者,d即down,表示宕机状态;
0指明这非真正主机,这只是模板而已
}注:这里的时间是时间片的含义,定义在nagios.cfg中command_check_interval=60,默认单位是s&。30即30*60s
4.3 邮件报警
上面是以邮件报警为例说明的,但是前提是系统可以往外发邮件,配置如下(以CentOs为例)打开/etc/mail.rc文件添加其中set from=[发送人邮箱地址]set smtp=[smtp服务器地址]set smtp-auth-user=[邮箱用户名]set smtp-auth-password=[邮箱密码]set smtp-auth=login测试:mail -s [邮件主题] [邮件地址] 回车,然后输入邮件内容,最后按&Ctrl + D&。如果发送成功表名配置成功。
4.4 微信、短信报警
110云监控&Nagios告警集成&利用Nagios调用Python程序控制微信公众平台发布报警信&
完成了以上的配置,已经完成了nagios的基本配置,但是当有多个机器时,所有的机器显示在一起会显得很乱,并且和自己无关的主机也会对自己报警。为了作区分可以对主机和服务进行分组,这样管理人员就可以只关注自己管理的主机和服务。
5.1 主机分组
& 定义分组的位置放哪都行,只要引入到nagios.cfg中即可,为了方便找,这里把分组放到localhost.cfg和windows.cfg里。
define hostgroup{
hostgroup_name
linux- The name of the hostgroup
Linux S Long name of the group
server_10.61.91.37,172.16.41.211,10.61.88.23 ; 主机名
}点击web界面左边导航条中主机组的表格,分组示例
5.2 服务分组
define servicegroup{
servicegroup_name
dbservices
Database Services
进程CPU与内存,10.61.88.23,监控端口状态 ;这里写service中的service_description
点击web界面左边导航条中服务组的表格,分组示例
6. 界面美化
可以根据自己的需求对web界面的显示选项进行定制和修改。对左边导航条的修改文件是/usr/local/nagios/share/side.php修改后,需要重新加载、启动nagios。简易修改效果如下:
6.2 pnp4nagios插件
nagios自带图表分析功能,但是不美观,可以利用插件pnp4nagios,它对进行检测的主机和服务进行统计,管理人员可以根据统计报表进行分析、改善。效果图
8. 维护备忘
邮箱发件人设置:/etc/mail.rc
配置文件检查:sudo /usr/local/nagios/bin/nagios -v /usr/local/nagios/etc/nagios.cfg
重新加载:sudo service nagios reload & & &sudo service nagios restart
监控远程Linux
sudo useradd -m nagios
sudo passwd nagios
安装nagios-plungins:&sudo apt-get install nagios-nrpe-server nagios-plugins
配置文件地址:/etc/nagios/nrpe.cfg
插件所在地址:/usr/lib/nagios/plugins &(或&/usr/lib64/nagios/plugins/)
添加可以监控的机器:
/etc/nagios/nrpe.cfg
增加:allowed_hosts=127.0.0.1 10.61.73.49
(server的ip)
增加具体命令:command[check_cpu_proc]=
修改后重新启动:sudo service nagios-nrpe-server restart
监控远程Windows
cd&/usr/local/nagios/libexec/
查看是否正常工作:
./check_nt -H 172.16.41.84 -p 12489 -v UPTIME & & (12489为默认端口)
阅读(...) 评论()

我要回帖

更多关于 ecshop详细描述空白 的文章

 

随机推荐