bitmuncher
Senior-Nerd
Ich habe hier ein ziemlich seltsames Problem mit NRPE und Nagios. In dem Netzwerk, das ich ja gerade grossteils uebernehme, war bisher nur ein rudimentaeres Nagios am Laufen und dafuer viele andere Tools. Daher habe ich beschlossen es komplett neu aufzusetzen und jedem Server ein NRPE zu verpassen, damit ich Daten wie Anzahl eingeloggter User, HD-Space usw. monitoren kann um so verschiedene andere Monitoring-Tools abschaffen zu koennen.
Soweit funktioniert das auch alles bestens, nur bekomme ich in unregelmaessigen Abstaenden immer wieder Timeouts einzelner NRPEs. In den Logs tauchen dann immer Meldungen folgender Art auf:
Betroffen sind absurderweise nur die Webserver, waehrend die Fileserver keine Probleme dieser Art machen. Allerdings sind die Webserver auch nicht anders an den Monitoring-Rechner angebunden als der Rest der Server-Umgebung.
Die nrpe.cfg ist auf den Webservern absolut identisch.
Fuer das Monitoring werden die Interfaces genutzt,die nur im RZ erreichbar sind, da die Webserver fuer den externen Zugriff hinter einem Loadbalancer stehen.
Am haeufigsten von den Timeouts ist die Abfrage der Zombie-Prozesse betroffen. Rufe ich das check_nrpe aber per Hand auf, gibt es keinerlei Probleme. Die Service-Definitionen sind ueblicherweise in folgender Art aufgebaut:
Falls irgendwer eine Idee hat woran es liegen koennte, immer her damit.
Langsam bin ich naemlich echt ratlos, vor allem da das Problem auch nur ab und an auftritt und keine erkennbaren Ursachen hat. Falls ihr noch weitere Infos braucht, dann einfach nachfragen. Die eingesetzten Programmversionen sind derzeit:
- Nagios 2.9
- Nagios-Plugins 1.4.9
- NRPE 2.8.1
also die aktuellsten, die derzeit verfuegbar sind. Alles ist aus dem Source installiert und alle Rechner laufen mit Debian Etch.
Soweit funktioniert das auch alles bestens, nur bekomme ich in unregelmaessigen Abstaenden immer wieder Timeouts einzelner NRPEs. In den Logs tauchen dann immer Meldungen folgender Art auf:
Code:
[1185279395] SERVICE ALERT: www3.domain.tld;USERS;CRITICAL;SOFT;1;CHECK_NRPE: Socket timeout after 10 seconds.
Betroffen sind absurderweise nur die Webserver, waehrend die Fileserver keine Probleme dieser Art machen. Allerdings sind die Webserver auch nicht anders an den Monitoring-Rechner angebunden als der Rest der Server-Umgebung.
Die nrpe.cfg ist auf den Webservern absolut identisch.
Code:
pid_file=/opt/nagios/var/nrpe.pid
server_port=5666
server_address=0.0.0.0
nrpe_user=nagios
nrpe_group=nagios
allowed_hosts=127.0.0.1,10.0.61.162
dont_blame_nrpe=0
debug=0
command_timeout=60
command[check_users]=/opt/nagios/libexec/check_users -w 5 -c 10
command[check_load]=/opt/nagios/libexec/check_load -w 30,20,15 -c 60,50,40
command[check_disk_root]=/opt/nagios/libexec/check_disk -w 20 -c 10 -p /
command[check_disk_home]=/opt/nagios/libexec/check_disk -w 20 -c 10 -p /home
command[check_disk_var]=/opt/nagios/libexec/check_disk -w 20 -c 10 -p /var
command[check_disk_tmp]=/opt/nagios/libexec/check_disk -w 20 -c 10 -p /tmp
command[check_zombie_procs]=/opt/nagios/libexec/check_procs -w 5 -c 10 -s Z
command[check_total_procs]=/opt/nagios/libexec/check_procs -w 170 -c 200
Fuer das Monitoring werden die Interfaces genutzt,die nur im RZ erreichbar sind, da die Webserver fuer den externen Zugriff hinter einem Loadbalancer stehen.
Am haeufigsten von den Timeouts ist die Abfrage der Zombie-Prozesse betroffen. Rufe ich das check_nrpe aber per Hand auf, gibt es keinerlei Probleme. Die Service-Definitionen sind ueblicherweise in folgender Art aufgebaut:
Code:
define service {
use generic-service
host_name www3.domain.tld
service_description ZOMBIES
is_volatile 0
check_period 24x7
max_check_attempts 3
normal_check_interval 5
retry_check_interval 3
contact_groups admins
notification_interval 0
notification_period 24x7
notification_options u,c
check_command check_nrpe_1arg!check_zombie_procs
}
Falls irgendwer eine Idee hat woran es liegen koennte, immer her damit.
- Nagios 2.9
- Nagios-Plugins 1.4.9
- NRPE 2.8.1
also die aktuellsten, die derzeit verfuegbar sind. Alles ist aus dem Source installiert und alle Rechner laufen mit Debian Etch.