Nagios und unregelmaessige Timeouts von NRPE

bitmuncher

Senior-Nerd
Ich habe hier ein ziemlich seltsames Problem mit NRPE und Nagios. In dem Netzwerk, das ich ja gerade grossteils uebernehme, war bisher nur ein rudimentaeres Nagios am Laufen und dafuer viele andere Tools. Daher habe ich beschlossen es komplett neu aufzusetzen und jedem Server ein NRPE zu verpassen, damit ich Daten wie Anzahl eingeloggter User, HD-Space usw. monitoren kann um so verschiedene andere Monitoring-Tools abschaffen zu koennen.

Soweit funktioniert das auch alles bestens, nur bekomme ich in unregelmaessigen Abstaenden immer wieder Timeouts einzelner NRPEs. In den Logs tauchen dann immer Meldungen folgender Art auf:

Code:
[1185279395] SERVICE ALERT: www3.domain.tld;USERS;CRITICAL;SOFT;1;CHECK_NRPE: Socket timeout after 10 seconds.

Betroffen sind absurderweise nur die Webserver, waehrend die Fileserver keine Probleme dieser Art machen. Allerdings sind die Webserver auch nicht anders an den Monitoring-Rechner angebunden als der Rest der Server-Umgebung.

Die nrpe.cfg ist auf den Webservern absolut identisch.

Code:
pid_file=/opt/nagios/var/nrpe.pid
server_port=5666
server_address=0.0.0.0
nrpe_user=nagios
nrpe_group=nagios
allowed_hosts=127.0.0.1,10.0.61.162
dont_blame_nrpe=0
debug=0
command_timeout=60
command[check_users]=/opt/nagios/libexec/check_users -w 5 -c 10
command[check_load]=/opt/nagios/libexec/check_load -w 30,20,15 -c 60,50,40
command[check_disk_root]=/opt/nagios/libexec/check_disk -w 20 -c 10 -p /
command[check_disk_home]=/opt/nagios/libexec/check_disk -w 20 -c 10 -p /home
command[check_disk_var]=/opt/nagios/libexec/check_disk -w 20 -c 10 -p /var
command[check_disk_tmp]=/opt/nagios/libexec/check_disk -w 20 -c 10 -p /tmp
command[check_zombie_procs]=/opt/nagios/libexec/check_procs -w 5 -c 10 -s Z
command[check_total_procs]=/opt/nagios/libexec/check_procs -w 170 -c 200

Fuer das Monitoring werden die Interfaces genutzt,die nur im RZ erreichbar sind, da die Webserver fuer den externen Zugriff hinter einem Loadbalancer stehen.

Am haeufigsten von den Timeouts ist die Abfrage der Zombie-Prozesse betroffen. Rufe ich das check_nrpe aber per Hand auf, gibt es keinerlei Probleme. Die Service-Definitionen sind ueblicherweise in folgender Art aufgebaut:

Code:
define service {
        use                             generic-service
        host_name                       www3.domain.tld
        service_description             ZOMBIES
        is_volatile                     0
        check_period                    24x7
        max_check_attempts              3
        normal_check_interval           5
        retry_check_interval            3
        contact_groups                  admins
        notification_interval           0
        notification_period             24x7
        notification_options            u,c
        check_command                   check_nrpe_1arg!check_zombie_procs
}

Falls irgendwer eine Idee hat woran es liegen koennte, immer her damit. :) Langsam bin ich naemlich echt ratlos, vor allem da das Problem auch nur ab und an auftritt und keine erkennbaren Ursachen hat. Falls ihr noch weitere Infos braucht, dann einfach nachfragen. Die eingesetzten Programmversionen sind derzeit:

- Nagios 2.9
- Nagios-Plugins 1.4.9
- NRPE 2.8.1

also die aktuellsten, die derzeit verfuegbar sind. Alles ist aus dem Source installiert und alle Rechner laufen mit Debian Etch.
 
Hallo Bitmuncher,

dein Post ist zwar schon ein Weilchen alt, aber seit kurzem kämpfe ich auch mit ähnlichen Probleme mit NRPE. Hast du deine Sorgen lösen können?


LG

Marvin
 
Zurück
Oben