Hackerboard Wiki HaboBlog
Hackerboard bei Facebook Hackerboard bei Google+ Hackerboard bei Twitter

[HaBo]

 
Applikationen Probleme mit Anwendungsprogrammen aller Art gehören hier hin.

Nagios und unregelmaessige Timeouts von NRPE

Diskussion: Nagios und unregelmaessige Timeouts von NRPE im Forum Applikationen, in der Kategorie Software Home; Anzeige Ich habe hier ein ziemlich seltsames Problem mit NRPE und Nagios. In dem Netzwerk, das ich ja gerade grossteils ...

Antwort
Alt 24.07.07, 15:36   #1 (permalink)
Moderator
 
Benutzerbild von bitmuncher
 
Registriert seit: 30.09.06
bitmuncher Quadcorebitmuncher Quadcorebitmuncher Quadcorebitmuncher Quadcorebitmuncher Quadcorebitmuncher Quadcore
Likes: 441
Standard Nagios und unregelmaessige Timeouts von NRPE

Anzeige

Ich habe hier ein ziemlich seltsames Problem mit NRPE und Nagios. In dem Netzwerk, das ich ja gerade grossteils uebernehme, war bisher nur ein rudimentaeres Nagios am Laufen und dafuer viele andere Tools. Daher habe ich beschlossen es komplett neu aufzusetzen und jedem Server ein NRPE zu verpassen, damit ich Daten wie Anzahl eingeloggter User, HD-Space usw. monitoren kann um so verschiedene andere Monitoring-Tools abschaffen zu koennen.

Soweit funktioniert das auch alles bestens, nur bekomme ich in unregelmaessigen Abstaenden immer wieder Timeouts einzelner NRPEs. In den Logs tauchen dann immer Meldungen folgender Art auf:

Code:
[1185279395] SERVICE ALERT: www3.domain.tld;USERS;CRITICAL;SOFT;1;CHECK_NRPE: Socket timeout after 10 seconds.
Betroffen sind absurderweise nur die Webserver, waehrend die Fileserver keine Probleme dieser Art machen. Allerdings sind die Webserver auch nicht anders an den Monitoring-Rechner angebunden als der Rest der Server-Umgebung.

Die nrpe.cfg ist auf den Webservern absolut identisch.

Code:
pid_file=/opt/nagios/var/nrpe.pid
server_port=5666
server_address=0.0.0.0
nrpe_user=nagios
nrpe_group=nagios
allowed_hosts=127.0.0.1,10.0.61.162
dont_blame_nrpe=0
debug=0
command_timeout=60
command[check_users]=/opt/nagios/libexec/check_users -w 5 -c 10
command[check_load]=/opt/nagios/libexec/check_load -w 30,20,15 -c 60,50,40
command[check_disk_root]=/opt/nagios/libexec/check_disk -w 20 -c 10 -p /
command[check_disk_home]=/opt/nagios/libexec/check_disk -w 20 -c 10 -p /home
command[check_disk_var]=/opt/nagios/libexec/check_disk -w 20 -c 10 -p /var
command[check_disk_tmp]=/opt/nagios/libexec/check_disk -w 20 -c 10 -p /tmp
command[check_zombie_procs]=/opt/nagios/libexec/check_procs -w 5 -c 10 -s Z
command[check_total_procs]=/opt/nagios/libexec/check_procs -w 170 -c 200
Fuer das Monitoring werden die Interfaces genutzt,die nur im RZ erreichbar sind, da die Webserver fuer den externen Zugriff hinter einem Loadbalancer stehen.

Am haeufigsten von den Timeouts ist die Abfrage der Zombie-Prozesse betroffen. Rufe ich das check_nrpe aber per Hand auf, gibt es keinerlei Probleme. Die Service-Definitionen sind ueblicherweise in folgender Art aufgebaut:

Code:
define service {
        use                             generic-service
        host_name                       www3.domain.tld
        service_description             ZOMBIES
        is_volatile                     0
        check_period                    24x7
        max_check_attempts              3
        normal_check_interval           5
        retry_check_interval            3
        contact_groups                  admins
        notification_interval           0
        notification_period             24x7
        notification_options            u,c
        check_command                   check_nrpe_1arg!check_zombie_procs
}
Falls irgendwer eine Idee hat woran es liegen koennte, immer her damit. :) Langsam bin ich naemlich echt ratlos, vor allem da das Problem auch nur ab und an auftritt und keine erkennbaren Ursachen hat. Falls ihr noch weitere Infos braucht, dann einfach nachfragen. Die eingesetzten Programmversionen sind derzeit:

- Nagios 2.9
- Nagios-Plugins 1.4.9
- NRPE 2.8.1

also die aktuellsten, die derzeit verfuegbar sind. Alles ist aus dem Source installiert und alle Rechner laufen mit Debian Etch.
__________________
Mein Blog - Mein Job - Diaspora

Der Ring uns zu knechten besteht aus 12 Sternen auf blauem Grund.

Neue Beiträge im Habo via Twitter - Das HaBo auf FB - Das HaBo bei G+
bitmuncher ist gerade online   Mit Zitat antworten
Antwort
   
- Anzeige -

Werbung ist gerade online    

[HaBo] » Software Home » Applikationen » Nagios und unregelmaessige Timeouts von NRPE
Themen-Optionen
Ansicht

Forumregeln
Es ist Ihnen nicht erlaubt, neue Themen zu verfassen.
Es ist Ihnen nicht erlaubt, auf Beiträge zu antworten.
Es ist Ihnen nicht erlaubt, Anhänge hochzuladen.
Es ist Ihnen nicht erlaubt, Ihre Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks sind aus
Pingbacks sind aus
Refbacks sind aus


Ähnliche Themen
Thema Autor Forum Antworten Letzter Beitrag
-Gelöst- Securepoint 2007nx...DNS extrem langsam(timeouts) gucky Network · LAN, WAN, Firewalls 0 14.05.08 09:17
Unregelmaessige Ausfaelle. f100d Hardware Probleme 4 10.01.07 22:58


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61