Utilizare Nagios pentru monitorizare si alertare site-uri

Teste SAM pentru care Nagios trimite notificari si escaladeaza alertele

Serviciu grid Teste SAM
CE APEL-pub-OPS, CE-host-cert-valid-OPS, CE-sft-caver-OPS, CE-sft-csh-OPS, CE-sft-job-OPS, CE-sft-lcg-rm-OPS, CE-sft-softver-OPS, org.egee.npm.CE
SE SRMv2-del-OPS, SRMv2-get-OPS, SRMv2-get-SURLs-OPS, SRMv2-gt-OPS, SRMv2-host-cert-valid-OPS, SRMv2-ls-OPS, SRMv2-ls-dir-OPS, SRMv2-put-OPS, org.egee.npm.SRM
MON RGMA-host-cert-valid-OPS, org.egee.npm.MON
site-BDII sBDII-performance-OPS, sBDII-sanity-OPS, org.egee.npm.Site-BDII

  • Doar pentru aceste teste SAM ce sunt monitorizate de catre Nagios, se vor trimite notificari administratorilor de site si eventual se va trece la escaladarea acestora si catre responsabilii de site, conform cu tabelul de mai jos
  • O parte din aceste teste sunt folosite de R-COD pentru a genera tickete pentru site-uri in cazul in care problema respectiva nu este rezolvata impreuna cu "1st Line Support".

Grupuri pentru care se trimit notificari

Site grid Grup site admin Grup responsabil site
RO-01-ICI /DC=RO/DC=RomanianGRID/O=ICI/CN=Alexandru Stanciu
/DC=RO/DC=RomanianGRID/O=ICI/CN=Stefan Preda
/C=RO/O=GridMOSI/OU=ICI/CN=Alexandru Stanciu
Gabriel.Neagu
RO-02-NIPNE /O=GRID-FR/C=RO/O=NIPNE/OU=DIC/CN=Serban Constantinescu
/C=DE/O=GermanGrid/OU=DESY/CN=Gabriel Stoicea
Mihnea.Dulea
RO-03-UPB /DC=RO/DC=RomanianGRID/O=UPB/CN=Alexandru Herisanu Nicolae.Tapus
NIHAM (RO-04-NIHAM) /O=GRID-FR/C=RO/O=NIPNE/OU=NIHAM/CN=Claudiu Cornel Schiaua
/C=IT/O=INFN/OU=Personal Certificate/L=Padova/CN=Cristina Aiftimiei
Mihai.Petrovici
RO-07-NIPNE /DC=RO/DC=RomanianGRID/O=IFIN-HH/CN=Mihai Ciubancan Mihnea.Dulea
RO-08-UVT /DC=RO/DC=RomanianGRID/O=UVT/CN=Silviu Panica Dana.Petcu
Viorel.Negru
RO-09-UTCN /DC=RO/DC=RomanianGRID/O=UTCluj/CN=Cristian Magherusan
/DC=RO/DC=RomanianGRID/O=UTCluj/CN=Andreea Laslo
Emil.Cebuc
RO-11-NIPNE /DC=RO/DC=RomanianGRID/O=People/O=IFIN-HH/CN=Eduard Pauna Mihnea.Dulea
RO-13-ISS /DC=RO/DC=RomanianGRID/O=ISS/CN=Adrian SEVCENCO
/DC=RO/DC=RomanianGRID/O=ISS/CN=Ionel STAN
Sorin.Zgura
RO-14-ITIM /DC=RO/DC=RomanianGRID/O=ITIM/CN=Felix Farcas
/DC=RO/DC=RomanianGRID/O=ITIM/CN=Radu Trusca
/DC=RO/DC=RomanianGRID/O=ITIM/CN=Felix Farcas
RO-15-NIPNE /DC=RO/DC=RomanianGRID/O=IFIN-HH/CN=MARIUS CIPRIAN ORLANDEA
/DC=RO/DC=RomanianGRID/O=IFIN-HH/CN=Laurentiu Dumitru
Mihai.Petrovici

  • Notificarile sunt trimise la un interval de 4 ore, in fiecare zi ( inclusiv in week-end ), intre orele 08:00 - 20:00
  • Notificarile sunt trimise pentru serviciile aflate in starea "Critical" si pentru host-urile aflate in starea "Down"
  • In cazul in care problema pentru care a fost trimisa notificarea nu este rezolvata, si in continuare Nagios detecteaza o eroare, dupa cea de a 5-a notificare a administratorilor de site se va trece la escaladarea notificarilor, urmand sa fie notificati si responsabilii de site, respectiv persoanele mentionate in tabelul de mai sus
  • Persoanele ale caror DN a fost trecut in tabelul de mai sus pot accesa Nagios aici: https://testbed004.grid.ici.ro/nagios
  • Administratorii de site pot executa comenzi Nagios exclusiv pentru site-ul in care sunt inregistrati drept contact

EGEE3 Web Utilities

Topic revision: r6 - 10 Nov 2009 - 11:48:01 - AlexandruStanciu
 
This site is powered by FoswikiCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Foswiki? Send feedback