Nagios. Un caso reale.
Nagios è un software Open Source (OSS) specializzato per il monitoraggio di sistemi informatici. Ogni dispositivo raggiungibile in rete, locale o remoto, può essere controllato per verificare stati di funzionamento e anomalie sia di macchine che di specifici servizi.
I meccanismi disponibili per accedere alle informazioni sono molteplici, dai più semplici, come un ping per verificare la raggiungibilità del sistema, a meccanismi standard e consolidati come consentito dal protocollo SNMP, a strumenti proprietari come WMI (Windows Management Instrumentation) di windows. Altri casi sono gestibili con meccanismi personalizzati ad hoc, anche se nella maggior parte selle situazioni non sono necessari.
Le informazioni raccolte sono raggruppabili in vari modi per rendere conveniente e di facile consultazione le informazioni raccolte. Le situazioni anomale sono facilmente evidenziabili e raggruppabili in avvisi o allarmi secondo parametri ampiamente personalizzabili.
Le irregolarità riscontrate sono registrate a log o trasmesse in vari modi agli amministratori di sistema.
Le immagini che seguono sono relative ad un caso reale, dove sono evidenziati allarmi generati da dispositivi.
Le figure si possono ingrandire cliccandole.
Nella prima figura i vari dispositivi raggruppati secondo le necessità dell’azienda.
Nella seguente lo stato di un gruppo
I dispositivi, gli host, sono raggruppabili un una struttura grafica che rappresenta quella reale dove è evidenziata la situazione in tempo reale, nell’esempio un alert dovuto ad un aumento di temperature di un UPS.
La storia degli eventi è consultabile in vari modi. Nella figura che segue è evidenziata una situazione dove si può riscontrare un problema, della durata di circa 6 minuti, su un router. Attraverso le informazioni di uptime è semplice capire che si tratta di un problema sul dispositivo e non di mancata raggiungibilità.
La situazione a medio e lungo termine è disponibile in modo facilmente consultabile attraverso i log do Nagios.