Archiwum

Posts Tagged ‘zabbix’

Zabbix, przebudzenie

07/12/2012 Komentarze wyłączone

Doszliśmy do najprzyjemniejszej części konfiguracji Zabbixa. Pliku konfiguracyjnego. Banał i popierdółka (po usunięciu komentarzy). Zmieniłem go w sporym stopniu zwłaszcza w zakresie panikarskiego podejścia do procedury ponawiana testu per item w przypadku pojawienia się błędu na teście (nie rozumiem dlaczego autorzy założyli, że jeśli test zwraca błąd to powtórzenie go w przedziale 1/4 czasu standardowego interwału między testami poprawi sytuację; najwyraźniej nigdy nie czytali o przygodach Puchatka).

Rada dla początkujących z tematem Housekeeping’u w Zabbixie:

Czytaj dalej…

Zabbix, rewolucje

04/12/2012 Komentarze wyłączone

Zabbix skompilowany (2.0.3). Serwery przygotowane. Plany na monitoring poczynione.

Instancja będzie monitorowała na wstępie +/- 1000 urządzeń i wykonywała sumarycznie ~80k testów indywidualnych (specyfika wdrożenia to testy dużej ilości różnorodnych urządzeń monitorowanych nieomal wyłącznie za pośrednictwem SNMP). Wielkości baz policzone dla założeń przechowywania danych typy ‚history’ przez 24 godziny a danych typu ‚trends’ przez 60 dni.

Po przygotowaniu pod serwer bazodanowy maszyny HP ProLiant DL360 G5 + 1xCPU (w planach x2), kontroler RAID (bateryjny, obsadzony), zapięty RAID 1+0, 32Gb RAM (polecam życzliwej uwadze różnice w dokumentacji HP, która ma problemy z zdecydowaniem ile pamięci można maksymalnie obsadzić w maszynie), przystępujemy do instalacji serwera bazodanowego.

Czytaj dalej…

Zabbix, pierwsza krew

21/11/2012 Komentarze wyłączone

Hasło ‚Nagios nam nie wystarcza’ uzasadniane słowami ‚nie ma tam wykresów dla zarządu’ to zmora większości technicznych odpowiedzialnych za systemy monitorujące. Chwilę potem techniczny usłyszy ‚że istnieje taki system, który spełnia sny – system nazywa się Zabbix’. Na etapie testów wszystko działa perfekcyjnie. Obliczenia, prognozy, przepis na ciastko autorstwa twórców, to wszystko zachęca do zboczenia w stronę systemu statystycznego, który przy okazji umie wysłać powiadomienie, że coś jest nie tak.

Pierwszych 100 urządzeń i 4000 testów się nie zauważa. Kolejnych 100/4000 urządzeń/testów także nie. A potem, dzięki sprawnym palcom ekipy wpisującej budzicie się ze snu dysponując w systemie liczbą 800 urządzeń, 79000 testów, z martwym Zabbixem za sprawą serwera bazodanowego, który nie dał rady, bo właśnie zapierdala z prędkością jakiś 340/390 operacji (select/insert/delete/update) na sekundę i najpewniej albo zjadł pamięć, albo przestał się wyrabiać na IO – jakkolwiek – zabił wielką żabę na amen.

Czytaj dalej…