The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Режим отображения отдельной подветви беседы [ Отслеживать ]

Оглавление

Выпуск системы мониторинга Zabbix 5.2, opennews (??), 27-Окт-20, (0) [смотреть все]

Сообщения [Сортировка по времени | RSS]


45. "Выпуск системы мониторинга Zabbix 5.2"  +1 +/
Сообщение от Вася (??), 28-Окт-20, 02:05 
Вы это с серьезным выражением лица пишите, да ?
Эти тонны писем когда грядка оборудования сломалась/ починилась, типа нормально...
Ответить | Правка | Наверх | Cообщить модератору

61. "Выпуск системы мониторинга Zabbix 5.2"  +/
Сообщение от пох. (?), 28-Окт-20, 09:45 
Насколько я понимаю, разработчики первоначального жабикса были э...как бы это помягче. Серверные админы мелкой лавки (мелкой, потому что крупная плясала бы от сервисов, а не от хостов). В нем и snmp-то появился к концу второй версии, и только к четвертой - такой что им стало можно пользоваться на самом деле. Говорит кое о чем, не так ли? Поэтому им вообще невдомек, что у, скажем, сетевого оборудования зависимости именно от "хостов", а не айтимов, от которых часто нужна хистори, но не триггеры (мне совсем неинтересно знать что порт 5/0/42 в дауне - это юзер выключил комп и домой пошел).

Они реально не понимают.

Приспосабливать жабикс к мониторингу именно сетей - очень печальное занятие, поверьте моему опыту.

Как жаль, что whatsup сдох, а замены так и не появилось.

Ответить | Правка | Наверх | Cообщить модератору

63. "Выпуск системы мониторинга Zabbix 5.2"  +/
Сообщение от Онаним (?), 28-Окт-20, 09:48 
5/0/42 в дауне - это плохо. Все неиспользуемый порты потушены, пользовательские порты промаркированы USER_CAN_BE_DOWN в дескрипшнах.
Ответить | Правка | Наверх | Cообщить модератору

65. "Выпуск системы мониторинга Zabbix 5.2"  –1 +/
Сообщение от Онаним (?), 28-Окт-20, 09:50 
Соответственно заббих читает дескрипшны и знает, какие порт имеет особенности. Каким-то портам например не разрешено работать не в 1G, каким-то разрешено только в 100M (иначе что-то переключили), и т.д, и т.п. Это если о портах.
Ответить | Правка | Наверх | Cообщить модератору

74. "Выпуск системы мониторинга Zabbix 5.2"  +/
Сообщение от пох. (?), 28-Окт-20, 10:29 
> 5/0/42 в дауне - это плохо

это нормально, в петропавловске-камчатском - полноч! Спать домой он пошел, и ноут с собой уволок.
Или вырубил десктоп. А может у него вообще отпуск.

Мне _вообще_ неинтересно получать информацию об изменении этого статуса. Вот падение аплинка - это повод накостылить обезьянку на местах. А это соседний 5/0/48, и на нем будет триггер.

При этом мне _может_ потребоваться иногда взглянуть на состояние ("пользователь жалуется, что интернет всьо - порт-то в апе?"), картинку в целом - "у нас что-то канал перегружен, это все равномерно взялись за работу, где-то аномалия, или какая-то часть машин что-то резко стала качать?" или "а вообще-то нормально что он _сейчас_ выключен - какой у этого порта в принципе use-pattern...а, ага, постоянно вкл-выкл, значит, проблема вряд ли в нем". То есть собирать какие-то метрики мы будем, но никаких автоматических выводов про них делать не будем, и "все красное" показывать тоже не будем.

Ответить | Правка | К родителю #63 | Наверх | Cообщить модератору

135. "Выпуск системы мониторинга Zabbix 5.2"  +/
Сообщение от Онаним (?), 01-Ноя-20, 09:48 
Ну мы так и делаем - на состояние порта можно взглянуть, даже если он в игноре. Просто триггер для него взлетать не будет.
Ответить | Правка | Наверх | Cообщить модератору

139. "Выпуск системы мониторинга Zabbix 5.2"  +/
Сообщение от пох. (?), 01-Ноя-20, 16:46 
Мне чаще было нужно не состояние, а внезапную флуктуацию загрузки сразу пачки портов, например, увидеть.

И это хорошо видно именно на общих скринах. Причем проблема скорее всего не имеет отношения к непосредственно сетевому железу - но она хорошо на нем видна (когда знаешь его нормальное состояние, причем именно в это день недели и в это время - вот для чего нам нужна история), а дальше уже можно по получившейся картинке сделать выводы, куда копать дальше. Иногда мне удавалось поймать проблему ДО того как срабатывал мониторинг сделанный на уровне бизнес-логики.

Или мы его и придумывали после разбора, новый.

То же самое, к примеру, с внезапной флуктуацией места на диске - она еще и близко не подошла к тревожным порогам, но видно что вот эти группы ВДРУГ начали активно место поджирать - "а не логи ли они пишут, и нет ли чего нехорошего в тех логах".

Или cpu load. Машинки нынче мощные - до критического состояния вообще никогда не дойдет. Но вот этот конкретный демон - явно сходит с ума. Один или все? Или как распределено? Опять же часто в логи потом можно уже и не смотреть, и так всепонятна.

Ответить | Правка | Наверх | Cообщить модератору

140. "Выпуск системы мониторинга Zabbix 5.2"  +/
Сообщение от Онаним (?), 01-Ноя-20, 17:15 
> И это хорошо видно именно на общих скринах.

Флуктуации загрузки портов без флуктуации загрузки аплинка обычно не бывает, последнюю и мониторим min/max.

> То же самое, к примеру, с внезапной флуктуацией места на диске

Угу, мониторим дельты для изменения. Диски, почтовые очереди. Если растёт быстро, алертим.

> Или cpu load. Машинки нынче мощные - до критического состояния вообще никогда

CPU load мониторим не только в %, но и по числу активных процессов. + количество зомбей.

В общем да, всё похоже делается. Только мы алерты пишем по новым ситуациям сразу, на графический мониторинг зоопарка ни у кого времени не хватит.

Ответить | Правка | Наверх | Cообщить модератору

141. "Выпуск системы мониторинга Zabbix 5.2"  +1 +/
Сообщение от пох. (?), 01-Ноя-20, 21:57 
> Флуктуации загрузки портов без флуктуации загрузки аплинка обычно не бывает, последнюю и
> мониторим min/max.

Ну вот она растет, письмо прислала - самое время пойти и посмотреть, откуда дровишки - и проще всего это увидеть просто в общем скрине по юзерпортам.

То ли случайность, то ли разгоняемся, "и, кстати, не на эту ли стойку 15 минут назад апдейты накатили?" Оно бы еще минут через пять, конечно, и так сработало и откатилось - но иногда эти пять минут решают.

> В общем да, всё похоже делается. Только мы алерты пишем по новым ситуациям сразу

ее ж для этого зафиксировать надо, ситуацию-то. А дальше уже думать - есть вероятность повторения, или хрен бы с ним, завтра в другом конце спагеттины что-то пошевелится.

Ответить | Правка | Наверх | Cообщить модератору

142. "Выпуск системы мониторинга Zabbix 5.2"  +1 +/
Сообщение от Онаним (?), 01-Ноя-20, 22:53 
[это не спагеттина, это солитёр :D]
Ответить | Правка | Наверх | Cообщить модератору

98. "Выпуск системы мониторинга Zabbix 5.2"  +/
Сообщение от RHEL Fan (?), 28-Окт-20, 17:33 
А что там такого с snmp в 4 версии поменялось? Я от 3 особых отличий не вижу.
Ответить | Правка | К родителю #61 | Наверх | Cообщить модератору

100. "Выпуск системы мониторинга Zabbix 5.2"  +/
Сообщение от пох. (?), 28-Окт-20, 17:42 
где-то между 3 и 4 стало можно по настоящему пользоваться snmp3 - до того он был недоделанный, то не авторизуешься, доступным железу способом, то не прочитаешь.

Впрочем, на фоне первых версий где его вообще не было, и агент запускал ручные скрипты, читающие счетчик из файла, это были еще цветочки.

Ответить | Правка | Наверх | Cообщить модератору

62. "Выпуск системы мониторинга Zabbix 5.2"  +/
Сообщение от Онаним (?), 28-Окт-20, 09:47 
> Вы это с серьезным выражением лица пишите, да ?
> Эти тонны писем когда грядка оборудования сломалась/ починилась, типа нормально...

Не надо тонны писем. Расставьте теги и сделайте action+HTTP, далее API и уже ситуативное письмо, и то если необходимо. У нас допустим сделан визуальный мониторинг с оповещением, письма вторичны и нужны только при разборе ситуаций.

Ответить | Правка | К родителю #45 | Наверх | Cообщить модератору

73. "Выпуск системы мониторинга Zabbix 5.2"  +/
Сообщение от пох. (?), 28-Окт-20, 10:22 
> У нас допустим сделан визуальный мониторинг с оповещением

это хорошо для вас, с прикованной к этому мониторингу обезьянкой 24/7 отличающей красное от зеленого (и которую порют, если уснула и проспала). Хотя глядя на пример ниже - у вас там "все красное", как вы вообще живете с этой херней?

А у нас вот нынче нету прикованных обезьянок, и в визюальный мониторинг пыриться совершенно некому и некогда. Он служит для поиска системных проблем, которые не сводятся или пока не получилось свести к контролю единственного айтима. И то в общем в графане, ибо родные жабиксные средства плохие, а когда я это настраивал их вообще не было.

А когда просто где-то место вотщаскончится, где раньше такого не было - нужно письмо владельцу, чтоб просто быстро бежал разбиратьтся.

Ответить | Правка | Наверх | Cообщить модератору

85. "Выпуск системы мониторинга Zabbix 5.2"  +/
Сообщение от Онаним (?), 28-Окт-20, 14:16 
> глядя на пример ниже - у вас там "все красное", как вы вообще живете с этой херней?

Так в таких масштабах это нормально. Всегда где-нибудь что-нибудь лежит.
Проблемы, которые не требуют нашего решения, получают тикеты, acknowledge, и уходят до момента решения.
Текущие проблемы решаются. Есть проблемы, которые требуют решения, но оно долгосрочное - это висит.
Всё это разбито по группам, каждую группу отсматривают и отвечают за решение "по сектору" отдельные команды.

> А у нас вот нынче нету прикованных обезьянок, и в визюальный мониторинг
> пыриться совершенно некому и некогда. Он служит для поиска системных проблем,

Не обязательно туда постоянно пыриться. Отметил новые проблемы, создал при надобности тикеты, дальше список проблем позволяет в т.ч. разобраться в причине падения. Не просто "вот нашему сервису 3.14-да-да", а что и где отломалось или скоро отломается видно.

Ответить | Правка | Наверх | Cообщить модератору

77. "Выпуск системы мониторинга Zabbix 5.2"  +/
Сообщение от Тимофей (??), 28-Окт-20, 11:40 
Зачем мне эти заморочки теги, экшены, апи вот эти все грабли? Мне нужен простой инструмент, простая зависимость хоста от хоста.
Ответить | Правка | К родителю #62 | Наверх | Cообщить модератору

83. "Выпуск системы мониторинга Zabbix 5.2"  +/
Сообщение от Онаним (?), 28-Окт-20, 14:13 
Я понимаю в чём коллизия. У вас все хосты друг на друга завязаны, и сервис один (ну или два с половиной).
У нас сервис не монолитен, и все хосты относительно независимы, плюс есть сложного типа резервирования, когда прямая зависимость хоста от хоста исчезает.
Ответить | Правка | Наверх | Cообщить модератору

86. "Выпуск системы мониторинга Zabbix 5.2"  +/
Сообщение от Онаним (?), 28-Окт-20, 14:21 
Ну то есть вот в этом примере ниже - у нас Barracuda недоступна. Балансеры ругаются.
Но нам похер, потому что есть другое уведомление, что лёг свитч в одном из DC.
И нам тоже похер, потому что есть ещё одно уведомление (его не видно), что лёг power feed A в этом самом DC.
А похер потому, что по факту недоступность всей этой пачки на сервис не влияет, там резервирование и балансировка. Но мы знаем, что проблема есть. И когда фид поднимется, если что-то на место само не встанет, уведомления будут висеть. Если бы была проблема с сервисом - были бы уведомления других категорий. В добавку к.
Ответить | Правка | Наверх | Cообщить модератору

87. "Выпуск системы мониторинга Zabbix 5.2"  +/
Сообщение от Онаним (?), 28-Окт-20, 14:25 
Как только DC mgmt закроет тикет по power, мы пойдём чекать, сгинули ли наши уведомления :D
Ответить | Правка | Наверх | Cообщить модератору

92. "Выпуск системы мониторинга Zabbix 5.2"  +/
Сообщение от пох. (?), 28-Окт-20, 15:16 
Ну вот все, что мне хотелось бы знать в данной ситуации - что в писятом DC сдох один из питальников.
Что попутно сдохла половина установленного там железа, не имеющего резервного питания - уже знать незачем и неинтересно - и нефиг засорять мне мусором почту, электричество от этого не появится. Починят электричество - вот тут пора будет осторожненько проверить, все ли поднялось.

Причем в идеале бы уведомления по этой проверке еще отложить на пол-часика, потому что что-то может подниматься долго, и мне об этом тоже неинтересно знать. Но это не про жабикс, увы, абсолютно.

Заманаешься в нем такие цепочки настраивать. В prtg чуть лучше, но тоже слишком много ручной ненужной возни (и главный сервис по мнению их разработчиков - "ping". Который, вместе со своими метриками, мне вообще нах не сдался в большинстве случаев. Зачем пинговать то, к чему все равно ходим по tcp, мать вашу?!)

Ответить | Правка | К родителю #86 | Наверх | Cообщить модератору

96. "Выпуск системы мониторинга Zabbix 5.2"  +/
Сообщение от Онаним (?), 28-Окт-20, 16:57 
Почты вообще нет. Точнее она есть - свалкой в архив для разбора полётов, если вдруг.
SMS только на критические события, когда действительно сервис валится.
Иначе очешуеешь получать 100500 писем в сутки, даже если все цепочки обрезать до 1 элемента.
Самих цепочек очень много.
Ответить | Правка | Наверх | Cообщить модератору

97. "Выпуск системы мониторинга Zabbix 5.2"  +/
Сообщение от Онаним (?), 28-Окт-20, 16:58 
// сервис валится = сервис валится целиком или настолько критично, что страдают все клиенты или здоровые сегменты
Ответить | Правка | Наверх | Cообщить модератору

99. "Выпуск системы мониторинга Zabbix 5.2"  +/
Сообщение от пох. (?), 28-Окт-20, 17:38 
Ну так мы чинить-то что-то собираемся, или как? Если собираемся - мне нужно письмо об этом (а не в вебню пыриться). Вот сколько нужно чинить - столько и писем. А если чинить ненужно, мне об этом и знать незачем.
Ответить | Правка | К родителю #96 | Наверх | Cообщить модератору

101. "Выпуск системы мониторинга Zabbix 5.2"  +/
Сообщение от Онаним (?), 28-Окт-20, 20:37 
Зачем нам письмо, если сразу же видишь, что надо чинить, и насколько это критично?
В любой момент времени. Не шарясь в 100500 письмах за текущие сутки.
Ответить | Правка | Наверх | Cообщить модератору

113. "Выпуск системы мониторинга Zabbix 5.2"  +/
Сообщение от пох. (?), 29-Окт-20, 13:09 
> Зачем нам письмо, если сразу же видишь

Где вижу? Нигде не вижу - я не обезьянка, я не смотрю 24x7 в дэшборд. Я туда смотрю когда уже что-то пошло не так.

Вот почту я прочитаю, рано или поздно. Потому что это вообще основной инструмент коммуникаций. (Для тех у кого они другие - в жабиксе есть другие media)
Если у тебя 100500 ненужных писем в сутки, которые ты все равно не собираешься читать - настрой уже себе аутлук, времена mailx давно прошли.

Ответить | Правка | Наверх | Cообщить модератору

102. "Выпуск системы мониторинга Zabbix 5.2"  +/
Сообщение от Онаним (?), 28-Окт-20, 20:38 
Мы ещё даже несколько дальше шагнули, до проактивности: мы видим, когда превышены или занижены определённые показатели (самое простое - те же диски в примере, на деле всего больше - ёмкости каналов, трафик по voip-транкам, etc.) в т.ч. от медианы за период. И поэтому заранее видим, чего ещё дышит, но может сломаться.
Ответить | Правка | К родителю #99 | Наверх | Cообщить модератору

103. "Выпуск системы мониторинга Zabbix 5.2"  +/
Сообщение от Онаним (?), 28-Окт-20, 20:39 
Как пример - мониторим версии ядер. Если кто-то вкрутит куда-то ядро не из разрешённых - мы это увидим, хоть оно и работает.
Ответить | Правка | Наверх | Cообщить модератору

104. "Выпуск системы мониторинга Zabbix 5.2"  +/
Сообщение от Онаним (?), 28-Окт-20, 20:40 
Версии прошивок на свитчах, роутерах, версии FPD. И т.п.
Ответить | Правка | Наверх | Cообщить модератору

105. "Выпуск системы мониторинга Zabbix 5.2"  +/
Сообщение от Онаним (?), 28-Окт-20, 20:41 
Если мы допустим находим бажную версию - впихиваем её в список, и сетевая бригада получает горку оповещений о "замените этот глюкодром".
Ответить | Правка | К родителю #104 | Наверх | Cообщить модератору

106. "Выпуск системы мониторинга Zabbix 5.2"  +/
Сообщение от Онаним (?), 28-Окт-20, 20:44 
Потом сетевая команда может сама в дескрипшны интерфейсов вписать свои MIN/MAX/PCTL, на BGP и т.п. в дескрипшны пиров. Zabbix это сам обработает, и даст им такие алерты, которые именно они хотят на каждом конкретном участке.
Ответить | Правка | К родителю #102 | Наверх | Cообщить модератору

107. "Выпуск системы мониторинга Zabbix 5.2"  +/
Сообщение от Онаним (?), 28-Окт-20, 20:45 
Ну и это всё частные примеры, оно повсеместно. Какие темплейты на сервер вешать - пишется в параметре агента на самой ноде, например.
Ответить | Правка | Наверх | Cообщить модератору

108. "Выпуск системы мониторинга Zabbix 5.2"  +/
Сообщение от Онаним (?), 28-Окт-20, 20:48 
Какие темплейты вешать на клиентское устройство, в т.ч. от партнёра - решает детектор. Сначала заббикс выгребает банальные device name и т.п. из SNMP и прочих типовых мест, всё что смог. Потом это через API смотрит скрипт-детектор, и делает enable-disable всяких темплейтов и элементов через API, согласно тому, что увидел в прописанных параметрах устройства.
Ответить | Правка | К родителю #107 | Наверх | Cообщить модератору

109. "Выпуск системы мониторинга Zabbix 5.2"  +/
Сообщение от Онаним (?), 28-Окт-20, 20:50 
У нас например клиенты имеют возможность смотреть графики своих VPN и выделенных линий. CRM смотрит в заббикс, берёт с него список нужного к отображению, и дальше клиент это всё видит. Появилось устройство - оно везде появилось. Короче у нас специфичная тема, оно почти zabbix-centered всё :D
Ответить | Правка | К родителю #108 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру