Правила оповещения Визион
Общая информация о правилах оповещения Визион
Правило оповещения является условием (определяется PromQL-выражением), которое применяется к значениям временных рядов, формируемых на основе метрик.
В поле Имя в списке уведомлений попадает значение из поля Имя в правиле оповещения.
Период определяет интервал времени, в течение которого выражение, определяющее правило оповещения, остается истинным, прежде чем сгенерируется оповещение. В случае, если выражение стало истинным и затем опять ложным в течение этого интервала, оповещение не будет сгенерировано.
Важность определяет значимость события для пользователя. Важность может принимать следующие значения (в порядке убывания):
-
critical — максимальная важность;
-
warning — важное событие;
-
info — информационное сообщение.
Шаблон влияет на форматирование сообщения, отправляемого пользователю на электронную почту.
Алерты, генерируемые на основе правил оповещения, отображаются в списке уведомлений в интерфейсе пользователя Визион. Список правил оповещения, входящих в поставку Визион, приведён ниже.
Универсальные правила
Данные правила оповещения могут применяться вне зависимости от типа машины.
BondStatusNotActiveNegotiated
Бонд узла находится в некорректном состоянии.
Период: 5m (5 минут).
Важность: warning.
Категория: server.
Выражение PromQL:
bond_status != 1
Шаблон сообщения:
Бонд {{ $labels.bond_name }} на узле {{ $labels._node_id}} ПАК {{ $labels._pak_id }} находится в состоянии, отличном от active negotiated
CertificateExpiresIn30Days
До истечения сертификата осталось 30 дней.
Период: 5m (5 минут).
Важность: warning.
Категория: func_service.
Выражение PromQL:
certificate_days_expired < 30
Шаблон сообщения:
У сервиса {{ $labels.server_name }} на ПАК {{ $labels._pak_id }} до истечения сертификата осталось {{ $value }} дней
FanSpeedStateCritical
Датчик скорости вентилятора информирует о критическом состоянии (IPMI).
Период: 3m (3 минуты).
Важность: critical.
Категория: server.
Выражение PromQL:
ipmi_fan_speed_state == 2
Шаблон сообщения:
Датчик скорости вентилятора {{ name }} информирует о критическом состоянии на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id }}
FanSpeedStateWarning
Датчик скорости вентилятора находится в состоянии предупреждения (IPMI).
Период: 3m (3 минуты).
Важность: warning.
Категория: server.
Выражение PromQL:
ipmi_fan_speed_state == 1
Шаблон сообщения:
Датчик скорости вентилятора {{ name }} находится в состоянии предупреждения на узле {{ _node_id }} ПАК {{ _pak_id }}
InterfaceStatusAttachedNotCurrent
Статус привязки физического интерфейса отличается от current attached.
Период: 5m (5 минут).
Важность: warning.
Категория: server.
Выражение PromQL:
interface_status_attached != 1
Шаблон сообщения:
Интерфейс {{ $labels.if_name }} бонда {{ $labels.bond_name }} на узле {{ $labels._node_id}} ПАК {{ $labels._pak_id }} находится в состоянии, отличном от current attached
InterfaceStatusNotEnabled
Физический интерфейс отключен.
Период: 5m (5 минут).
Важность: warning.
Категория: server.
Выражение PromQL:
interface_status != 1
Шаблон сообщения:
Интерфейс {{ $labels.if_name }} бонда {{ $labels.bond_name }} на узле {{ $labels._node_id}} ПАК {{ $labels._pak_id }} отключен
NodeClockNotSynchronising
Время на сервере не синхронизируется.
Период: 2m (2 минуты).
Важность: warning.
Категория: server.
Выражение PromQL:
(node_timex_maxerror_seconds >= 16 and min_over_time(node_timex_sync_status[1m]) == 0)
Шаблон сообщения:
Время на сервере {{ $labels._node_id }} ПАК {{ $labels._pak_id}} не синхронизируется
NodeClockSkew
Системное время на узле рассинхронизировано.
Период: 10m (10 минут).
Важность: warning.
Категория: server.
Выражение PromQL:
(node_timex_offset_seconds > 0.05 and deriv(node_timex_offset_seconds[5m]) >= 0) or (node_timex_offset_seconds < -0.05 and deriv(node_timex_offset_seconds[5m]) <= 0)
Шаблон сообщения:
Системное время на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} рассинхронизировано на более чем 0.05 секунд
NodeContextSwitchingHigh
Часто происходит смена контекста на хосте.
Период: 0m (без ожидания).
Важность: warning.
Категория: server.
Выражение PromQL:
(rate(node_context_switches_total[15m])) / (rate(node_context_switches_total[1d])) > 2 and count_over_time(node_context_switches_total[1d]) / (86400 / scrape_interval(node_context_switches_total)) >= 0.85
Шаблон сообщения:
Частота смены контекста на хосте {{ $labels._node_id }} ПАК {{ $labels._pak_id}} активно растёт
NodeCpuHighIowait
Iowat ЦП на узле превышает 10%.
Период: 0m (без ожидания).
Важность: warning.
Категория: server.
Выражение PromQL:
avg by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_cpu_seconds_total{mode="iowait"}[5m])) > 0.1
Шаблон сообщения:
Iowat ЦП достиг {{ $value | humanizePercentage }} на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeCpuIsUnderutilized
Слишком низкая загрузка на процессор на узле.
Период: 4d (4 суток).
Важность: warning.
Категория: server.
Выражение PromQL:
1 - (rate(node_cpu_seconds_total{mode="idle"}[30m])) < 0.2
Шаблон сообщения:
ЦП загружен {{$value | humanizePercentage }} последние 4 дня на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeCpuStealNoisyNeighbor
Нехватка процессорного времени на узле.
Период: 0m (без ожидания).
Важность: warning.
Категория: server.
Выражение PromQL:
avg by(_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_cpu_seconds_total{mode="steal"}[5m])) > 0.1
Шаблон сообщения:
Не хватает {{$value | humanizePercentage }} процессорного времени на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}, ресурсы используются другими хостами/контейнерами.
NodeDiskIOErrWarning
Наблюдаются ошибки ввода-вывода дискового устройства.
Период: 5m (5 минут).
Важность: warning.
Категория: server.
Выражение PromQL:
rate(node_disk_iorequest_total[1m]) > 10
Шаблон сообщения:
На дисковом устройстве {{ $labels.device }} на узле {{ $labels._node_id}} ПАК {{ $labels._pak_id }} наблюдается рост ошибок ввода-вывода
NodeDiskWillFillIn24Hours
Дисковое пространство на узле почти заполнено.
Период: 2m (2 минуты).
Важность: warning.
Категория: server.
Выражение PromQL:
(node_filesystem_avail_bytes * 100) / node_filesystem_size_bytes < 10 and predict_linear(node_filesystem_avail_bytes{fstype!~"tmpfs"}[1h], 24 * 3600) < 0 and node_filesystem_readonly == 0
Шаблон сообщения:
Дисковое пространство на хосте {{ $labels._node_id }} ПАК {{ $labels._pak_id}} почти заполнено и закончится в течение 24 часов
NodeExporterAvailabilityDown
Компонент мониторинга node_exporter недоступен.
Период: 5m (5 минут).
Важность: warning.
Категория: server.
Выражение PromQL:
up{job="node_exporter"} == 0
Шаблон сообщения:
Отсутствуют данные node_exporter с узла {{ if $labels._vm_id }}{{ $labels._vm_id }}{{ else }}{{ $labels._node_id }}{{ end }} ПАК {{ $labels._pak_id }}. Проверьте доступность узла и компонента.
NodeFilesystemDeviceError
Ошибка файловой системы на узле.
Период: 2m (2 минуты).
Важность: critical.
Категория: server.
Выражение PromQL:
node_filesystem_device_error{device_error!="permission denied"} == 1
Шаблон сообщения:
Ошибка файловой системы на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeFilesystemSizeCritical
На диске осталось менее 10% свободного места.
Период: 2m (2 минуты).
Важность: critical.
Категория: server.
Выражение PromQL:
100-(sum(node_filesystem_avail_bytes{_target_type="NODE", fstype=~"ext4 | vfat | xfs"}) by (_node_id, _pak_id)) / (sum(node_filesystem_size_bytes{_target_type="NODE", fstype=~"ext4 | vfat | xfs"}) by (_node_id, _pak_id)) * 100 > 90
Шаблон сообщения:
Использовано {{ printf "%.2f" $value }} свободного дискового пространства на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeFilesystemSizeWarning
На диске осталось менее 20% свободного места.
Период: 2m (2 минуты).
Важность: warning.
Категория: server.
Выражение PromQL:
100-(sum(node_filesystem_avail_bytes{_target_type="NODE",fstype=~"ext4 | vfat | xfs"})by(_node_id, _pak_id))/(sum(node_filesystem_size_bytes{_target_type="NODE", fstype=~"ext4 | vfat | xfs"})by(_node_id, _pak_id))*100 > 80 and 100-(sum(node_filesystem_avail_bytes{_target_type="NODE", fstype=~"ext4 | vfat | xfs"})by(_node_id, _pak_id))/(sum(node_filesystem_size_bytes{_target_type="NODE", fstype=~"ext4 | vfat | xfs"})by(_node_id, _pak_id))*100 < 90
Шаблон сообщения:
Осталось {{$value | humanizePercentage }} свободного дискового пространства на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeHighCpuLoad
Большая нагрузка на CPU на узле.
Период: 2m (2 минуты).
Важность: warning.
Категория: server.
Выражение PromQL:
avg by (mode, _pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_cpu_seconds_total{mode!="idle"}[2m])) > 0.8
Шаблон сообщения:
ЦП загружен на {{ $value | humanizePercentage }} на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeHighTransmitPacketError
Высокая частота ошибок исходящих пакетов.
Период: 5m (5 минут).
Важность: warning.
Категория: server.
Выражение PromQL:
node_network_transmit_errs_total_rate > 1000
Шаблон сообщения:
Узел {{ $labels._node_id }} имеет частоту ошибок исходящих пакетов ({{ $labels.value }}). Проверьте настройки сети узла.
NodeInodesWillFillIn24Hours
Индексные дескрипторы на узле скоро заполнятся.
Период: 2m (2 минуты).
Важность: warning.
Категория: server.
Выражение PromQL:
node_filesystem_files_free{fstype!="msdosfs"} / node_filesystem_files{fstype!="msdosfs"} * 100 < 10 and predict_linear(node_filesystem_files_free{fstype!="msdosfs"}[1h], 24 * 3600) < 0 and node_filesystem_readonly{fstype!="msdosfs"} == 0
Шаблон сообщения:
Индексные дескрипторы заполнятся в течение 24 часов на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeInterfaceChanges
Замечены изменения в интерфейсе на сервере.
Период: 0s (без ожидания).
Важность: warning.
Категория: server.
Выражение PromQL:
delta(node_network_info) > 0
Шаблон сообщения:
Замечены изменения в интерфейсе {{ $labels.device }} на узле {{ $labels._node_id}} ПАК {{ $labels._pak_id }}, возможно, он перешёл в статус down
NodeInterfaceMTUChanges
Изменился MTU сетевой карты.
Период: 0s (без ожидания).
Важность: warning.
Категория: server.
Выражение PromQL:
delta(node_network_mtu_bytes) > 0
Шаблон сообщения:
Замечено изменение MTU сетевой карты {{ $labels.device }} на узле {{ $labels._node_id}} ПАК {{ $labels._pak_id }}
NodeMemoryIsUnderutilized
Недоиспользование RAM узла.
Период: 4d (4 суток).
Важность: info.
Категория: server.
Выражение PromQL:
(1 - (avg_over_time(node_memory_MemAvailable_bytes[30m]) / node_memory_MemTotal_bytes ) < 0.2)
Шаблон сообщения:
Память узла {{ $labels._node_id }} ПАК {{ $labels._pak_id}} заполнена на {{$value | humanizePercentage }} за последние 4 дня
NodeMemoryUnderMemoryPressure
Системе не хватает свободной памяти на узле.
Период: 2m (2 минуты).
Важность: warning.
Категория: server.
Выражение PromQL:
rate(node_vmstat_pgmajfault[1m]) > 1000
Шаблон сообщения:
Большая нагрузка на память узла {{ $labels._node_id }} ПАК {{ $labels._pak_id}}. Слишком часто происходят отказы главной страницы
NodeNetworkInterfaceSaturated
Интерфейс сети на узле перегружен.
Период: 1m (1 минута).
Важность: warning.
Категория: server.
Выражение PromQL:
(rate(node_network_receive_bytes_total{device!~"^tap.*|^vnet.*|^veth.*|^tun.*"}[1m]) + rate(node_network_transmit_bytes_total{device!~"^tap.*|^vnet.*|^veth.*|^tun.*"}[1m])) / node_network_speed_bytes{device!~"^tap.*|^vnet.*|^veth.*|^tun.*"} > 0.8 < 10000
Шаблон сообщения:
Интерфейс сети устройства {{ $labels.device}} перегружен на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeNetworkReceiveErrors
Рост сетевых ошибок на получение на хосте.
Период: 2m (2 минуты).
Важность: warning.
Категория: server.
Выражение PromQL:
rate(node_network_receive_errs_total[2m]) / rate(node_network_receive_packets_total[2m]) > 0.01
Шаблон сообщения:
В последние две минуты увеличилось число сетевых ошибок на хосте {{ $labels._node_id }} ПАК {{ $labels._pak_id}} на получение
NodeNetworkTransmitErrors
Рост сетевых ошибок на передачу на хосте.
Период: 2m (2 минуты).
Важность: warning.
Категория: server.
Выражение PromQL:
rate(node_network_transmit_errs_total[2m]) / rate(node_network_transmit_packets_total[2m]) > 0.01
Шаблон сообщения:
В последние две минуты увеличилось число сетевых ошибок на хосте {{ $labels._node_id }} ПАК {{ $labels._pak_id}} на передачу
NodeOomKillDetected
Out of Memory Killer начал работу.
Период: 0m (без ожидания).
Важность: warning.
Категория: server.
Выражение PromQL:
increase(node_vmstat_oom_kill[1m]) > 0
Шаблон сообщения:
Out of Memory Killer начал работу на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeOutOfInodes
На диске на узле почти закончились свободные индексные дескрипторы.
Период: 2m (2 минуты).
Важность: warning.
Категория: server.
Выражение PromQL:
((node_filesystem_files_free{fstype!="msdosfs"}/ node_filesystem_files{fstype!="msdosfs"} * 100 < 10) and (predict_linear(node_filesystem_files_free{fstype!="msdosfs"}[1h], 24 * 3600) <=0) ) and ON (instance, device, mountpoint) node_filesystem_readonly{fstype!="msdosfs"} == 0
Шаблон сообщения:
Индексные дескрипторы заполнены на 90% на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeOutOfMemory
RAM узла почти заполнена, осталось менее 10% свободного места.
Период: 2m (2 минуты).
Важность: critical.
Категория: server.
Выражение PromQL:
node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes < 0.1
Шаблон сообщения:
Осталось {{$value | humanizePercentage }} свободной памяти узла {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeOutOfMemoryWarning
RAM узла почти заполнена, осталось менее 20% свободного места.
Период: 2m (2 минуты).
Важность: warning.
Категория: server.
Выражение PromQL:
node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes < 0.2 and node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes > 0.1
Шаблон сообщения:
Осталось {{$value | humanizePercentage }} свободной RAM на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeSwapIsFillingUp
SWAP хоста заполняется.
Период: 2m (2 минуты).
Важность: warning.
Категория: server.
Выражение PromQL:
(1 - (node_memory_SwapFree_bytes / node_memory_SwapTotal_bytes)) > 0.8
Шаблон сообщения:
SWAP хоста заполнен на {{$value | humanizePercentage }} на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeUnusualDiskIo
Необычная активность IO на диске хоста.
Период: 5m (5 минут).
Важность: warning.
Категория: server.
Выражение PromQL:
rate(node_disk_io_time_seconds_total[1m]) > 0.5
Шаблон сообщения:
Время, проведённое в IO, достигло {{ $value }} на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeUnusualDiskReadLatency
Необычная задержка при чтении файлов с диска на узле.
Период: 2m (2 минуты).
Важность: warning.
Категория: server.
Выражение PromQL:
rate(node_disk_read_time_seconds_total[1m]) / rate(node_disk_reads_completed_total[1m]) > 0.1 and rate(node_disk_reads_completed_total[1m]) > 0
Шаблон сообщения:
Задержка при чтении файлов с диска выше 100 мс на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeUnusualDiskReadRate
Диск начал резко читать более 50 МБ/с.
Период: 5m (5 минут).
Важность: warning.
Категория: server.
Выражение PromQL:
sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_disk_read_bytes_total[2m])) / 1024 / 1024 > 50
Шаблон сообщения:
Необычная активность при чтении диска на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeUnusualDiskWriteLatency
Необычная задержка при записи файлов на диск на узле.
Период: 2m (2 минуты).
Важность: warning.
Категория: server.
Выражение PromQL:
rate(node_disk_write_time_seconds_total[1m]) / rate(node_disk_writes_completed_total[1m]) > 0.1 and rate(node_disk_writes_completed_total[1m]) > 0
Шаблон сообщения:
Задержка при записи файлов на диск выше 100 мс на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeUnusualDiskWriteRate
Диск начал резко писать более 50 МБ/с.
Период: 5m (5 минут).
Важность: warning.
Категория: server.
Выражение PromQL:
sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_disk_written_bytes_total[2m])) / 1024 / 1024 > 50
Шаблон сообщения:
Необычная активность при записи на диск на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
NodeUnusualNetworkThroughputIn
Сеть начала резко получать более 100 мб/с.
Период: 5m (5 минут).
Важность: warning.
Категории:
-
network; -
server.
Выражение PromQL:
sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_network_receive_bytes_total[2m])) / 1024 / 1024 > 100
Шаблон сообщения:
Необычная активность сети на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} (входящие данные)
NodeUnusualNetworkThroughputOut
Сеть начала резко отдавать более 100 мб/с.
Период: 5m (5 минут).
Важность: warning.
Категории:
-
network; -
server.
Выражение PromQL:
sum by (_pak_id, _module_id, _node_id, _vm_id, _target_type, _target_id, job) (rate(node_network_transmit_bytes_total[2m])) / 1024 / 1024 > 100
Шаблон сообщения:
Необычная активность сети на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}} (исходящие данные)
SnmpAnomalyTraffic
Замечено аномальное увеличение трафика.
Период: 12m (12 минут).
Важность: info.
Категория: network.
Выражение PromQL:
rate(ifHCOutOctets[4m]) > avg by (ifAlias) (rate(ifHCOutOctets[4m] offset 1w)) + 2 * stddev by (ifAlias) (rate(ifHCOutOctets[4m] offset 1w))
Шаблон сообщения:
Замечено аномальное увеличение трафика коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }}
SnmpDataNotReceived
Не поступают данные с устройства SNMP.
Период: 5m (5 минут).
Важность: critical.
Категория: network.
Выражение PromQL:
up{job=~"snmp.*"} != 1
Шаблон сообщения:
Не удалось собрать данные с SNMP-устройства, ПАК {{ $labels._pak_id }}
SnmpHighInComingTraffic
Входящий трафик порта коммутатора приближается к пороговому значению.
Период: 6m (6 минут).
Важность: info.
Категория: network.
Выражение PromQL:
(rate(ifHCInOctets[4m]) / ifHighSpeed) * 0.0008 >= 75 and ifHighSpeed != 0
Шаблон сообщения:
Входящий трафик порта {{ $labels.ifName }} ПАК {{ $labels._pak_id }} коммутатора {{ $labels._comm_id}} выше 75% от пропускной способности
SnmpHighOutComingTraffic
Исходящий трафик порта коммутатора приближается к пороговому значению.
Период: 6m (6 минут).
Важность: info.
Категория: network.
Выражение PromQL:
(rate(ifHCOutOctets[4m]) / ifHighSpeed) * 0.0008 >= 75 and ifHighSpeed != 0
Шаблон сообщения:
Исходящий трафик порта {{ $labels.ifName }} ПАК {{ $labels._pak_id }} коммутатора {{ $labels._comm_id}} выше 75% от пропускной способности
SnmpIncreaseDiscardsInComingPacket
Рост количества отклонённых пакетов исходящего трафика.
Период: 6m (6 минут).
Важность: warning.
Категория: network.
Выражение PromQL:
rate(ifOutDiscards[4m]) > 10
Шаблон сообщения:
Количество отклонённых пакетов на исходящий трафик коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }} превысило 10
SnmpIncreaseDiscardsOutComingPacket
Рост количества отклонённых пакетов входящего трафика.
Период: 6m (6 минут).
Важность: warning.
Категория: network.
Выражение PromQL:
rate(ifInDiscards[4m]) > 10
Шаблон сообщения:
Количество отклонённых пакетов на входящий трафик коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }} превысило 10
SnmpIncreaseInComingPacket
Большое количество передаваемых пакетов на входящий трафик.
Период: 6m (6 минут).
Важность: info.
Категория: network.
Выражение PromQL:
rate(ifHCInUcastPkts[4m]) > rate(ifHCInUcastPkts[4m] offset 1h ) * 2.50 > 100000
Шаблон сообщения:
Зафиксирован рост числа передаваемых пакетов на входящий трафик коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }}
SnmpIncreaseInComingTrafficError
Рост количества ошибок на входящий трафик.
Период: 6m (6 минут).
Важность: warning.
Категория: network.
Выражение PromQL:
rate(ifInErrors[4m]) > 10
Шаблон сообщения:
Количество ошибок на входящий трафик коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }} превысило 10
SnmpIncreaseOutComingPacket
Большое количество передаваемых пакетов на исходящий трафик.
Период: 6m (6 минут).
Важность: info.
Категория: network.
Выражение PromQL:
rate(ifHCOutUcastPkts[4m]) > rate(ifHCOutUcastPkts[4m] offset 1h)* 2.50 > 100000
Шаблон сообщения:
Зафиксирован рост числа передаваемых пакетов на исходящий трафик коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }}
SnmpIncreaseOutComingTrafficError
Рост количества ошибок на исходящий трафик.
Период: 6m (6 минут).
Важность: warning.
Категория: network.
Выражение PromQL:
rate(ifOutErrors[4m]) > 10
Шаблон сообщения:
Количество ошибок на исходящий трафик коммутатора {{ $labels._comm_id}} ПАК {{ $labels._pak_id }} превысило 10
SnmpLongSysUpTime
SNMP-устройство работает без перезапуска более 4 лет.
Период: 2m (2 минуты).
Важность: warning.
Категория: network.
Выражение PromQL:
sysUpTime > 126144000
Шаблон сообщения:
SNMP-устройство {{ $labels._comm_id}} работает без перезапуска более 4 лет, ПАК {{ $labels._pak_id }}
SnmpPortChangedState
Порт изменил своё состояние.
Период: 2m (2 минуты).
Важность: critical.
Категория: network.
Выражение PromQL:
delta(ifOperStatus[15m]) != 0
Шаблон сообщения:
В последние 15 минут порт {{ $labels.ifName }} ПАК {{ $labels._pak_id }} коммутатора {{ $labels._comm_id}} изменил своё состояние. Возможно, он выключен или перезапущен
VisionPlagentErrors
Имеются ошибки Plagent.
Период: 0m (без ожидания).
Важность: warning.
Категория: utility_service.
Выражение PromQL:
plagent_plugin_error_count > 0
Шаблон сообщения:
Имеется {{ $value }} ошибок Plagent на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id }}
VmagentAvailabilityDown
Компонент мониторинга vmagent недоступен.
Период: 5m (5 минут).
Важность: warning.
Категория: server.
Выражение PromQL:
vmagent_availability_status == 0
Шаблон сообщения:
Отсутствуют данные node_exporter с узла {{ if $labels._vm_id }}{{ $labels._vm_id }}{{ else }}{{ $labels._node_id }}{{ end }} ПАК {{ $labels._pak_id }}. Проверьте доступность узла и компонента.