МВ.ДИ

Данные правила применимы для ПАК МВ.ДИ.

BVSStatusCritical

Узел BVS МВ.ДИ находится в статусе, отличающемся от Online.

Период: 0m (без ожидания).

Важность: critical.

Категория: server.

Выражение PromQL:

dynamix_bvs_node_status!=1

Шаблон сообщения:

Узел BVS {{ $labels._node_id }} ПАК {{ $labels._pak_id }} находится в статусе {{ $value }}

DockerImageMissing

Образ Docker не обнаружен.

Период: 60m (1 час).

Важность: critical.

Категория: server.

Выражение PromQL:

docker_image_availability{image=~".+"} == 0

Шаблон сообщения:

Образ Docker {{ $labels.image }} не обнаружен на {{ $labels._node_id }} ПАК {{ $labels._pak_id }}

DynamixNodeStatusWarning

Узел Dynamix МВ.ДИ находится в нестандартном статусе работоспособности.

Период: 0m (без ожидания).

Важность: warning.

Категория: func_service.

Выражение PromQL:

dynamix_node_status != 1 and dynamix_node_status != 0

Шаблон сообщения:

Узел Dynamix {{ $labels.node_name }} ПАК {{ $labels._pak_id }} находится в статусе работоспособности {{ $value }}

DynamixVMTechStatusCritical

Виртуальная машина Dynamix МВ.ДИ находится в статусе DOWN.

Период: 0m (без ожидания).

Важность: critical.

Категория: func_service.

Выражение PromQL:

dynamix_vm_tech_status == 7

Шаблон сообщения:

Виртуальная машина Dynamix {{ $labels.vm_id }} ПАК {{ $labels._pak_id }} находится в техническом статусе DOWN

DynamixVMTechStatusWarning

Виртуальная машина Dynamix МВ.ДИ находится в нестандартном техническом статусе.

Период: 0m (без ожидания).

Важность: warning.

Категория: func_service.

Выражение PromQL:

dynamix_vm_tech_status != 1 and dynamix_vm_tech_status != 7

Шаблон сообщения:

Виртуальная машина Dynamix {{ $labels.vm_id }} ПАК {{ $labels._pak_id }} находится в техническом статусе {{ $value }}

DynamixVMWorkingStatusWarning

Виртуальная машина Dynamix МВ.ДИ находится в нестандартном статусе работоспособности.

Период: 0m (без ожидания).

Важность: warning.

Категория: func_service.

Выражение PromQL:

dynamix_vm_status != 1 and dynamix_vm_status != 0

Шаблон сообщения:

Виртуальная машина Dynamix {{ $labels.vm_id }} ПАК {{ $labels._pak_id }} находится в статусе работоспособности {{ $value }}

K8sAgentControllerContainerNotReady

Контейнер пода agentcontroller не готов.

Период: 3m (3 минуты).

Важность: critical.

Категория: func_service.

Выражение PromQL:

k8s_agentcontroller_container_ready == 0

Шаблон сообщения:

Контейнер {{ $labels.name }} ПАК {{ $labels._pak_id }} не готов принимать трафик (ready = false).

K8sAgentControllerContainerRestartsHigh

Большое количество перезапусков контейнера пода agentcontroller.

Период: 15m (15 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

k8s_agentcontroller_container_restarts_total > 5

Шаблон сообщения:

Контейнер {{ $labels.name }} ПАК {{ $labels._pak_id }} перезапускался более 5 раз (текущее значение {{ $value }}).

K8sAgentControllerMetricsMissing

Отсутствуют метрики agentcontoller.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

absent_over_time({__name__=~"k8s_agentcontroller_.*", job="kubernetes_exporter"}[5m] ) == 1

Шаблон сообщения:

Не получены метрики agentcontroller_* от экспортера {{ $labels.job }} ПАК {{ $labels._pak_id }} в течение 5 минут. Возможно, под agentcontroller не запущен или экспортер не может получить его статус.

K8sAgentControllerPodFailed

Под agentcontroller находится в статусе Failed.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

k8s_agentcontroller_pod_phase{phase="failed"} == 1

Шаблон сообщения:

Под {{ $labels.name }} ПАК {{ $labels._pak_id }} перешел в состояние failed (завершился с ошибкой).

K8sAgentControllerPodNotRunning

Под agentcontroller находится в статусе, отличающемся от Running.

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

sum(k8s_agentcontroller_pod_phase {phase=~"pending|succeeded|failed|unknown"}) by (name) == 1

Шаблон сообщения:

Под {{ $labels.name }} ПАК {{ $labels._pak_id }} не находится в целевой состоянии running (текущая фаза {{ $labels.phase }}).

K8sAgentControllerPodUnknown

Состояние пода agentcontroller неизвестно.

Период: 3m (3 минуты).

Важность: critical.

Категория: func_service.

Выражение PromQL:

k8s_agentcontroller_pod_phase{phase="unknown"} == 1

Шаблон сообщения:

Не удалось получить состояние пода {{ $labels.name }} ПАК {{ $labels._pak_id }} (состояние Unknown).

KubernetesComponentStatusNotTrue

Компонент K8S находится в статусе, отличающемся от True.

Период: 5m (5 минут).

Важность: critical.

Категория: func_service.

Выражение PromQL:

k8s_component_status!=1

Шаблон сообщения:

Компонент {{ $labels.name }} ПАК {{ $labels._pak_id }} находится в статусе {{ $value }}

KubernetesNodeStatusNotReady

Узел K8S находится в статусе, отличающемся от Ready.

Период: 5m (5 минут).

Важность: critical.

Категория: func_service.

Выражение PromQL:

k8s_node_status{condition!="Ready"}==1

Шаблон сообщения:

Узел {{ $labels.name }} ПАК {{ $labels._pak_id }} находится в состоянии {{ $labels.condition }}

KubernetesPodStatusFailed

Под K8S находится в статусе Failed.

Период: 5m (5 минут).

Важность: critical.

Категория: func_service.

Выражение PromQL:

k8s_pod_status==0

Шаблон сообщения:

Под {{ $labels.name }} ПАК {{ $labels._pak_id }} находится в статусе Failed

KubernetesStatefulsetCurrentCritical

Фактическое количество подов Kubernetes меньше целевого.

Период: 5m (5 минут).

Важность: critical.

Категория: func_service.

Выражение PromQL:

k8s_statefulset_current_pod_count < k8s_statefulset_desired_pod_count

Шаблон сообщения:

Количество подов Statefulset {{ $labels.name }} ПАК {{ $labels._pak_id }} узла {{ $labels._node_id}} меньше целевого

KubernetesPodStatusNotRunning

Под K8S находится в статусе, отличающемся от Running.

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

k8s_pod_status != 0 and k8s_pod_status != 1

Шаблон сообщения:

Под {{ $labels.name }} ПАК {{ $labels._pak_id }} находится в статусе {{ $value }}

LibvirtDomainCPUUsageCritical

CPU виртуальной машины загружен на более чем 90%.

Период: 30m (30 минут).

Важность: critical.

Категория: server.

Выражение PromQL:

avg by (domain) (rate(libvirt_domain_vcpu_time_seconds_total[5m])) * 100 > 90

Шаблон сообщения:

ЦПУ виртуальной машины {{ $labels.domain }} загружен на {{ $value }}% в течение получаса, ПАК {{ $labels._pak_id }}

LibvirtDomainCPUUsageWarning

CPU виртуальной машины загружен на более чем 70%.

Период: 30m (30 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

avg by (domain) (rate(libvirt_domain_vcpu_time_seconds_total[5m])) * 100 > 70 and avg by (domain) (rate(libvirt_domain_vcpu_time_seconds_total[5m])) * 100 < 90

Шаблон сообщения:

ЦПУ виртуальной машины {{ $labels.domain }} загружен на {{ $value }}% в течение получаса, ПАК {{ $labels._pak_id }}

LibvirtDomainIsShutOff

Виртуальная машина выключена.

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

libvirt_domain_info_vstate == 5

Шаблон сообщения:

Виртуальная машина {{ $labels.domain }} ПАК {{ $labels._pak_id }} выключена

LibvirtDomainMemoryCritical

Процент использования памяти доменом Libvirt достиг 90%.

Период: 5m (5 минут).

Важность: critical.

Категория: server.

Выражение PromQL:

libvirt_domain_memory_stats_used_percent > 90

Шаблон сообщения:

У домена {{ $labels.domain }} ПАК {{ $labels._pak_id }} процент используемой памяти достиг {{ $value | humanize }}

LibvirtDomainMemoryWarning

Процент использования памяти доменом Libvirt достиг 80%.

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

libvirt_domain_memory_stats_used_percent > 80 and libvirt_domain_memory_stats_used_percent < 90

Шаблон сообщения:

У домена {{ $labels.domain }} ПАК {{ $labels._pak_id }} процент используемой памяти достиг {{ $value | humanize }}

LibvirtDomainRAMCritical

Свободно менее 1% RAM на виртуальной машине.

Период: 30m (30 минут).

Важность: critical.

Категория: server.

Выражение PromQL:

libvirt_domain_memory_stats_unused_bytes/libvirt_domain_info_maximum_memory_bytes * 100 < 1

Шаблон сообщения:

Осталось {{ $value}}% RAM виртуальной машины {{ $labels.domain }}, ПАК {{ $labels._pak_id }}

LibvirtDomainRAMWarning

Свободно менее 20% RAM на виртуальной машине.

Период: 30m (30 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

libvirt_domain_memory_stats_unused_bytes/libvirt_domain_info_maximum_memory_bytes * 100 < 20 and libvirt_domain_memory_stats_unused_bytes/libvirt_domain_info_maximum_memory_bytes * 100 > 1

Шаблон сообщения:

Осталось {{ $value}}% RAM виртуальной машины {{ $labels.domain }}, ПАК {{ $labels._pak_id }}

LibvirtDomainRXBytesIncrease

Рост входящего сетевого трафика на виртуальной машине.

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

sum(rate(libvirt_domain_interface_stats_receive_bytes_total[30s])) by (_pak_id, domain) > 1024 * 1024

Шаблон сообщения:

Рост входящего сетевого трафика на виртуальной машине {{ $labels.domain }} ПАК {{ $labels._pak_id }}, текущее значение - {{ $value }} байт

LibvirtDomainRXPacketsDrop

Имеются ошибки при получении пакетов на ВМ.

Период: 5m (5 минут).

Важность: critical.

Категория: server.

Выражение PromQL:

sum(rate(libvirt_domain_interface_stats_receive_drops_total[30s])) by (domain, _pak_id) > 0

Шаблон сообщения:

При получении потеряно {{ $value }} пакетов домена {{ $labels.domain }} ПАК {{ $labels._pak_id }}

LibvirtDomainReadBytesIncrease

Рост чтения данных на ВМ, в байтах.

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

sum(rate(libvirt_domain_block_stats_read_bytes_total[30s])) by (_pak_id, domain) > 1024 * 1024

Шаблон сообщения:

Рост чтения данных на виртуальной машине {{ $labels.domain }} ПАК {{ $labels._pak_id }}, текущее значение - {{ $value }} байт

LibvirtDomainTXBytesIncrease

Рост исходящего сетевого трафика на ВМ.

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

sum(rate(libvirt_domain_interface_stats_transmit_bytes_total[30s])) by (_pak_id, domain) > 1024 * 1024

Шаблон сообщения:

Рост исходящего сетевого трафика на виртуальной машине {{ $labels.domain }} ПАК {{ $labels._pak_id }}, текущее значение - {{ $value }} байт

LibvirtDomainTXPacketsDrop

Имеются ошибки при передаче пакетов на ВМ.

Период: 5m (5 минут).

Важность: critical.

Категория: server.

Выражение PromQL:

sum(rate(libvirt_domain_interface_stats_receive_transmit_total[30s])) by (domain, _pak_id) > 0

Шаблон сообщения:

При передаче потеряно {{ $value }} пакетов домена {{ $labels.domain }} ПАК {{ $labels._pak_id }}

LibvirtDomainWriteBytesIncrease

Рост записи данных на виртуальной машине, в байтах.

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

sum(rate(libvirt_domain_block_stats_write_bytes_total[30s])) by (_pak_id, domain) > 1024 * 1024

Шаблон сообщения:

Рост записи данных на виртуальной машине {{ $labels.domain }} ПАК {{ $labels._pak_id }}, текущее значение - {{ $value }} байт

LogFileNotUpdatedCritical

Лог не обновляется больше 60 минут.

Период: 5m (5 минут).

Важность: critical.

Категория: server.

Выражение PromQL:

(time() - log_file_mtime_seconds) > 3600

Шаблон сообщения:

Лог {{ $labels.log_filename }} на {{ if $labels._vm_id }}ВМ {{ $labels._vm_id }}{{ else }}узле {{ $labels._node_id }}{{ end }} ПАК {{ $labels._pak_id }} не обновлялся 60 минут

LogFileNotUpdatedWarning

Лог не обновляется больше 10 минут.

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

(time() - log_file_mtime_seconds) > 600

Шаблон сообщения:

Лог {{ $labels.log_filename }} на {{ if $labels._vm_id }}ВМ {{ $labels._vm_id }}{{ else }}узле {{ $labels._node_id }}{{ end }} ПАК {{ $labels._pak_id }} не обновлялся 10 минут

LogFileSizeIsHuge

Лог-файл достиг критических размеров.

Период: 5m (5 минут).

Важность: critical.

Категория: server.

Выражение PromQL:

log_file_size_bytes > 2147483648

Шаблон сообщения:

Лог-файл {{ $labels.log_filename }} на {{ if $labels._vm_id }}ВМ {{ $labels._vm_id }}{{ else }}узле {{ $labels._node_id }}{{ end }} ПАК {{ $labels._pak_id }} достиг критических размеров

StorageProcessorFailure

Ошибка процессора СХД Tatlin.

Период: 5m (5 минут).

Важность: critical.

Категория: storage.

Выражение PromQL:

tatlinHwSpStateCode{} != 1 and tatlinHwSpStateCode{} != 0

Шаблон сообщения:

Процессор СХД находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinAllISCSISessionsFailed

Все iSCSI-сессии неактивны.

Период: 3m (3 минуты).

Важность: critical.

Категория: storage.

Выражение PromQL:

min(iscsi_session_info) by (target_iqn, _pak_id, _node_id) == 0

Шаблон сообщения:

Все iSCSI-сессии {{ $labels.target_iqn }} в состоянии "logged out" более 3 минут. ПАК {{ $labels._pak_id }}

TatlinCPUUtilizationCritical

Загрузка процессора СХД Tatlin достигла 95%.

Период: 2m (2 минуты).

Важность: critical.

Категория: storage.

Выражение PromQL:

100 - tatlinPerfCpuIdle >= 95

Шаблон сообщения:

Загрузка процессора СХД ({{ $labels._comm_id }}) на ПАК {{ $labels._pak_id }} достигла {{ $value }}%

TatlinCPUUtilizationWarning

Загрузка процессора СХД Tatlin достигла 90%.

Период: 5m (5 минут).

Важность: warning.

Категория: storage.

Выражение PromQL:

(100 - tatlinPerfCpuIdle >= 90) and (100 - tatlinPerfCpuIdle{} < 95)

Шаблон сообщения:

Загрузка процессора СХД ({{ $labels._comm_id }}) на ПАК {{ $labels._pak_id }} достигла {{ $value }}%

TatlinDiskBayFailure

Дисковая полка Tatlin находится в статусе Error.

Период: 5m (5 минут).

Важность: critical.

Категория: storage.

Выражение PromQL:

tatlinHwDiskbayStateCode != 1

Шаблон сообщения:

Дисковая полка {{ $labels.tatlinHwDiskbayId }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinDiskBayLost

Потеряна связь с дисковой полкой СХД Tatlin.

Период: 0s (без ожидания).

Важность: critical.

Категория: storage.

Выражение PromQL:

lag(tatlinHwDiskbaySn{}[2h]) > 15m

Шаблон сообщения:

Пропала связь с дисковой полкой {{ $labels.tatlinHwDiskbayId }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinDiskStatusError

Диск СХД Tatlin находится в статусе Error.

Период: 5m (5 минут).

Важность: critical.

Категория: storage.

Выражение PromQL:

tatlinHwDiskStateCode == 2

Шаблон сообщения:

Диск {{ $labels.tatlinHwDiskDiskId }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinDiskStatusInfo

Диск СХД Tatlin находится в статусе Info.

Период: 5m (5 минут).

Важность: info.

Категория: storage.

Выражение PromQL:

tatlinHwDiskStateCode !=1 and tatlinHwDiskStateCode !=2 and tatlinHwDiskStateCode !=3

Шаблон сообщения:

Диск {{ $labels.tatlinHwDiskDiskId }} находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinDiskStatusWarning

Диск СХД Tatlin находится в статусе Warning.

Период: 5m (5 минут).

Важность: warning.

Категория: storage.

Выражение PromQL:

tatlinHwDiskStateCode == 3

Шаблон сообщения:

Диск {{ $labels.tatlinHwDiskDiskId }} находится в статусе Warning, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinDriveCapacityFailure

Ошибка объёма накопителя СХД Tatlin.

Период: 30m (30 минут).

Важность: critical.

Категория: storage.

Выражение PromQL:

tatlinConfigDriveFailed > 0

Шаблон сообщения:

{{ $value }} байтов памяти накопителя {{ $labels.tatlinConfigDriveDriveID }} не определены, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinDriveFailed

Имеются ошибки накопителя СХД Tatlin.

Период: 30m (30 минут).

Важность: critical.

Категория: storage.

Выражение PromQL:

tatlinConfigDriveFailedCount > 0

Шаблон сообщения:

Имеется {{ $value }} ошибок накопителя {{ $labels.tatlinConfigDriveDriveID }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinEthernetPortError

Порт Ethernet СХД Tatlin находится в статусе Error.

Период: 5m (5 минут).

Важность: critical.

Категории:

  • network;

  • storage.

Выражение PromQL:

tatlinHwEthStateCode == 2

Шаблон сообщения:

Диск {{ $labels.tatlinHwEthPortName }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinEthernetPortInfo

Порт Ethernet СХД Tatlin находится в статусе Info.

Период: 5m (5 минут).

Важность: info.

Категории:

  • network;

  • storage.

Выражение PromQL:

tatlinHwEthStateCode !=1 and tatlinHwEthStateCode !=2 and tatlinHwEthStateCode !=3

Шаблон сообщения:

Порт Ethernet {{ $labels.tatlinHwEthPortName }} находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinEthernetPortWarning

Порт Ethernet СХД Tatlin находится в статусе Warning.

Период: 5m (5 минут).

Важность: warning.

Категории:

  • network;

  • storage.

Выражение PromQL:

tatlinHwEthStateCode == 3

Шаблон сообщения:

Порт {{ $labels.tatlinHwEthPortName }} находится в статусе Warning, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinFibreChannelPortError

Порт Fibre Channel СХД Tatlin находится в статусе Error.

Период: 5m (5 минут).

Важность: critical.

Категории:

  • network;

  • storage.

Выражение PromQL:

tatlinHwFcStateCode == 2

Шаблон сообщения:

Диск {{ $labels.tatlinHwEthPortName }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinFibreChannelPortInfo

Порт Fibre Channel СХД Tatlin находится в статусе Info.

Период: 5m (5 минут).

Важность: info.

Категории:

  • network;

  • storage.

Выражение PromQL:

tatlinHwFcStateCode !=1 and tatlinHwFcStateCode !=2 and tatlinHwFcStateCode !=3

Шаблон сообщения:

Порт Ethernet {{ $labels.tatlinHwEthPortName }} находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinFibreChannelPortWarning

Порт Fibre Channel СХД Tatlin находится в статусе Warning.

Период: 5m (5 минут).

Важность: warning.

Категории:

  • network;

  • storage.

Выражение PromQL:

tatlinHwFcStateCode == 3

Шаблон сообщения:

Порт {{ $labels.tatlinHwEthPortName }} находится в статусе Warning, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinMultipathFailed

Сбой Multipath.

Период: 3m (3 минуты).

Важность: critical.

Категория: func_service.

Выражение PromQL:

multipath_status == 0

Шаблон сообщения:

Multipath для {{ $labels.name }} - {{ $labels.wwid }} находится в состоянии 'failed'. ПАК {{ $labels._pak_id }}

TatlinNoActiveiSCSIPaths

Пути iSCSI не обнаружены.

Период: 2m (2 минуты).

Важность: critical.

Категория: func_service.

Выражение PromQL:

iscsi_path_count == 0

Шаблон сообщения:

Не обнаружено ни одного iSCSI-пути {{ $labels.target_iqn }} более 2 минут. ПАК {{ $labels._pak_id }}

TatlinNoResponse

СХД Tatlin не отвечает по SNMP.

Период: 0s (без ожидания).

Важность: critical.

Категория: storage.

Выражение PromQL:

lag(tatlinVersion{}[2h]) > 15m

Шаблон сообщения:

СХД ({{ $labels._comm_id }}) на ПАК {{ $labels._pak_id }} не отвечает уже {{ $value | humanizeDuration }}

TatlinPoolFreeSpaceRunningOutCritical

Свободное место СХД Tatlin почти закончилось.

Период: 30m (30 минут).

Важность: critical.

Категория: storage.

Выражение PromQL:

tatlinConfigPoolWarnThreshold != 0 and (100 * tatlinConfigPoolUsedCap / tatlinConfigPoolTotalCap) >= tatlinConfigPoolCritThreshold

Шаблон сообщения:

{{ $value }}% места пула {{ $labels.tatlinConfigPoolName }} использовано, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinPoolFreeSpaceRunningOutWarning

Заканчивается свободное место СХД Tatlin.

Период: 30m (30 минут).

Важность: warning.

Категория: storage.

Выражение PromQL:

tatlinConfigPoolWarnThreshold != 0 and (100 * tatlinConfigPoolUsedCap / tatlinConfigPoolTotalCap) >= tatlinConfigPoolWarnThreshold

Шаблон сообщения:

{{ $value }}% места пула {{ $labels.tatlinConfigPoolName }} использовано, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinPoolOversubscription

Пул СХД Tatlin находится в состоянии избыточного выделения ресурсов.

Период: 30m (30 минут).

Важность: critical.

Категория: storage.

Выражение PromQL:

100 * sum by (_comm_id, _pak_id, tatlinConfigResPool) (tatlinConfigResTotalCap{} * on (_comm_id, _pak_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool{}) / max by (_comm_id, _pak_id, tatlinConfigResPool) (label_move(tatlinConfigPoolTotalCap{}, 'tatlinConfigPoolName', 'tatlinConfigResPool')) > 100

Шаблон сообщения:

У пула {{ $labels.tatlinConfigResPool }} выделение ресурсов достигло {{ $value | humanize }}%, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinReplicationManagementNetworkCritical

Сеть управления репликациями СХД Tatlin находится в статусе Failure.

Период: 5m (5 минут).

Важность: critical.

Категория: storage.

Выражение PromQL:

tatlinConfigReplicationStorageMgmtNetwork == 4

Шаблон сообщения:

Сеть управления репликациями находится в статусе Failure, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinReplicationNetworkCritical

Сеть репликаций СХД Tatlin находится в статусе Failure.

Период: 5m (5 минут).

Важность: critical.

Категория: storage.

Выражение PromQL:

tatlinConfigReplicationStorageReplicationNetwork != 1

Шаблон сообщения:

Сеть репликаций находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinResourceFreeSpaceRunningOutCritical

Свободное место ресурса СХД Tatlin почти закончилось.

Период: 30m (30 минут).

Важность: critical.

Категория: storage.

Выражение PromQL:

(tatlinConfigResAlertThreshold * on (_comm_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool * on (_comm_id, tatlinConfigResPool) group_left(tatlinConfigPoolType) label_replace(tatlinConfigPoolType{tatlinConfigPoolType="thin"}, "tatlinConfigResPool", "$1", "tatlinConfigPoolName", "(.*)")) != 0 and (100 * tatlinConfigResUsed{} / tatlinConfigResCap{} * on (_comm_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool{} * on (_comm_id, tatlinConfigResPool) group_left(tatlinConfigPoolType) label_replace(tatlinConfigPoolType{tatlinConfigPoolType="thin"}, "tatlinConfigResPool", "$1", "tatlinConfigPoolName", "(.*)")) >= (tatlinConfigResAlertThreshold{} * on (_comm_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool{} * on (_comm_id, tatlinConfigResPool) group_left(tatlinConfigPoolType) label_replace(tatlinConfigPoolType{tatlinConfigPoolType="thin"}, "tatlinConfigResPool", "$1", "tatlinConfigPoolName", "(.*)"))

Шаблон сообщения:

{{ $value }}% места ресурса {{ $labels.tatlinConfigResResName }} использовано, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})

TatlinVGLockFailed

Отсутствие блокировки тома.

Период: 5m (5 минут).

Важность: warning.

Категория: storage.

Выражение PromQL:

count(up{job="tatlin_storage_exporter"}) by (_pak_id, _node_id) > 0 unless count(vg_lock_status{job="tatlin_storage_exporter"}) by (_pak_id, _node_id) > 0

Шаблон сообщения:

Отсутствие блокировки тома, lvmlock отсутсвует. ПАК {{ $labels._pak_id }} узел {{ $labels._node_id }}