Правила оповещения МВ.ДИ
Данные правила применимы для ПАК МВ.ДИ.
BVSStatusCritical
Узел BVS МВ.ДИ находится в статусе, отличающемся от Online.
Период: 0m (без ожидания).
Важность: critical.
Категория: server.
Выражение PromQL:
dynamix_bvs_node_status!=1
Шаблон сообщения:
Узел BVS {{ $labels._node_id }} ПАК {{ $labels._pak_id }} находится в статусе {{ $value }}
DockerImageMissing
Образ Docker не обнаружен.
Период: 60m (1 час).
Важность: critical.
Категория: server.
Выражение PromQL:
docker_image_availability{image=~".+"} == 0
Шаблон сообщения:
Образ Docker {{ $labels.image }} не обнаружен на {{ $labels._node_id }} ПАК {{ $labels._pak_id }}
DynamixNodeStatusWarning
Узел Dynamix МВ.ДИ находится в нестандартном статусе работоспособности.
Период: 0m (без ожидания).
Важность: warning.
Категория: func_service.
Выражение PromQL:
dynamix_node_status != 1 and dynamix_node_status != 0
Шаблон сообщения:
Узел Dynamix {{ $labels.node_name }} ПАК {{ $labels._pak_id }} находится в статусе работоспособности {{ $value }}
DynamixVMTechStatusCritical
Виртуальная машина Dynamix МВ.ДИ находится в статусе DOWN.
Период: 0m (без ожидания).
Важность: critical.
Категория: func_service.
Выражение PromQL:
dynamix_vm_tech_status == 7
Шаблон сообщения:
Виртуальная машина Dynamix {{ $labels.vm_id }} ПАК {{ $labels._pak_id }} находится в техническом статусе DOWN
DynamixVMTechStatusWarning
Виртуальная машина Dynamix МВ.ДИ находится в нестандартном техническом статусе.
Период: 0m (без ожидания).
Важность: warning.
Категория: func_service.
Выражение PromQL:
dynamix_vm_tech_status != 1 and dynamix_vm_tech_status != 7
Шаблон сообщения:
Виртуальная машина Dynamix {{ $labels.vm_id }} ПАК {{ $labels._pak_id }} находится в техническом статусе {{ $value }}
DynamixVMWorkingStatusWarning
Виртуальная машина Dynamix МВ.ДИ находится в нестандартном статусе работоспособности.
Период: 0m (без ожидания).
Важность: warning.
Категория: func_service.
Выражение PromQL:
dynamix_vm_status != 1 and dynamix_vm_status != 0
Шаблон сообщения:
Виртуальная машина Dynamix {{ $labels.vm_id }} ПАК {{ $labels._pak_id }} находится в статусе работоспособности {{ $value }}
KubernetesComponentStatusNotTrue
Компонент K8S находится в статусе, отличающемся от True.
Период: 5m (5 минут).
Важность: critical.
Категория: func_service.
Выражение PromQL:
k8s_component_status!=1
Шаблон сообщения:
Компонент {{ $labels.name }} ПАК {{ $labels._pak_id }} находится в статусе {{ $value }}
KubernetesNodeStatusNotReady
Узел K8S находится в статусе, отличающемся от Ready.
Период: 5m (5 минут).
Важность: critical.
Категория: func_service.
Выражение PromQL:
k8s_node_status{condition!="Ready"}==1
Шаблон сообщения:
Узел {{ $labels.name }} ПАК {{ $labels._pak_id }} находится в состоянии {{ $labels.condition }}
KubernetesPodStatusFailed
Под K8S находится в статусе Failed.
Период: 5m (5 минут).
Важность: critical.
Категория: func_service.
Выражение PromQL:
k8s_pod_status==0
Шаблон сообщения:
Под {{ $labels.name }} ПАК {{ $labels._pak_id }} находится в статусе Failed
KubernetesStatefulsetCurrentCritical
Фактическое количество подов Kubernetes меньше целевого.
Период: 5m (5 минут).
Важность: critical.
Категория: func_service.
Выражение PromQL:
k8s_statefulset_current_pod_count < k8s_statefulset_desired_pod_count
Шаблон сообщения:
Количество подов Statefulset {{ $labels.name }} ПАК {{ $labels._pak_id }} узла {{ $labels._node_id}} меньше целевого
KubernetesPodStatusNotRunning
Под K8S находится в статусе, отличающемся от Running.
Период: 5m (5 минут).
Важность: warning.
Категория: func_service.
Выражение PromQL:
k8s_pod_status != 0 and k8s_pod_status != 1
Шаблон сообщения:
Под {{ $labels.name }} ПАК {{ $labels._pak_id }} находится в статусе {{ $value }}
LibvirtDomainCPUUsageCritical
CPU виртуальной машины загружен на более чем 90%.
Период: 30m (30 минут).
Важность: critical.
Категория: server.
Выражение PromQL:
avg by (domain) (rate(libvirt_domain_vcpu_time_seconds_total[5m])) * 100 > 90
Шаблон сообщения:
ЦПУ виртуальной машины {{ $labels.domain }} загружен на {{ $value }}% в течение получаса, ПАК {{ $labels._pak_id }}
LibvirtDomainCPUUsageWarning
CPU виртуальной машины загружен на более чем 70%.
Период: 30m (30 минут).
Важность: warning.
Категория: server.
Выражение PromQL:
avg by (domain) (rate(libvirt_domain_vcpu_time_seconds_total[5m])) * 100 > 70 and avg by (domain) (rate(libvirt_domain_vcpu_time_seconds_total[5m])) * 100 < 90
Шаблон сообщения:
ЦПУ виртуальной машины {{ $labels.domain }} загружен на {{ $value }}% в течение получаса, ПАК {{ $labels._pak_id }}
LibvirtDomainIsShutOff
Виртуальная машина выключена.
Период: 5m (5 минут).
Важность: warning.
Категория: server.
Выражение PromQL:
libvirt_domain_info_vstate == 5
Шаблон сообщения:
Виртуальная машина {{ $labels.domain }} ПАК {{ $labels._pak_id }} выключена
LibvirtDomainMemoryCritical
Процент использования памяти доменом Libvirt достиг 90%.
Период: 5m (5 минут).
Важность: critical.
Категория: server.
Выражение PromQL:
libvirt_domain_memory_stats_used_percent > 90
Шаблон сообщения:
У домена {{ $labels.domain }} ПАК {{ $labels._pak_id }} процент используемой памяти достиг {{ $value | humanize }}
LibvirtDomainMemoryWarning
Процент использования памяти доменом Libvirt достиг 80%.
Период: 5m (5 минут).
Важность: warning.
Категория: server.
Выражение PromQL:
libvirt_domain_memory_stats_used_percent > 80 and libvirt_domain_memory_stats_used_percent < 90
Шаблон сообщения:
У домена {{ $labels.domain }} ПАК {{ $labels._pak_id }} процент используемой памяти достиг {{ $value | humanize }}
LibvirtDomainRAMCritical
Свободно менее 1% RAM на виртуальной машине.
Период: 30m (30 минут).
Важность: critical.
Категория: server.
Выражение PromQL:
libvirt_domain_memory_stats_unused_bytes/libvirt_domain_info_maximum_memory_bytes * 100 < 1
Шаблон сообщения:
Осталось {{ $value}}% RAM виртуальной машины {{ $labels.domain }}, ПАК {{ $labels._pak_id }}
LibvirtDomainRAMWarning
Свободно менее 20% RAM на виртуальной машине.
Период: 30m (30 минут).
Важность: warning.
Категория: server.
Выражение PromQL:
libvirt_domain_memory_stats_unused_bytes/libvirt_domain_info_maximum_memory_bytes * 100 < 20 and libvirt_domain_memory_stats_unused_bytes/libvirt_domain_info_maximum_memory_bytes * 100 > 1
Шаблон сообщения:
Осталось {{ $value}}% RAM виртуальной машины {{ $labels.domain }}, ПАК {{ $labels._pak_id }}
LibvirtDomainRXBytesIncrease
Рост входящего сетевого трафика на виртуальной машине.
Период: 5m (5 минут).
Важность: warning.
Категория: server.
Выражение PromQL:
sum(rate(libvirt_domain_interface_stats_receive_bytes_total[30s])) by (_pak_id, domain) > 1024 * 1024
Шаблон сообщения:
Рост входящего сетевого трафика на виртуальной машине {{ $labels.domain }} ПАК {{ $labels._pak_id }}, текущее значение - {{ $value }} байт
LibvirtDomainRXPacketsDrop
Имеются ошибки при получении пакетов на ВМ.
Период: 5m (5 минут).
Важность: critical.
Категория: server.
Выражение PromQL:
sum(rate(libvirt_domain_interface_stats_receive_drops_total[30s])) by (domain, _pak_id) > 0
Шаблон сообщения:
При получении потеряно {{ $value }} пакетов домена {{ $labels.domain }} ПАК {{ $labels._pak_id }}
LibvirtDomainReadBytesIncrease
Рост чтения данных на ВМ, в байтах.
Период: 5m (5 минут).
Важность: warning.
Категория: server.
Выражение PromQL:
sum(rate(libvirt_domain_block_stats_read_bytes_total[30s])) by (_pak_id, domain) > 1024 * 1024
Шаблон сообщения:
Рост чтения данных на виртуальной машине {{ $labels.domain }} ПАК {{ $labels._pak_id }}, текущее значение - {{ $value }} байт
LibvirtDomainTXBytesIncrease
Рост исходящего сетевого трафика на ВМ.
Период: 5m (5 минут).
Важность: warning.
Категория: server.
Выражение PromQL:
sum(rate(libvirt_domain_interface_stats_transmit_bytes_total[30s])) by (_pak_id, domain) > 1024 * 1024
Шаблон сообщения:
Рост исходящего сетевого трафика на виртуальной машине {{ $labels.domain }} ПАК {{ $labels._pak_id }}, текущее значение - {{ $value }} байт
LibvirtDomainTXPacketsDrop
Имеются ошибки при передаче пакетов на ВМ.
Период: 5m (5 минут).
Важность: critical.
Категория: server.
Выражение PromQL:
sum(rate(libvirt_domain_interface_stats_receive_transmit_total[30s])) by (domain, _pak_id) > 0
Шаблон сообщения:
При передаче потеряно {{ $value }} пакетов домена {{ $labels.domain }} ПАК {{ $labels._pak_id }}
LibvirtDomainWriteBytesIncrease
Рост записи данных на виртуальной машине, в байтах.
Период: 5m (5 минут).
Важность: warning.
Категория: server.
Выражение PromQL:
sum(rate(libvirt_domain_block_stats_write_bytes_total[30s])) by (_pak_id, domain) > 1024 * 1024
Шаблон сообщения:
Рост записи данных на виртуальной машине {{ $labels.domain }} ПАК {{ $labels._pak_id }}, текущее значение - {{ $value }} байт
LogFileNotUpdatedCritical
Лог не обновляется больше 60 минут.
Период: 5m (5 минут).
Важность: critical.
Категория: server.
Выражение PromQL:
(time() - log_file_mtime_seconds) > 3600
Шаблон сообщения:
Лог {{ $labels.log_filename }} на {{ if $labels._vm_id }}ВМ {{ $labels._vm_id }}{{ else }}узле {{ $labels._node_id }}{{ end }} ПАК {{ $labels._pak_id }} не обновлялся 60 минут
LogFileNotUpdatedWarning
Лог не обновляется больше 10 минут.
Период: 5m (5 минут).
Важность: warning.
Категория: server.
Выражение PromQL:
(time() - log_file_mtime_seconds) > 600
Шаблон сообщения:
Лог {{ $labels.log_filename }} на {{ if $labels._vm_id }}ВМ {{ $labels._vm_id }}{{ else }}узле {{ $labels._node_id }}{{ end }} ПАК {{ $labels._pak_id }} не обновлялся 10 минут
LogFileSizeIsHuge
Лог-файл достиг критических размеров.
Период: 5m (5 минут).
Важность: critical.
Категория: server.
Выражение PromQL:
log_file_size_bytes > 2147483648
Шаблон сообщения:
Лог-файл {{ $labels.log_filename }} на {{ if $labels._vm_id }}ВМ {{ $labels._vm_id }}{{ else }}узле {{ $labels._node_id }}{{ end }} ПАК {{ $labels._pak_id }} достиг критических размеров
StorageProcessorFailure
Ошибка процессора СХД Tatlin.
Период: 5m (5 минут).
Важность: critical.
Категория: storage.
Выражение PromQL:
tatlinHwSpStateCode{} != 1 and tatlinHwSpStateCode{} != 0
Шаблон сообщения:
Процессор СХД находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinAllISCSISessionsFailed
Все iSCSI-сессии неактивны.
Период: 3m (3 минуты).
Важность: critical.
Категория: storage.
Выражение PromQL:
min(iscsi_session_info) by (target_iqn, _pak_id, _node_id) == 0
Шаблон сообщения:
Все iSCSI-сессии {{ $labels.target_iqn }} в состоянии "logged out" более 3 минут. ПАК {{ $labels._pak_id }}
TatlinCPUUtilizationCritical
Загрузка процессора СХД Tatlin достигла 95%.
Период: 2m (2 минуты).
Важность: critical.
Категория: storage.
Выражение PromQL:
100 - tatlinPerfCpuIdle >= 95
Шаблон сообщения:
Загрузка процессора СХД ({{ $labels._comm_id }}) на ПАК {{ $labels._pak_id }} достигла {{ $value }}%
TatlinCPUUtilizationWarning
Загрузка процессора СХД Tatlin достигла 90%.
Период: 5m (5 минут).
Важность: warning.
Категория: storage.
Выражение PromQL:
(100 - tatlinPerfCpuIdle >= 90) and (100 - tatlinPerfCpuIdle{} < 95)
Шаблон сообщения:
Загрузка процессора СХД ({{ $labels._comm_id }}) на ПАК {{ $labels._pak_id }} достигла {{ $value }}%
TatlinDiskBayFailure
Дисковая полка Tatlin находится в статусе Error.
Период: 5m (5 минут).
Важность: critical.
Категория: storage.
Выражение PromQL:
tatlinHwDiskbayStateCode != 1
Шаблон сообщения:
Дисковая полка {{ $labels.tatlinHwDiskbayId }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinDiskBayLost
Потеряна связь с дисковой полкой СХД Tatlin.
Период: 0s (без ожидания).
Важность: critical.
Категория: storage.
Выражение PromQL:
lag(tatlinHwDiskbaySn{}[2h]) > 15m
Шаблон сообщения:
Пропала связь с дисковой полкой {{ $labels.tatlinHwDiskbayId }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinDiskStatusError
Диск СХД Tatlin находится в статусе Error.
Период: 5m (5 минут).
Важность: critical.
Категория: storage.
Выражение PromQL:
tatlinHwDiskStateCode == 2
Шаблон сообщения:
Диск {{ $labels.tatlinHwDiskDiskId }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinDiskStatusInfo
Диск СХД Tatlin находится в статусе Info.
Период: 5m (5 минут).
Важность: info.
Категория: storage.
Выражение PromQL:
tatlinHwDiskStateCode !=1 and tatlinHwDiskStateCode !=2 and tatlinHwDiskStateCode !=3
Шаблон сообщения:
Диск {{ $labels.tatlinHwDiskDiskId }} находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinDiskStatusWarning
Диск СХД Tatlin находится в статусе Warning.
Период: 5m (5 минут).
Важность: warning.
Категория: storage.
Выражение PromQL:
tatlinHwDiskStateCode == 3
Шаблон сообщения:
Диск {{ $labels.tatlinHwDiskDiskId }} находится в статусе Warning, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinDriveCapacityFailure
Ошибка объёма накопителя СХД Tatlin.
Период: 30m (30 минут).
Важность: critical.
Категория: storage.
Выражение PromQL:
tatlinConfigDriveFailed > 0
Шаблон сообщения:
{{ $value }} байтов памяти накопителя {{ $labels.tatlinConfigDriveDriveID }} не определены, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinDriveFailed
Имеются ошибки накопителя СХД Tatlin.
Период: 30m (30 минут).
Важность: critical.
Категория: storage.
Выражение PromQL:
tatlinConfigDriveFailedCount > 0
Шаблон сообщения:
Имеется {{ $value }} ошибок накопителя {{ $labels.tatlinConfigDriveDriveID }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinEthernetPortError
Порт Ethernet СХД Tatlin находится в статусе Error.
Период: 5m (5 минут).
Важность: critical.
Категории:
-
network; -
storage.
Выражение PromQL:
tatlinHwEthStateCode == 2
Шаблон сообщения:
Диск {{ $labels.tatlinHwEthPortName }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinEthernetPortInfo
Порт Ethernet СХД Tatlin находится в статусе Info.
Период: 5m (5 минут).
Важность: info.
Категории:
-
network; -
storage.
Выражение PromQL:
tatlinHwEthStateCode !=1 and tatlinHwEthStateCode !=2 and tatlinHwEthStateCode !=3
Шаблон сообщения:
Порт Ethernet {{ $labels.tatlinHwEthPortName }} находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinEthernetPortWarning
Порт Ethernet СХД Tatlin находится в статусе Warning.
Период: 5m (5 минут).
Важность: warning.
Категории:
-
network; -
storage.
Выражение PromQL:
tatlinHwEthStateCode == 3
Шаблон сообщения:
Порт {{ $labels.tatlinHwEthPortName }} находится в статусе Warning, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinFibreChannelPortError
Порт Fibre Channel СХД Tatlin находится в статусе Error.
Период: 5m (5 минут).
Важность: critical.
Категории:
-
network; -
storage.
Выражение PromQL:
tatlinHwFcStateCode == 2
Шаблон сообщения:
Диск {{ $labels.tatlinHwEthPortName }} находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinFibreChannelPortInfo
Порт Fibre Channel СХД Tatlin находится в статусе Info.
Период: 5m (5 минут).
Важность: info.
Категории:
-
network; -
storage.
Выражение PromQL:
tatlinHwFcStateCode !=1 and tatlinHwFcStateCode !=2 and tatlinHwFcStateCode !=3
Шаблон сообщения:
Порт Ethernet {{ $labels.tatlinHwEthPortName }} находится в статусе {{ $value }}, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinFibreChannelPortWarning
Порт Fibre Channel СХД Tatlin находится в статусе Warning.
Период: 5m (5 минут).
Важность: warning.
Категории:
-
network; -
storage.
Выражение PromQL:
tatlinHwFcStateCode == 3
Шаблон сообщения:
Порт {{ $labels.tatlinHwEthPortName }} находится в статусе Warning, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinMultipathFailed
Сбой Multipath.
Период: 3m (3 минуты).
Важность: critical.
Категория: func_service.
Выражение PromQL:
multipath_status == 0
Шаблон сообщения:
Multipath для {{ $labels.name }} - {{ $labels.wwid }} находится в состоянии 'failed'. ПАК {{ $labels._pak_id }}
TatlinNoActiveiSCSIPaths
Пути iSCSI не обнаружены.
Период: 2m (2 минуты).
Важность: critical.
Категория: func_service.
Выражение PromQL:
iscsi_path_count == 0
Шаблон сообщения:
Не обнаружено ни одного iSCSI-пути {{ $labels.target_iqn }} более 2 минут. ПАК {{ $labels._pak_id }}
TatlinNoResponse
СХД Tatlin не отвечает по SNMP.
Период: 0s (без ожидания).
Важность: critical.
Категория: storage.
Выражение PromQL:
lag(tatlinVersion{}[2h]) > 15m
Шаблон сообщения:
СХД ({{ $labels._comm_id }}) на ПАК {{ $labels._pak_id }} не отвечает уже {{ $value | humanizeDuration }}
TatlinPoolFreeSpaceRunningOutCritical
Свободное место СХД Tatlin почти закончилось.
Период: 30m (30 минут).
Важность: critical.
Категория: storage.
Выражение PromQL:
tatlinConfigPoolWarnThreshold != 0 and (100 * tatlinConfigPoolUsedCap / tatlinConfigPoolTotalCap) >= tatlinConfigPoolCritThreshold
Шаблон сообщения:
{{ $value }}% места пула {{ $labels.tatlinConfigPoolName }} использовано, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinPoolFreeSpaceRunningOutWarning
Заканчивается свободное место СХД Tatlin.
Период: 30m (30 минут).
Важность: warning.
Категория: storage.
Выражение PromQL:
tatlinConfigPoolWarnThreshold != 0 and (100 * tatlinConfigPoolUsedCap / tatlinConfigPoolTotalCap) >= tatlinConfigPoolWarnThreshold
Шаблон сообщения:
{{ $value }}% места пула {{ $labels.tatlinConfigPoolName }} использовано, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinPoolOversubscription
Пул СХД Tatlin находится в состоянии избыточного выделения ресурсов.
Период: 30m (30 минут).
Важность: critical.
Категория: storage.
Выражение PromQL:
100 * sum by (_comm_id, _pak_id, tatlinConfigResPool) (tatlinConfigResTotalCap{} * on (_comm_id, _pak_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool{}) / max by (_comm_id, _pak_id, tatlinConfigResPool) (label_move(tatlinConfigPoolTotalCap{}, 'tatlinConfigPoolName', 'tatlinConfigResPool')) > 100
Шаблон сообщения:
У пула {{ $labels.tatlinConfigResPool }} выделение ресурсов достигло {{ $value | humanize }}%, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinReplicationManagementNetworkCritical
Сеть управления репликациями СХД Tatlin находится в статусе Failure.
Период: 5m (5 минут).
Важность: critical.
Категория: storage.
Выражение PromQL:
tatlinConfigReplicationStorageMgmtNetwork == 4
Шаблон сообщения:
Сеть управления репликациями находится в статусе Failure, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinReplicationNetworkCritical
Сеть репликаций СХД Tatlin находится в статусе Failure.
Период: 5m (5 минут).
Важность: critical.
Категория: storage.
Выражение PromQL:
tatlinConfigReplicationStorageReplicationNetwork != 1
Шаблон сообщения:
Сеть репликаций находится в статусе Error, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinResourceFreeSpaceRunningOutCritical
Свободное место ресурса СХД Tatlin почти закончилось.
Период: 30m (30 минут).
Важность: critical.
Категория: storage.
Выражение PromQL:
(tatlinConfigResAlertThreshold * on (_comm_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool * on (_comm_id, tatlinConfigResPool) group_left(tatlinConfigPoolType) label_replace(tatlinConfigPoolType{tatlinConfigPoolType="thin"}, "tatlinConfigResPool", "$1", "tatlinConfigPoolName", "(.*)")) != 0 and (100 * tatlinConfigResUsed{} / tatlinConfigResCap{} * on (_comm_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool{} * on (_comm_id, tatlinConfigResPool) group_left(tatlinConfigPoolType) label_replace(tatlinConfigPoolType{tatlinConfigPoolType="thin"}, "tatlinConfigResPool", "$1", "tatlinConfigPoolName", "(.*)")) >= (tatlinConfigResAlertThreshold{} * on (_comm_id, tatlinConfigResResName) group_left(tatlinConfigResPool) tatlinConfigResPool{} * on (_comm_id, tatlinConfigResPool) group_left(tatlinConfigPoolType) label_replace(tatlinConfigPoolType{tatlinConfigPoolType="thin"}, "tatlinConfigResPool", "$1", "tatlinConfigPoolName", "(.*)"))
Шаблон сообщения:
{{ $value }}% места ресурса {{ $labels.tatlinConfigResResName }} использовано, ПАК {{ $labels._pak_id }}, СХД ({{ $labels._comm_id }})
TatlinVGLockFailed
Отсутствие блокировки тома.
Период: 5m (5 минут).
Важность: warning.
Категория: storage.
Выражение PromQL:
count(up{job="tatlin_storage_exporter"}) by (_pak_id, _node_id) > 0 unless count(vg_lock_status{job="tatlin_storage_exporter"}) by (_pak_id, _node_id) > 0
Шаблон сообщения:
Отсутствие блокировки тома, lvmlock отсутсвует. ПАК {{ $labels._pak_id }} узел {{ $labels._node_id }}