МХД.О
Данные правила применимы для ПАК МХД.О.
ActiveServicesReduced_ACC
Уменьшилось количество активных ACC сервисов.
Период: 1m (1 минута).
Важность: warning.
Категория: func_service.
Выражение PromQL:
s3cluster_volume_service_configured_count{svc_type="ACC"} - s3cluster_volume_service_count{svc_type="ACC"} > 0
Шаблон сообщения:
Количество активных сервисов ACC уменьшилось в сравнении с скофигурированными на {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
ActiveServicesReduced_GW
Уменьшилось количество активных GW сервисов.
Период: 1m (1 минута).
Важность: warning.
Категория: func_service.
Выражение PromQL:
s3cluster_volume_service_configured_count{svc_type="GW"} - s3cluster_volume_service_count{svc_type="GW"} > 0
Шаблон сообщения:
Количество активных сервисов GW уменьшилось в сравнении с скофигурированными на {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
ActiveServicesReduced_NS
Уменьшилось количество активных NS сервисов.
Период: 1m (1 минута).
Важность: warning.
Категория: func_service.
Выражение PromQL:
s3cluster_volume_service_configured_count{svc_type="NS"} - s3cluster_volume_service_count{svc_type="NS"} > 0
Шаблон сообщения:
Количество активных сервисов NS уменьшилось в сравнении с скофигурированными на {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
ActiveServicesReduced_OS
Уменьшилось количество активных OS сервисов.
Период: 1m (1 минута).
Важность: warning.
Категория: func_service.
Выражение PromQL:
s3cluster_volume_service_configured_count{svc_type="OS"} - s3cluster_volume_service_count{svc_type="OS"} > 0
Шаблон сообщения:
Количество активных сервисов OS уменьшилось в сравнении с скофигурированными на {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
ClusterBlockedReplication
Заблокированная или медленная репликация в кластере.
Период: 1m (1 минута).
Важность: critical.
Категория: func_service.
Выражение PromQL:
increase(mdsd_cluster_replication_stuck_chunks[5m]) > 0 or increase(mdsd_cluster_replication_touts_total[5m]) > 0
Шаблон сообщения:
Репликация чанков заблокирована или слишком медленная.
ClusterCriticallyHighChunks
Критически большое количество чанков в кластере.
Период: 1m (1 минута).
Важность: critical.
Категория: func_service.
Выражение PromQL:
mdsd_fs_chunk_maps_sum >= 15000000
Шаблон сообщения:
В кластере слишком много чанков, что замедляет работу службы метаданных.
ClusterCriticallyHighFiles
Критически большое количество файлов в кластере.
Период: 1m (1 минута).
Важность: critical.
Категория: func_service.
Выражение PromQL:
mdsd_fs_files_sum >= 10000000
Шаблон сообщения:
В кластере слишком много файлов, что замедляет работу службы метаданных.
ClusterFailedChunkServices
Неисправные службы чанков в кластере.
Период: 1m (1 минута).
Важность: warning.
Категория: func_service.
Выражение PromQL:
sum(mdsd_cs_status_value{status="failed"}) + sum(mdsd_cs_status_value{status="failed rel"}) > 0
Шаблон сообщения:
Некоторые службы чанков завершились с ошибкой. Это может быть вызвано сбоем физического диска.
ClusterLowPhysicalSpace
Нехватка физического пространства в кластере.
Период: 1m (1 минута).
Важность: warning.
Категория: func_service.
Выражение PromQL:
label_replace(sum(mdsd_cluster_free_space_bytes_sum) by (tier) / sum(mdsd_cluster_space_bytes_sum) by (tier), "object_id", "tier-$1", "tier", "(.*)") < 0.2
Шаблон сообщения:
Осталось мало свободного физического пространства на уровне хранения {{ $labels.tier }}.
ClusterOfflineChunkServices
Оффлайн службы чанков в кластере.
Период: 1m (1 минута).
Важность: warning.
Категория: func_service.
Выражение PromQL:
sum(mdsd_cs_status_value{status="offline"}) > 0
Шаблон сообщения:
Некоторые службы чанков находятся в оффлайн. Проверьте и перезапустите их.
ClusterOutOfPhysicalSpace
Исчерпание физического пространства в кластере.
Период: 1m (1 минута).
Важность: critical.
Категория: func_service.
Выражение PromQL:
label_replace(sum(mdsd_cluster_free_space_bytes_sum) by (tier) / sum(mdsd_cluster_space_bytes_sum) by (tier), "object_id", "tier-$1", "tier", "(.*)") < 0.1
Шаблон сообщения:
Недостаточно свободного физического пространства на уровне хранения {{ $labels.tier }}.
ClusterTooManyChunks
Слишком много чанков в кластере.
Период: 1m (1 минута).
Важность: warning.
Категория: func_service.
Выражение PromQL:
15000000 > mdsd_fs_chunk_maps_sum > 10000000
Шаблон сообщения:
В кластере слишком много чанков, что замедляет работу службы метаданных.
ClusterTooManyFiles
Слишком много файлов в кластере.
Период: 1m (1 минута).
Важность: warning.
Категория: func_service.
Выражение PromQL:
10000000 > mdsd_fs_files_sum > 4000000
Шаблон сообщения:
В кластере слишком много файлов, что замедляет работу службы метаданных.
ClusterUnavailableMetadataServices
Недоступные службы метаданных в кластере.
Период: 1m (1 минута).
Важность: warning.
Категория: func_service.
Выражение PromQL:
count(up{service="MDS"}) - sum(up{service="MDS"}) > 0
Шаблон сообщения:
Некоторые службы метаданных находятся в оффлайн или завершились с ошибкой. Проверьте и перезапустите их.
FSFailedStart
Неудачный запуск файловой службы.
Период: 1m (1 минута).
Важность: critical.
Категория: func_service.
Выражение PromQL:
increase(ostor_svc_start_failed_count_total{service="FS"}[5m]) > 1
Шаблон сообщения:
Агент объектного хранилища не смог запустить файловую службу по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}.
HaproxyFrontendBytesInTotal
Отсутствие входящего трафика haproxy в течение 5 минут.
Период: 5m (5 минут).
Важность: warning.
Категория: func_service.
Выражение PromQL:
sum(rate(haproxy_frontend_bytes_in_total[5m])*8) by (instance) == 0
Шаблон сообщения:
Отсутствие входящего трафика haproxy в течение 5 минут на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
HaproxyFrontendBytesOutTotal
Отсутствие исходящего трафика haproxy в течение 5 минут.
Период: 5m (5 минут).
Важность: warning.
Категория: func_service.
Выражение PromQL:
sum(rate(haproxy_frontend_bytes_out_total[5m])*8) by (instance) == 0
Шаблон сообщения:
Отсутствие исходящего трафика haproxy в течение 5 минут на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
KeepalivedNetworkNotAvailable
Сеть сервиса keepalived недоступна.
Период: 5m (5 минут).
Важность: warning.
Категория: network.
Выражение PromQL:
keepalivedNetworkAvailability != 1
Шаблон сообщения:
Сеть сервиса keepalived узла {{$labels._node_id}} на ПАК {{$labels._pak_id}} недоступна
KeepalivedNotifyScriptNameChanged
Изменилось имя скрипта оповещения keepalived.
Период: 2m (2 минуты).
Важность: warning.
Категория: network.
Выражение PromQL:
delta(keepalivedNotifyScriptStatus[15m]) > 0
Шаблон сообщения:
Скрипт оповещения keepalived на узле {{$labels._node_id}} на ПАК {{$labels._pak_id}} изменил имя, текущее имя скрипта - {{ $labels.script_name }}
KeepalivedNotifyScriptNameEmpty
Пустое имя скрипта оповещения keepalived.
Период: 0m (без ожидания).
Важность: warning.
Категория: network.
Выражение PromQL:
count(keepalivedNotifyScriptStatus{script_name=""}) > 0
Шаблон сообщения:
Скрипт оповещения keepalived на узле {{$labels._node_id}} на ПАК {{$labels._pak_id}} не имеет имени
KeepalivedNotifyScriptWarning
Скрипт оповещения keepalived не включен.
Период: 2m (2 минуты).
Важность: warning.
Категория: network.
Выражение PromQL:
keepalivedNotifyScriptStatus != 1
Шаблон сообщения:
Скрипт оповещения keepalived на узле {{$labels._node_id}} на ПАК {{$labels._pak_id}} выключен, имя скрипта - {{ $labels.script_name }}
KeepalivedScriptHcheckInfoChanged
Изменилось имя скрипта оповещения keepalived.
Период: 2m (2 минуты).
Важность: warning.
Категория: network.
Выражение PromQL:
delta(keepalivedScriptHcheckInfo[15m]) > 0
Шаблон сообщения:
Скрипт проверки статуса keepalived на узле {{$labels._node_id}} на ПАК {{$labels._pak_id}} изменил имя, текущее имя скрипта - {{ $labels.hcheck_name}}
KeepalivedScriptHcheckInfoEmpty
Пустое имя скрипта оповещения keepalived.
Период: 0s (без ожидания).
Важность: warning.
Категория: network.
Выражение PromQL:
count(keepalivedScriptHcheckInfo{hcheck_name=""}) > 0
Шаблон сообщения:
Скрипт проверки статуса keepalived на узле {{$labels._node_id}} на ПАК {{$labels._pak_id}} не имеет имени
KeepalivedVIPInterfaceStatusChanged
Изменилось имя скрипта оповещения keepalived.
Период: 2m (2 минуты).
Важность: warning.
Категория: network.
Выражение PromQL:
delta(keepalivedVIPInterfaceStatus[15m]) > 0
Шаблон сообщения:
Изменился интерфейс VIP keepalived на узле {{$labels._node_id}} на ПАК {{$labels._pak_id}}, текущий интерфейс - {{ $labels.interface_name }}
KeepalivedVIPInterfaceStatusEmpty
Пустое имя интерфейса VIP keepalived.
Период: 0s (без ожидания).
Важность: warning.
Категория: network.
Выражение PromQL:
count(keepalivedVIPInterfaceStatus{interface_name=""}) > 0
Шаблон сообщения:
Интерфейс VIP keepalived на узле {{$labels._node_id}} на ПАК {{$labels._pak_id}} не имеет имени
KeepalivedVIPInterfaceStatusWarning
Интерфейс keepalived находится в критическом состоянии.
Период: 5m (5 минут).
Важность: warning.
Категория: network.
Выражение PromQL:
keepalivedVIPInterfaceStatus != 1
Шаблон сообщения:
Интерфейс VIP keepalived на узле {{$labels._node_id}} на ПАК {{$labels._pak_id}} находится в статусе {{ $value }}
KeepalivedVIPStatusWarning
VIP keepalived находится в аварийном состоянии.
Период: 5m (5 минут).
Важность: warning.
Категория: network.
Выражение PromQL:
keepalivedVIPStatus != 1
Шаблон сообщения:
VIP keepalived на узле {{$labels._node_id}} на ПАК {{$labels._pak_id}} находится в аварийном состоянии, текущий статус - {{ $value }}
KeepalivedVRRPBasePriorityWarning
Базовый приоритет узла VRRP keepalived отличен от целевого.
Период: 5m (5 минут).
Важность: warning.
Категория: network.
Выражение PromQL:
keepalivedVRRPBasePriority != keepalivedVRRPTargetPriority
Шаблон сообщения:
Базовый приоритет узла VRRP keepalived на узле {{$labels._node_id}} на ПАК {{$labels._pak_id}} отличен от целевого, текущее значение - {{ $value }}
KeepalivedVRRPInterfaceChanged
Изменился интерфейс VRRP keepalived.
Период: 0s (без ожидания).
Важность: warning.
Категория: network.
Выражение PromQL:
delta(keepalivedVRRPInterface[15m]) > 0
Шаблон сообщения:
Изменился интерфейс VRRP на узле {{$labels._node_id}} на ПАК {{$labels._pak_id}}, текущий интерфейс - {{ $labels.interface_name}}
KeepalivedVRRPInterfaceNameEmpty
Отсутствует интерфейс VRRP keepalived.
Период: 0s (без ожидания).
Важность: warning.
Категория: network.
Выражение PromQL:
count(keepalivedVRRPInterface{interface_name=""}) > 0
Шаблон сообщения:
Отсутствует интерфейс VRRP на узле {{$labels._node_id}} на ПАК {{$labels._pak_id}}
KeepalivedVRRPPriorityHostWarning
Проблемы с приоритезированием хостов keepalived.
Период: 2m (2 минуты).
Важность: warning.
Категория: network.
Выражение PromQL:
keepalivedVRRPPriorityHostStatus = 2
Шаблон сообщения:
Keepalived на узле {{$labels._node_id}} на ПАК {{$labels._pak_id}} испытывает проблемы с приоритезацией хостов
KeepalivedVRRPStatusWarning
Узел VRRP находится в статусе, отличающемся от необходимого.
Период: 5m (5 минут).
Важность: warning.
Категория: network.
Выражение PromQL:
keepalivedVRRPStatus != keepalivedVRRPDesiredStatus
Шаблон сообщения:
Статус узла VRRP keepalived на узле {{$labels._node_id}} на ПАК {{$labels._pak_id}} отличен от необходимого, текущее значение - {{ $value }}
KeepalivedVRRPVersionNot3
Версия VRRP keepalived отличается от 3.
Период: 5m (5 минут).
Важность: warning.
Выражение PromQL:
keepalivedVRRPVersion != 3
Шаблон сообщения:
Версия VRRP keepalived на узле {{$labels._node_id}} на ПАК {{$labels._pak_id}} отличается от 3, текущее значение - {{ $value }}
LicenceCapacityUtilizationAlarm
Утилизация лицензий превысила 95%.
Период: 1m (1 минута).
Важность: warning.
Категория: func_service.
Выражение PromQL:
(vstorage_space_free*100/vstorage_license_capacity >= 95) AND (vstorage_space_free*100/vstorage_license_capacity < 99)
Шаблон сообщения:
Утилизация лицензий МХД.О превысила 95% на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
LicenceCapacityUtilizationCritical
Утилизация лицензий превысила 99%.
Период: 1m (1 минута).
Важность: critical.
Категория: func_service.
Выражение PromQL:
vstorage_space_free*100/vstorage_license_capacity >= 99
Шаблон сообщения:
Утилизация лицензий МХД.О превысила 95% на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
LicenceCapacityUtilizationWarning
Утилизация лицензий превысила 85%.
Период: 1m (1 минута).
Важность: info.
Категория: func_service.
Выражение PromQL:
(vstorage_space_free*100/vstorage_license_capacity >= 85) AND (vstorage_space_free*100/vstorage_license_capacity < 95)
Шаблон сообщения:
Утилизация лицензий МХД.О превысила 85% на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
LicenceExpirationAlarm
До истечения лицензий МХД.О менее 14 дней.
Период: 1m (1 минута).
Важность: warning.
Категория: func_service.
Выражение PromQL:
(vstorage_license_expiration_ts*1000 <= 14) AND (vstorage_license_expiration_ts*1000 > 7)
Шаблон сообщения:
До истечения лицензий МХД.О менее 14 дней на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
LicenceExpirationCritical
До истечения лицензий МХД.О менее 7 дней.
Период: 1m (1 минута).
Важность: critical.
Категория: func_service.
Выражение PromQL:
vstorage_license_expiration_ts*1000 <= 7
Шаблон сообщения:
До истечения лицензий МХД.О менее 7 дней на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
LicenceExpirationWarning
До истечения лицензий МХД.О менее 30 дней.
Период: 1m (1 минута).
Важность: info.
Категория: func_service.
Выражение PromQL:
(vstorage_license_expiration_ts*1000 <= 30) AND (vstorage_license_expiration_ts*1000 > 14)
Шаблон сообщения:
До истечения лицензий МХД.О менее 30 дней на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
MHDoPostgresSizeH3GB
Размер служебной БД PostgreSQL МХД.О превысил 3 Гб.
Период: 1m (1 минута).
Важность: warning.
Категория: func_service.
Выражение PromQL:
mhdo_pg_bd_size > 3 * 1024 * 1024 * 1024
Шаблон сообщения:
База данных {{ $labels.database_name}} ПАК {{$labels._pak_id}} занимает более 3 Гб
MHDoPostgresSpaceCritical
Служебная БД PostgreSQL МХД.О занимает более половины размера корневой директории.
Период: 5m (5 минут).
Важность: critical.
Категория: func_service.
Выражение PromQL:
sum(pg_bd_size) by (database_name) / sum(node_filesystem_size_bytes{mountpoint="/"}) > 0.5
Шаблон сообщения:
База данных {{ $labels.database_name}} ПАК {{$labels._pak_id}} занимает более половины размера корневой директории
MHDoPostgresSyncError
Между мастер-сервером и репликой базы данных PostgreSQL обнаружена рассинхронизация.
Период: 5m (5 минут).
Важность: warning.
Категория: func_service.
Выражение PromQL:
mhdo_pg_bytes_behind != 0
Шаблон сообщения:
Реплика БД PostgreSQL {{ $labels.application_name}} ПАК {{$labels._pak_id}} отстаёт от мастера на {{ $value }} байт(а)
MasterMetadataServiceFrequentChanges
Частая смена главной службы метаданных.
Период: 10m (10 минут).
Важность: warning.
Категория: func_service.
Выражение PromQL:
topk(1, mdsd_is_master_top1) and (delta(mdsd_master_uptime[1h]) < 300000)
Шаблон сообщения:
Главная служба метаданных изменилась более одного раза за 5 минут.
MetadataServiceCriticallyHighLatency
Критически высокая задержка коммитов службы метаданных.
Период: 1m (1 минута).
Важность: critical.
Категория: func_service.
Выражение PromQL:
histogram_quantile(0.95, rjournal_commit_duration_seconds_bucket_rate) >= 5
Шаблон сообщения:
Служба метаданных по адресу {{ $labels.instance }} имеет 95-й процентиль задержки выше 5 секунд.
MetadataServiceHighCommitLatency
Высокая задержка коммитов службы метаданных.
Период: 1m (1 минута).
Важность: warning.
Категория: func_service.
Выражение PromQL:
5 > histogram_quantile(0.95, rjournal_commit_duration_seconds_bucket_rate) > 1
Шаблон сообщения:
Служба метаданных по адресу {{ $labels.instance }} имеет 95-й процентиль задержки выше 1 секунды.
NFSServiceUnavailableFSServices
Недоступные файловые службы NFS.
Период: 1m (1 минута).
Важность: warning.
Категория: func_service.
Выражение PromQL:
count(up{service="FS"}) by (instance) > sum(up{service="FS"}) by (instance)
Шаблон сообщения:
Некоторые файловые службы не работают на узле {{ $labels._node_id }}. Проверьте статус службы в командной строке.
NameServiceCriticallyHighCommitLatency
Критически высокая задержка коммитов службы имён.
Период: 1m (1 минута).
Важность: critical.
Категория: func_service.
Выражение PromQL:
histogram_quantile(0.5, sum(ostor_commit_latency_us_bucket_rate{service="NS"}) by (instance, _pak_id, le)) >= 10000000
Шаблон сообщения:
Служба имен по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку коммитов выше 10 секунд. Проверьте производительность хранилища.
NameServiceCriticallyHighLatency
Критически высокая задержка запросов службы имён.
Период: 1m (1 минута).
Важность: critical.
Категория: func_service.
Выражение PromQL:
histogram_quantile(0.5, sum(ostor_ns_req_latency_ms_bucket_rate) by (instance, _pak_id, le)) >= 5000
Шаблон сообщения:
Служба имен по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку запросов выше 5 секунд.
NameServiceHighCommitLatency
Высокая задержка коммитов службы имён.
Период: 1m (1 минута).
Важность: warning.
Категория: func_service.
Выражение PromQL:
10000000 > histogram_quantile(0.5, sum(ostor_commit_latency_us_bucket_rate{service="NS"}) by (instance, _pak_id, le)) > 1000000
Шаблон сообщения:
Служба имен по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку коммитов выше 1 секунды. Проверьте производительность хранилища.
NameServiceHighLatency
Высокая задержка запросов службы имён.
Период: 1m (1 минута).
Важность: warning.
Категория: func_service.
Выражение PromQL:
5000 > histogram_quantile(0.5, sum(ostor_ns_req_latency_ms_bucket_rate) by (instance, _pak_id, le)) > 1000
Шаблон сообщения:
Служба имен по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку запросов выше 1 секунды.
NetworkBondNotRedundant
Сетевой бонд не избыточен.
Период: 5m (5 минут).
Важность: critical.
Категория: func_service.
Выражение PromQL:
node_bonding_slaves - node_bonding_active > 0
Шаблон сообщения:
Сетевой бонд {{ $labels.master }} на узле {{ $labels._node_id }} не имеет {{ $labels.value }} подчиненных интерфейсов.
NodeFailedMapRequests
Неудавшиеся запросы карты на узле.
Период: 1m (1 минута).
Важность: critical.
Категория: func_service.
Выражение PromQL:
fused_maps_failed > 0 or rate(fused_map_failures_total[5m]) > 0
Шаблон сообщения:
Некоторые запросы карты на узле {{ $labels._node_id }} завершились неудачно.
NodeHighTransmitPacketError
Высокая частота ошибок исходящих пакетов.
Период: 5m (5 минут).
Важность: warning.
Категория: func_service.
Выражение PromQL:
node_network_transmit_errs_total_rate > 1000
Шаблон сообщения:
Узел {{ $labels._node_id }} имеет частоту ошибок исходящих пакетов ({{ $labels.value }}). Проверьте настройки сети узла.
NodeStuckIORequests
Застрявшие запросы ввода-вывода на узле.
Период: 1m (1 минута).
Важность: critical.
Категория: func_service.
Выражение PromQL:
fused_stuck_reqs_30s > 0 or fused_stuck_reqs_10s > 0
Шаблон сообщения:
Некоторые запросы ввода-вывода застряли на узле {{ $labels._node_id }}.
ObjectServiceCriticallyHighCommitLatency
Критически высокая задержка коммитов объектной службы.
Период: 1m (1 минута).
Важность: critical.
Категория: func_service.
Выражение PromQL:
histogram_quantile(0.5, sum(ostor_commit_latency_us_bucket_rate{service="OS"}) by (instance, _pak_id, le)) >= 10000000
Шаблон сообщения:
Объектная служба по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку коммитов выше 10 секунд. Проверьте производительность хранилища.
ObjectServiceCriticallyHighLatency
Критически высокая задержка запросов объектной службы.
Период: 1m (1 минута).
Важность: critical.
Категория: func_service.
Выражение PromQL:
histogram_quantile(0.5, sum(ostor_os_req_latency_ms_bucket_rate) by (instance, _pak_id, le)) >= 5000
Шаблон сообщения:
Объектная служба по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку запросов выше 5 секунд.
ObjectServiceHighCommitLatency
Высокая задержка коммитов объектной службы.
Период: 1m (1 минута).
Важность: warning.
Категория: func_service.
Выражение PromQL:
10000000 > histogram_quantile(0.5, sum(ostor_commit_latency_us_bucket_rate{service="OS"}) by (instance, _pak_id, le)) > 1000000
Шаблон сообщения:
Объектная служба по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку коммитов выше 1 секунды. Проверьте производительность хранилища.
ObjectServiceHighLatency
Высокая задержка запросов объектной службы.
Период: 1m (1 минута).
Важность: warning.
Категория: func_service.
Выражение PromQL:
5000 > histogram_quantile(0.5, sum(ostor_os_req_latency_ms_bucket_rate) by (instance, _pak_id, le)) > 1000
Шаблон сообщения:
Объектная служба по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку запросов выше 1 секунды.
ObjectStorageAgentFrozen
Замороженный агент объектного хранилища.
Период: 1m (1 минута).
Важность: critical.
Категория: func_service.
Выражение PromQL:
increase(pcs_process_inactive_seconds_total{service="OS"}[5m]) > 0
Шаблон сообщения:
Агент объектного хранилища по адресу {{ $labels.instance }} имеет неактивный цикл событий более 1 минуты.
ObjectStorageAgentNoConfigConnection
Агент объектного хранилища не подключен к службе конфигурации.
Период: 1m (1 минута).
Важность: critical.
Категория: func_service.
Выражение PromQL:
increase(ostor_svc_registry_cfg_failed_total[5m]) > 1
Шаблон сообщения:
Агент объектного хранилища не смог подключиться к службе конфигурации по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}.
ObjectStorageAgentOffline
Оффлайн агент объектного хранилища.
Период: 1m (1 минута).
Важность: warning.
Категория: func_service.
Выражение PromQL:
up{service="OSTOR_REPLICATO"} == 0
Шаблон сообщения:
Агент объектного хранилища находится в оффлайн по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}.
S3ClusterUnavailableGeoReplicationServices
Недоступные службы георепликации в кластере S3.
Период: 1m (1 минута).
Важность: warning.
Категория: func_service.
Выражение PromQL:
count(up{service="GR"}) by (instance) > sum(up{service="GR"}) by (instance)
Шаблон сообщения:
Некоторые службы георепликации не работают по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}. Проверьте статус службы в командной строке.
S3ClusterUnavailableNameServices
Недоступные службы имён в кластере S3.
Период: 1m (1 минута).
Важность: warning.
Категория: func_service.
Выражение PromQL:
count(up{service="NS"}) by (instance) > sum(up{service="NS"}) by (instance)
Шаблон сообщения:
Некоторые службы имен не работают по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}. Проверьте статус службы в командной строке.
S3ClusterUnavailableObjectServices
Недоступные объектные службы в кластере S3
Период: 1m (1 минута).
Важность: warning.
Категория: func_service.
Выражение PromQL:
count(up{service="OS"}) by (instance) > sum(up{service="OS"}) by (instance)
Шаблон сообщения:
Некоторые объектные службы не работают по адресу {{ $labels.instance }} ПАК {{ $labels._pak_id }}. Проверьте статус службы в командной строке.
S3ClusterUnavailableS3GatewayServices
Недоступные службы шлюза S3 в кластере.
Период: 1m (1 минута).
Важность: warning.
Категория: func_service.
Выражение PromQL:
count(up{service="S3GW"}) by (instance) > sum(up{service="S3GW"}) by (instance)
Шаблон сообщения:
Некоторые службы шлюза S3 не работают по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}. Проверьте статус службы в командной строке.
S3GatewayCriticallyHighCPU
Критически высокая загрузка процессора шлюза S3.
Период: 1m (1 минута).
Важность: critical.
Категория: func_service.
Выражение PromQL:
(sum by (instance, _pak_id) (rate(process_cpu_seconds_total{service="S3GW"}[5m])) * 100) >= 90
Шаблон сообщения:
Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет загрузку процессора выше 90%. Служба может быть перегружена.
S3GatewayCriticallyHighCancelRate
Критически высокая частота отмены запросов шлюза S3.
Период: 1m (1 минута).
Важность: critical.
Категория: func_service.
Выражение PromQL:
((sum(ostor_s3gw_req_cancelled_rate) by (_pak_id, instance)) / (sum(ostor_s3gw_req_rate) by (_pak_id, instance))) * 100 >= 30
Шаблон сообщения:
Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет частоту отмены запросов выше 30%. Это может быть вызвано проблемами с подключением, таймаутами запросов или низким лимитом ожидающих запросов.
S3GatewayCriticallyHighGetLatency
Критически высокая задержка GET-запросов шлюза S3.
Период: 1m (1 минута).
Важность: critical.
Категория: func_service.
Выражение PromQL:
histogram_quantile(0.5, sum(ostor_s3gw_get_req_latency_ms_bucket_rate) by (_pak_id, instance, le)) >= 5000
Шаблон сообщения:
Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку GET-запросов выше 5 секунд.
S3GatewayHighCPU
Высокая загрузка процессора шлюза S3.
Период: 1m (1 минута).
Важность: warning.
Категория: func_service.
Выражение PromQL:
90 > (sum by (instance, _pak_id) (rate(process_cpu_seconds_total{service="S3GW"}[5m])) * 100) > 75
Шаблон сообщения:
Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет загрузку процессора выше 75%. Служба может быть перегружена.
S3GatewayHighCancelRate
Высокая частота отмены запросов шлюза S3.
Период: 1m (1 минута).
Важность: warning.
Категория: func_service.
Выражение PromQL:
30 > ((sum(ostor_s3gw_req_cancelled_rate) by (_pak_id, instance)) / (sum(ostor_s3gw_req_rate) by (_pak_id, instance))) * 100 > 5
Шаблон сообщения:
Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет частоту отмены запросов выше 5%. Это может быть вызвано проблемами с подключением, таймаутами запросов или низким лимитом ожидающих запросов.
S3GatewayHighFailedRequests
Большое количество неудачных запросов шлюза S3.
Период: 1m (1 минута).
Важность: critical.
Категория: func_service.
Выражение PromQL:
((sum(ostor_req_server_err_rate) by (instance, _pak_id)) / (sum(ostor_s3gw_req_rate) by (instance, _pak_id))) * 100 > 5
Шаблон сообщения:
Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет много неудачных запросов с ошибкой сервера (код состояния 5XX).
S3GatewayHighGetLatency
Высокая задержка GET-запросов шлюза S3.
Период: 1m (1 минута).
Важность: warning.
Категория: func_service.
Выражение PromQL:
5000 > histogram_quantile(0.5, sum(ostor_s3gw_get_req_latency_ms_bucket_rate) by (instance, _pak_id, le)) > 1000
Шаблон сообщения:
Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку GET-запросов выше 1 секунды.
S3ServiceFailedStart
Неудачный запуск службы S3.
Период: 1m (1 минута).
Важность: critical.
Категория: func_service.
Выражение PromQL:
increase(ostor_svc_start_failed_count_total{service=~"OS | NS | S3GW"}[5m]) > 1
Шаблон сообщения:
Агент объектного хранилища не смог запустить {{ $labels.service }} по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}.
S3ServiceFrozen
Замороженная служба S3.
Период: 1m (1 минута).
Важность: critical.
Категория: func_service.
Выражение PromQL:
increase(pcs_process_inactive_seconds_total{service=~"S3GW | OS | NS"}[5m]) > 0
Шаблон сообщения:
Служба S3 ({{ $labels.service }}, по адресу {{ $labels._pak_id }}) ПАК {{ $labels._pak_id }} имеет неактивный цикл событий более 1 минуты.
SystemUnitChronydRestart
Перезапуск сервиса chronyd.service.
Период: 1m (1 минута).
Важность: warning.
Категория: server
Выражение PromQL:
(systemd_service_uptime{service="chronyd.service"} < systemd_service_uptime{service="chronyd.service"} offset 1m) == 1
Шаблон сообщения:
Произошел перезапуск сервиса chronyd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitChronydStoped
Остановка сервиса chronyd.service.
Период: 1m (1 минута).
Важность: critical.
Категория: server
Выражение PromQL:
systemd_unit_state{name="chronyd.service"}!= 1
Шаблон сообщения:
Произошла остановка сервиса chronyd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitHaproxyRestart
Перезапуск сервиса haproxy.service.
Период: 1m (1 минута).
Важность: warning.
Категория: server
Выражение PromQL:
(systemd_service_uptime{service="haproxy.service"} < systemd_service_uptime{service="haproxy.service"} offset 1m) == 1
Шаблон сообщения:
Произошел перезапуск сервиса haproxy.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitHaproxyStoped
Остановка сервиса haproxy.service.
Период: 1m (1 минута).
Важность: critical.
Категория: server
Выражение PromQL:
systemd_unit_state{name="haproxy.service"}!= 1
Шаблон сообщения:
Произошла остановка сервиса haproxy.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitKeepalivedRestart
Перезапуск сервиса keepalived.service.
Период: 1m (1 минута).
Важность: warning.
Категория: server
Выражение PromQL:
(systemd_service_uptime{service="keepalived.service"} < systemd_service_uptime{service="keepalived.service"} offset 1m) == 1
Шаблон сообщения:
Произошел перезапуск сервиса keepalived.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitKeepalivedStoped
Остановка сервиса keepalived.service.
Период: 1m (1 минута).
Важность: critical.
Категория: server
Выражение PromQL:
systemd_unit_state{name="keepalived.service"}!= 1
Шаблон сообщения:
Произошла остановка сервиса keepalived.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitNginxRestart
Перезапуск сервиса nginx.service.
Период: 1m (1 минута).
Важность: warning.
Категория: server
Выражение PromQL:
(systemd_service_uptime{service="nginx.service"} < systemd_service_uptime{service="nginx.service"} offset 1m) == 1
Шаблон сообщения:
Произошел перезапуск сервиса nginx.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitNginxStoped
Остановка сервиса nginx.service.
Период: 1m (1 минута).
Важность: critical.
Категория: server
Выражение PromQL:
systemd_unit_state{name="nginx.service"}!= 1
Шаблон сообщения:
Произошла остановка сервиса nginx.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitOstorAgentdRestart
Перезапуск сервиса ostor-agentd.service.
Период: 1m (1 минута).
Важность: warning.
Категория: server
Выражение PromQL:
(systemd_service_uptime{service="ostor-agentd.service"} < systemd_service_uptime{service="ostor-agentd.service"} offset 1m) == 1
Шаблон сообщения:
Произошел перезапуск сервиса ostor-agentd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitOstorAgentdStoped
Остановка сервиса ostor-agentd.service.
Период: 1m (1 минута).
Важность: critical.
Категория: server
Выражение PromQL:
systemd_unit_state{name="ostor-agentd.service"}!= 1
Шаблон сообщения:
Произошла остановка сервиса ostor-agentd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitOstorCfgdRestart
Перезапуск сервиса ostor-cfgd.service.
Период: 1m (1 минута).
Важность: warning.
Категория: server
Выражение PromQL:
(systemd_service_uptime{service="ostor-cfgd.service"} < systemd_service_uptime{service="ostor-cfgd.service"} offset 1m) == 1
Шаблон сообщения:
Произошел перезапуск сервиса ostor-cfgd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitOstorCfgdStoped
Остановка сервиса ostor-cfgd.service.
Период: 1m (1 минута).
Важность: critical.
Категория: server
Выражение PromQL:
systemd_unit_state{name="ostor-cfgd.service"}!= 1
Шаблон сообщения:
Произошла остановка сервиса ostor-cfgd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitPacemakerRestart
Перезапуск сервиса pacemaker.service.
Период: 1m (1 минута).
Важность: warning.
Категория: server
Выражение PromQL:
(systemd_service_uptime{service="pacemaker.service"} < systemd_service_uptime{service="pacemaker.service"} offset 1m) == 1
Шаблон сообщения:
Произошел перезапуск сервиса pacemaker.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitPacemakerStoped
Остановка сервиса pacemaker.service.
Период: 1m (1 минута).
Важность: critical.
Категория: server
Выражение PromQL:
systemd_unit_state{name="pacemaker.service"}!= 1
Шаблон сообщения:
Произошла остановка сервиса pacemaker.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitPostgresRestart
Перезапуск сервиса postgres.server.
Период: 1m (1 минута).
Важность: warning.
Категория: server
Выражение PromQL:
(systemd_service_uptime{service="postgres.server"} < systemd_service_uptime{service="postgres.server"} offset 1m) == 1
Шаблон сообщения:
Произошел перезапуск сервиса postgres.server на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitPostgresStoped
Остановка сервиса postgres.server.
Период: 1m (1 минута).
Важность: critical.
Категория: server
Выражение PromQL:
systemd_unit_state{name="postgres.service"}!= 1
Шаблон сообщения:
Произошла остановка сервиса postgres.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitS3GatewayCompressionServerRestart
Перезапуск сервиса s3gateway-compression-server.service.
Период: 1m (1 минута).
Важность: warning.
Категория: server
Выражение PromQL:
(systemd_service_uptime{service="s3gateway-compression-server.service"} < systemd_service_uptime{service="s3gateway-compression-server.service"} offset 1m) == 1
Шаблон сообщения:
Произошел перезапуск сервиса s3gateway-compression.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitS3GatewayCompressionServerStoped
Остановка сервиса s3gateway-compression-server.service.
Период: 1m (1 минута).
Важность: critical.
Категория: server
Выражение PromQL:
systemd_unit_state{name="s3gateway-compression-server.service"} != 1
Шаблон сообщения:
Произошла остановка сервиса s3gateway-compression-server.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitS3GatewayControlServerRestart
Перезапуск сервиса s3gateway-control-server.service.
Период: 1m (1 минута).
Важность: warning.
Категория: server
Выражение PromQL:
(systemd_service_uptime{service="s3gateway-control-server.service"} < systemd_service_uptime{service="s3gateway-control-server.service"} offset 1m) == 1
Шаблон сообщения:
Произошел перезапуск сервиса s3gateway-control.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitS3GatewayControlServerStoped
Остановка сервиса s3gateway-control-server.service.
Период: 1m (1 минута).
Важность: critical.
Категория: server
Выражение PromQL:
systemd_unit_state{name="s3gateway-control-server.service"} != 1
Шаблон сообщения:
Произошла остановка сервиса s3gateway-control-server.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitS3GatewayOstorServerRestart
Перезапуск сервиса s3gateway-ostor-server.service.
Период: 1m (1 минута).
Важность: warning.
Категория: server
Выражение PromQL:
(systemd_service_uptime{service="s3gateway-ostor-server.service"} < systemd_service_uptime{service="s3gateway-ostor-server.service"} offset 1m) == 1
Шаблон сообщения:
Произошел перезапуск сервиса s3gateway-ostor.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitS3GatewayOstorServerStoped
Остановка сервиса s3gateway-ostor-server.service.
Период: 1m (1 минута).
Важность: critical.
Категория: server
Выражение PromQL:
systemd_unit_state{name="s3gateway-ostor-server.service"}!= 1
Шаблон сообщения:
Произошла остановка сервиса s3gateway-ostor-server.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitS3GatewayProxyServerRestart
Перезапуск сервиса s3gateway-proxy-server.service.
Период: 1m (1 минута).
Важность: warning.
Категория: server
Выражение PromQL:
(systemd_service_uptime{service="s3gateway-proxy-server.service"} < systemd_service_uptime{service="s3gateway-proxy-server.service"} offset 1m) == 1
Шаблон сообщения:
Произошел перезапуск сервиса s3gateway-proxy.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitS3GatewayProxyServerStoped
Остановка сервиса s3gateway-proxy-server.service.
Период: 1m (1 минута).
Важность: critical.
Категория: server
Выражение PromQL:
systemd_unit_state{name="s3gateway-proxy-server.service"} != 1
Шаблон сообщения:
Произошла остановка сервиса s3gateway-proxy-server.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitVstorageCsdRestart
Перезапуск сервиса вида vstorage-csd.X.X.service.
Период: 1m (1 минута).
Важность: warning.
Категория: server
Выражение PromQL:
(systemd_service_uptime{service=~"vstorage-csd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"} < systemd_service_uptime{service=~"vstorage-csd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"} offset 1m) == 1
Шаблон сообщения:
Произошел перезапуск сервиса вида vstorage-csd.X.X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitVstorageCsdStoped
Остановка сервиса вида vstorage-csd.X.X.service.
Период: 1m (1 минута).
Важность: critical.
Категория: server
Выражение PromQL:
systemd_unit_state{name=~"vstorage-csd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"}!= 1
Шаблон сообщения:
Произошла остановка сервиса vstorage-csd.X.X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitVstorageMdsdStoped
Остановка сервиса вида vstorage-mdsd.X.X.service.
Период: 1m (1 минута).
Важность: critical.
Категория: server
Выражение PromQL:
systemd_unit_state{name=~"vstorage-mdsd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"}!= 1
Шаблон сообщения:
Произошла остановка сервиса vstorage-mdsd.X.X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitVstorageMsdRestart
Перезапуск сервиса вида vstorage-mdsd.X.X.service.
Период: 1m (1 минута).
Важность: warning.
Категория: server
Выражение PromQL:
(systemd_service_uptime{service=~"vstorage-mdsd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"} < systemd_service_uptime{service=~"vstorage-mdsd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"} offset 1m) == 1
Шаблон сообщения:
Произошел перезапуск сервиса вида vstorage-mdsd.X.X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitVstorageShamanRestart
Перезапуск сервиса вида vstorage-shaman@X.service.
Период: 1m (1 минута).
Важность: warning.
Категория: server
Выражение PromQL:
(systemd_service_uptime{service=~"shaman@[a-zA-Z0-9]+\\.service"} < systemd_service_uptime{service=~"shaman@[a-zA-Z0-9]+\\.service"} offset 1m) == 1
Шаблон сообщения:
Произошел перезапуск сервиса вида vstorage-shaman@X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}
SystemUnitVstorageShamanStoped
Остановка сервиса вида vstorage-shaman@.X.service.
Период: 1m (1 минута).
Важность: critical.
Категория: server
Выражение PromQL:
systemd_unit_state{name=~"shaman@[a-zA-Z0-9]+\\.service"}!= 1
Шаблон сообщения:
Произошла остановка сервиса vstorage-shaman@.X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}