МХД.О

Данные правила применимы для ПАК МХД.О.

ActiveServicesReduced_ACC

Уменьшилось количество активных ACC сервисов.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

s3cluster_volume_service_configured_count{svc_type="ACC"} - s3cluster_volume_service_count{svc_type="ACC"} > 0

Шаблон сообщения:

Количество активных сервисов ACC уменьшилось в сравнении с скофигурированными на {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

ActiveServicesReduced_GW

Уменьшилось количество активных GW сервисов.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

s3cluster_volume_service_configured_count{svc_type="GW"} - s3cluster_volume_service_count{svc_type="GW"} > 0

Шаблон сообщения:

Количество активных сервисов GW уменьшилось в сравнении с скофигурированными на {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

ActiveServicesReduced_NS

Уменьшилось количество активных NS сервисов.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

s3cluster_volume_service_configured_count{svc_type="NS"} - s3cluster_volume_service_count{svc_type="NS"} > 0

Шаблон сообщения:

Количество активных сервисов NS уменьшилось в сравнении с скофигурированными на {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

ActiveServicesReduced_OS

Уменьшилось количество активных OS сервисов.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

s3cluster_volume_service_configured_count{svc_type="OS"} - s3cluster_volume_service_count{svc_type="OS"} > 0

Шаблон сообщения:

Количество активных сервисов OS уменьшилось в сравнении с скофигурированными на {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

ClusterBlockedReplication

Заблокированная или медленная репликация в кластере.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

increase(mdsd_cluster_replication_stuck_chunks[5m]) > 0 or increase(mdsd_cluster_replication_touts_total[5m]) > 0

Шаблон сообщения:

Репликация чанков заблокирована или слишком медленная.

ClusterCriticallyHighChunks

Критически большое количество чанков в кластере.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

mdsd_fs_chunk_maps_sum >= 15000000

Шаблон сообщения:

В кластере слишком много чанков, что замедляет работу службы метаданных.

ClusterCriticallyHighFiles

Критически большое количество файлов в кластере.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

mdsd_fs_files_sum >= 10000000

Шаблон сообщения:

В кластере слишком много файлов, что замедляет работу службы метаданных.

ClusterFailedChunkServices

Неисправные службы чанков в кластере.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

sum(mdsd_cs_status_value{status="failed"}) + sum(mdsd_cs_status_value{status="failed rel"}) > 0

Шаблон сообщения:

Некоторые службы чанков завершились с ошибкой. Это может быть вызвано сбоем физического диска.

ClusterLowPhysicalSpace

Нехватка физического пространства в кластере.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

label_replace(sum(mdsd_cluster_free_space_bytes_sum) by (tier) / sum(mdsd_cluster_space_bytes_sum) by (tier), "object_id", "tier-$1", "tier", "(.*)") < 0.2

Шаблон сообщения:

Осталось мало свободного физического пространства на уровне хранения {{ $labels.tier }}.

ClusterOfflineChunkServices

Оффлайн службы чанков в кластере.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

sum(mdsd_cs_status_value{status="offline"}) > 0

Шаблон сообщения:

Некоторые службы чанков находятся в оффлайн. Проверьте и перезапустите их.

ClusterOutOfPhysicalSpace

Исчерпание физического пространства в кластере.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

label_replace(sum(mdsd_cluster_free_space_bytes_sum) by (tier) / sum(mdsd_cluster_space_bytes_sum) by (tier), "object_id", "tier-$1", "tier", "(.*)") < 0.1

Шаблон сообщения:

Недостаточно свободного физического пространства на уровне хранения {{ $labels.tier }}.

ClusterTooManyChunks

Слишком много чанков в кластере.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

15000000 > mdsd_fs_chunk_maps_sum > 10000000

Шаблон сообщения:

В кластере слишком много чанков, что замедляет работу службы метаданных.

ClusterTooManyFiles

Слишком много файлов в кластере.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

10000000 > mdsd_fs_files_sum > 4000000

Шаблон сообщения:

В кластере слишком много файлов, что замедляет работу службы метаданных.

ClusterUnavailableMetadataServices

Недоступные службы метаданных в кластере.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

count(up{service="MDS"}) - sum(up{service="MDS"}) > 0

Шаблон сообщения:

Некоторые службы метаданных находятся в оффлайн или завершились с ошибкой. Проверьте и перезапустите их.

FSFailedStart

Неудачный запуск файловой службы.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

increase(ostor_svc_start_failed_count_total{service="FS"}[5m]) > 1

Шаблон сообщения:

Агент объектного хранилища не смог запустить файловую службу по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}.

HaproxyFrontendBytesInTotal

Отсутствие входящего трафика haproxy в течение 5 минут.

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

sum(rate(haproxy_frontend_bytes_in_total[5m])*8) by (instance) == 0

Шаблон сообщения:

Отсутствие входящего трафика haproxy в течение 5 минут на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

HaproxyFrontendBytesOutTotal

Отсутствие исходящего трафика haproxy в течение 5 минут.

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

sum(rate(haproxy_frontend_bytes_out_total[5m])*8) by (instance) == 0

Шаблон сообщения:

Отсутствие исходящего трафика haproxy в течение 5 минут на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

KeepalivedNetworkNotAvailable

Сеть сервиса keepalived недоступна.

Период: 5m (5 минут).

Важность: warning.

Категория: network.

Выражение PromQL:

keepalivedNetworkAvailability != 1

Шаблон сообщения:

Сеть сервиса keepalived узла {{$labels._node_id}} на ПАК {{$labels._pak_id}} недоступна

KeepalivedNotifyScriptNameChanged

Изменилось имя скрипта оповещения keepalived.

Период: 2m (2 минуты).

Важность: warning.

Категория: network.

Выражение PromQL:

delta(keepalivedNotifyScriptStatus[15m]) > 0

Шаблон сообщения:

Скрипт оповещения keepalived на узле {{$labels._node_id}} на ПАК {{$labels._pak_id}} изменил имя, текущее имя скрипта - {{ $labels.script_name }}

KeepalivedNotifyScriptNameEmpty

Пустое имя скрипта оповещения keepalived.

Период: 0m (без ожидания).

Важность: warning.

Категория: network.

Выражение PromQL:

count(keepalivedNotifyScriptStatus{script_name=""}) > 0

Шаблон сообщения:

Скрипт оповещения keepalived на узле {{$labels._node_id}} на ПАК {{$labels._pak_id}} не имеет имени

KeepalivedNotifyScriptWarning

Скрипт оповещения keepalived не включен.

Период: 2m (2 минуты).

Важность: warning.

Категория: network.

Выражение PromQL:

keepalivedNotifyScriptStatus != 1

Шаблон сообщения:

Скрипт оповещения keepalived на узле {{$labels._node_id}} на ПАК {{$labels._pak_id}} выключен, имя скрипта - {{ $labels.script_name }}

KeepalivedScriptHcheckInfoChanged

Изменилось имя скрипта оповещения keepalived.

Период: 2m (2 минуты).

Важность: warning.

Категория: network.

Выражение PromQL:

delta(keepalivedScriptHcheckInfo[15m]) > 0

Шаблон сообщения:

Скрипт проверки статуса keepalived на узле {{$labels._node_id}} на ПАК {{$labels._pak_id}} изменил имя, текущее имя скрипта - {{ $labels.hcheck_name}}

KeepalivedScriptHcheckInfoEmpty

Пустое имя скрипта оповещения keepalived.

Период: 0s (без ожидания).

Важность: warning.

Категория: network.

Выражение PromQL:

count(keepalivedScriptHcheckInfo{hcheck_name=""}) > 0

Шаблон сообщения:

Скрипт проверки статуса keepalived на узле {{$labels._node_id}} на ПАК {{$labels._pak_id}} не имеет имени

KeepalivedVIPInterfaceStatusChanged

Изменилось имя скрипта оповещения keepalived.

Период: 2m (2 минуты).

Важность: warning.

Категория: network.

Выражение PromQL:

delta(keepalivedVIPInterfaceStatus[15m]) > 0

Шаблон сообщения:

Изменился интерфейс VIP keepalived на узле {{$labels._node_id}} на ПАК {{$labels._pak_id}}, текущий интерфейс - {{ $labels.interface_name }}

KeepalivedVIPInterfaceStatusEmpty

Пустое имя интерфейса VIP keepalived.

Период: 0s (без ожидания).

Важность: warning.

Категория: network.

Выражение PromQL:

count(keepalivedVIPInterfaceStatus{interface_name=""}) > 0

Шаблон сообщения:

Интерфейс VIP keepalived на узле {{$labels._node_id}} на ПАК {{$labels._pak_id}} не имеет имени

KeepalivedVIPInterfaceStatusWarning

Интерфейс keepalived находится в критическом состоянии.

Период: 5m (5 минут).

Важность: warning.

Категория: network.

Выражение PromQL:

keepalivedVIPInterfaceStatus != 1

Шаблон сообщения:

Интерфейс VIP keepalived на узле {{$labels._node_id}} на ПАК {{$labels._pak_id}} находится в статусе {{ $value }}

KeepalivedVIPStatusWarning

VIP keepalived находится в аварийном состоянии.

Период: 5m (5 минут).

Важность: warning.

Категория: network.

Выражение PromQL:

keepalivedVIPStatus != 1

Шаблон сообщения:

VIP keepalived на узле {{$labels._node_id}} на ПАК {{$labels._pak_id}} находится в аварийном состоянии, текущий статус - {{ $value }}

KeepalivedVRRPBasePriorityWarning

Базовый приоритет узла VRRP keepalived отличен от целевого.

Период: 5m (5 минут).

Важность: warning.

Категория: network.

Выражение PromQL:

keepalivedVRRPBasePriority != keepalivedVRRPTargetPriority

Шаблон сообщения:

Базовый приоритет узла VRRP keepalived на узле {{$labels._node_id}} на ПАК {{$labels._pak_id}} отличен от целевого, текущее значение - {{ $value }}

KeepalivedVRRPInterfaceChanged

Изменился интерфейс VRRP keepalived.

Период: 0s (без ожидания).

Важность: warning.

Категория: network.

Выражение PromQL:

delta(keepalivedVRRPInterface[15m]) > 0

Шаблон сообщения:

Изменился интерфейс VRRP на узле {{$labels._node_id}} на ПАК {{$labels._pak_id}}, текущий интерфейс - {{ $labels.interface_name}}

KeepalivedVRRPInterfaceNameEmpty

Отсутствует интерфейс VRRP keepalived.

Период: 0s (без ожидания).

Важность: warning.

Категория: network.

Выражение PromQL:

count(keepalivedVRRPInterface{interface_name=""}) > 0

Шаблон сообщения:

Отсутствует интерфейс VRRP на узле {{$labels._node_id}} на ПАК {{$labels._pak_id}}

KeepalivedVRRPPriorityHostWarning

Проблемы с приоритезированием хостов keepalived.

Период: 2m (2 минуты).

Важность: warning.

Категория: network.

Выражение PromQL:

keepalivedVRRPPriorityHostStatus = 2

Шаблон сообщения:

Keepalived на узле {{$labels._node_id}} на ПАК {{$labels._pak_id}} испытывает проблемы с приоритезацией хостов

KeepalivedVRRPStatusWarning

Узел VRRP находится в статусе, отличающемся от необходимого.

Период: 5m (5 минут).

Важность: warning.

Категория: network.

Выражение PromQL:

keepalivedVRRPStatus != keepalivedVRRPDesiredStatus

Шаблон сообщения:

Статус узла VRRP keepalived на узле {{$labels._node_id}} на ПАК {{$labels._pak_id}} отличен от необходимого, текущее значение - {{ $value }}

KeepalivedVRRPVersionNot3

Версия VRRP keepalived отличается от 3.

Период: 5m (5 минут).

Важность: warning.

Выражение PromQL:

keepalivedVRRPVersion != 3

Шаблон сообщения:

Версия VRRP keepalived на узле {{$labels._node_id}} на ПАК {{$labels._pak_id}} отличается от 3, текущее значение - {{ $value }}

LicenceCapacityUtilizationAlarm

Утилизация лицензий превысила 95%.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

(vstorage_space_free*100/vstorage_license_capacity >= 95) AND (vstorage_space_free*100/vstorage_license_capacity < 99)

Шаблон сообщения:

Утилизация лицензий МХД.О превысила 95% на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

LicenceCapacityUtilizationCritical

Утилизация лицензий превысила 99%.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

vstorage_space_free*100/vstorage_license_capacity >= 99

Шаблон сообщения:

Утилизация лицензий МХД.О превысила 95% на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

LicenceCapacityUtilizationWarning

Утилизация лицензий превысила 85%.

Период: 1m (1 минута).

Важность: info.

Категория: func_service.

Выражение PromQL:

(vstorage_space_free*100/vstorage_license_capacity >= 85) AND (vstorage_space_free*100/vstorage_license_capacity < 95)

Шаблон сообщения:

Утилизация лицензий МХД.О превысила 85% на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

LicenceExpirationAlarm

До истечения лицензий МХД.О менее 14 дней.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

(vstorage_license_expiration_ts*1000 <= 14) AND (vstorage_license_expiration_ts*1000 > 7)

Шаблон сообщения:

До истечения лицензий МХД.О менее 14 дней на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

LicenceExpirationCritical

До истечения лицензий МХД.О менее 7 дней.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

vstorage_license_expiration_ts*1000 <= 7

Шаблон сообщения:

До истечения лицензий МХД.О менее 7 дней на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

LicenceExpirationWarning

До истечения лицензий МХД.О менее 30 дней.

Период: 1m (1 минута).

Важность: info.

Категория: func_service.

Выражение PromQL:

(vstorage_license_expiration_ts*1000 <= 30) AND (vstorage_license_expiration_ts*1000 > 14)

Шаблон сообщения:

До истечения лицензий МХД.О менее 30 дней на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

MHDoPostgresSizeH3GB

Размер служебной БД PostgreSQL МХД.О превысил 3 Гб.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

mhdo_pg_bd_size > 3 * 1024 * 1024 * 1024

Шаблон сообщения:

База данных {{ $labels.database_name}} ПАК {{$labels._pak_id}} занимает более 3 Гб

MHDoPostgresSpaceCritical

Служебная БД PostgreSQL МХД.О занимает более половины размера корневой директории.

Период: 5m (5 минут).

Важность: critical.

Категория: func_service.

Выражение PromQL:

sum(pg_bd_size) by (database_name) / sum(node_filesystem_size_bytes{mountpoint="/"}) > 0.5

Шаблон сообщения:

База данных {{ $labels.database_name}} ПАК {{$labels._pak_id}} занимает более половины размера корневой директории

MHDoPostgresSyncError

Между мастер-сервером и репликой базы данных PostgreSQL обнаружена рассинхронизация.

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

mhdo_pg_bytes_behind != 0

Шаблон сообщения:

Реплика БД PostgreSQL {{ $labels.application_name}} ПАК {{$labels._pak_id}} отстаёт от мастера на {{ $value }} байт(а)

MasterMetadataServiceFrequentChanges

Частая смена главной службы метаданных.

Период: 10m (10 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

topk(1, mdsd_is_master_top1) and (delta(mdsd_master_uptime[1h]) < 300000)

Шаблон сообщения:

Главная служба метаданных изменилась более одного раза за 5 минут.

MetadataServiceCriticallyHighLatency

Критически высокая задержка коммитов службы метаданных.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

histogram_quantile(0.95, rjournal_commit_duration_seconds_bucket_rate) >= 5

Шаблон сообщения:

Служба метаданных по адресу {{ $labels.instance }} имеет 95-й процентиль задержки выше 5 секунд.

MetadataServiceHighCommitLatency

Высокая задержка коммитов службы метаданных.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

5 > histogram_quantile(0.95, rjournal_commit_duration_seconds_bucket_rate) > 1

Шаблон сообщения:

Служба метаданных по адресу {{ $labels.instance }} имеет 95-й процентиль задержки выше 1 секунды.

NFSServiceUnavailableFSServices

Недоступные файловые службы NFS.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

count(up{service="FS"}) by (instance) > sum(up{service="FS"}) by (instance)

Шаблон сообщения:

Некоторые файловые службы не работают на узле {{ $labels._node_id }}. Проверьте статус службы в командной строке.

NameServiceCriticallyHighCommitLatency

Критически высокая задержка коммитов службы имён.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

histogram_quantile(0.5, sum(ostor_commit_latency_us_bucket_rate{service="NS"}) by (instance, _pak_id, le)) >= 10000000

Шаблон сообщения:

Служба имен по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку коммитов выше 10 секунд. Проверьте производительность хранилища.

NameServiceCriticallyHighLatency

Критически высокая задержка запросов службы имён.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

histogram_quantile(0.5, sum(ostor_ns_req_latency_ms_bucket_rate) by (instance, _pak_id, le)) >= 5000

Шаблон сообщения:

Служба имен по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку запросов выше 5 секунд.

NameServiceHighCommitLatency

Высокая задержка коммитов службы имён.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

10000000 > histogram_quantile(0.5, sum(ostor_commit_latency_us_bucket_rate{service="NS"}) by (instance, _pak_id, le)) > 1000000

Шаблон сообщения:

Служба имен по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку коммитов выше 1 секунды. Проверьте производительность хранилища.

NameServiceHighLatency

Высокая задержка запросов службы имён.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

5000 > histogram_quantile(0.5, sum(ostor_ns_req_latency_ms_bucket_rate) by (instance, _pak_id, le)) > 1000

Шаблон сообщения:

Служба имен по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку запросов выше 1 секунды.

NetworkBondNotRedundant

Сетевой бонд не избыточен.

Период: 5m (5 минут).

Важность: critical.

Категория: func_service.

Выражение PromQL:

node_bonding_slaves - node_bonding_active > 0

Шаблон сообщения:

Сетевой бонд {{ $labels.master }} на узле {{ $labels._node_id }} не имеет {{ $labels.value }} подчиненных интерфейсов.

NodeFailedMapRequests

Неудавшиеся запросы карты на узле.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

fused_maps_failed > 0 or rate(fused_map_failures_total[5m]) > 0

Шаблон сообщения:

Некоторые запросы карты на узле {{ $labels._node_id }} завершились неудачно.

NodeHighTransmitPacketError

Высокая частота ошибок исходящих пакетов.

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

node_network_transmit_errs_total_rate > 1000

Шаблон сообщения:

Узел {{ $labels._node_id }} имеет частоту ошибок исходящих пакетов ({{ $labels.value }}). Проверьте настройки сети узла.

NodeStuckIORequests

Застрявшие запросы ввода-вывода на узле.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

fused_stuck_reqs_30s > 0 or fused_stuck_reqs_10s > 0

Шаблон сообщения:

Некоторые запросы ввода-вывода застряли на узле {{ $labels._node_id }}.

ObjectServiceCriticallyHighCommitLatency

Критически высокая задержка коммитов объектной службы.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

histogram_quantile(0.5, sum(ostor_commit_latency_us_bucket_rate{service="OS"}) by (instance, _pak_id, le)) >= 10000000

Шаблон сообщения:

Объектная служба по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку коммитов выше 10 секунд. Проверьте производительность хранилища.

ObjectServiceCriticallyHighLatency

Критически высокая задержка запросов объектной службы.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

histogram_quantile(0.5, sum(ostor_os_req_latency_ms_bucket_rate) by (instance, _pak_id, le)) >= 5000

Шаблон сообщения:

Объектная служба по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку запросов выше 5 секунд.

ObjectServiceHighCommitLatency

Высокая задержка коммитов объектной службы.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

10000000 > histogram_quantile(0.5, sum(ostor_commit_latency_us_bucket_rate{service="OS"}) by (instance, _pak_id, le)) > 1000000

Шаблон сообщения:

Объектная служба по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку коммитов выше 1 секунды. Проверьте производительность хранилища.

ObjectServiceHighLatency

Высокая задержка запросов объектной службы.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

5000 > histogram_quantile(0.5, sum(ostor_os_req_latency_ms_bucket_rate) by (instance, _pak_id, le)) > 1000

Шаблон сообщения:

Объектная служба по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку запросов выше 1 секунды.

ObjectStorageAgentFrozen

Замороженный агент объектного хранилища.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

increase(pcs_process_inactive_seconds_total{service="OS"}[5m]) > 0

Шаблон сообщения:

Агент объектного хранилища по адресу {{ $labels.instance }} имеет неактивный цикл событий более 1 минуты.

ObjectStorageAgentNoConfigConnection

Агент объектного хранилища не подключен к службе конфигурации.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

increase(ostor_svc_registry_cfg_failed_total[5m]) > 1

Шаблон сообщения:

Агент объектного хранилища не смог подключиться к службе конфигурации по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}.

ObjectStorageAgentOffline

Оффлайн агент объектного хранилища.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

up{service="OSTOR_REPLICATO"} == 0

Шаблон сообщения:

Агент объектного хранилища находится в оффлайн по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}.

S3ClusterUnavailableGeoReplicationServices

Недоступные службы георепликации в кластере S3.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

count(up{service="GR"}) by (instance) > sum(up{service="GR"}) by (instance)

Шаблон сообщения:

Некоторые службы георепликации не работают по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}. Проверьте статус службы в командной строке.

S3ClusterUnavailableNameServices

Недоступные службы имён в кластере S3.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

count(up{service="NS"}) by (instance) > sum(up{service="NS"}) by (instance)

Шаблон сообщения:

Некоторые службы имен не работают по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}. Проверьте статус службы в командной строке.

S3ClusterUnavailableObjectServices

Недоступные объектные службы в кластере S3

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

count(up{service="OS"}) by (instance) > sum(up{service="OS"}) by (instance)

Шаблон сообщения:

Некоторые объектные службы не работают по адресу {{ $labels.instance }} ПАК {{ $labels._pak_id }}. Проверьте статус службы в командной строке.

S3ClusterUnavailableS3GatewayServices

Недоступные службы шлюза S3 в кластере.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

count(up{service="S3GW"}) by (instance) > sum(up{service="S3GW"}) by (instance)

Шаблон сообщения:

Некоторые службы шлюза S3 не работают по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}. Проверьте статус службы в командной строке.

S3GatewayCriticallyHighCPU

Критически высокая загрузка процессора шлюза S3.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

(sum by (instance, _pak_id) (rate(process_cpu_seconds_total{service="S3GW"}[5m])) * 100) >= 90

Шаблон сообщения:

Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет загрузку процессора выше 90%. Служба может быть перегружена.

S3GatewayCriticallyHighCancelRate

Критически высокая частота отмены запросов шлюза S3.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

((sum(ostor_s3gw_req_cancelled_rate) by (_pak_id, instance)) / (sum(ostor_s3gw_req_rate) by (_pak_id, instance))) * 100 >= 30

Шаблон сообщения:

Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет частоту отмены запросов выше 30%. Это может быть вызвано проблемами с подключением, таймаутами запросов или низким лимитом ожидающих запросов.

S3GatewayCriticallyHighGetLatency

Критически высокая задержка GET-запросов шлюза S3.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

histogram_quantile(0.5, sum(ostor_s3gw_get_req_latency_ms_bucket_rate) by (_pak_id, instance, le)) >= 5000

Шаблон сообщения:

Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку GET-запросов выше 5 секунд.

S3GatewayHighCPU

Высокая загрузка процессора шлюза S3.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

90 > (sum by (instance, _pak_id) (rate(process_cpu_seconds_total{service="S3GW"}[5m])) * 100) > 75

Шаблон сообщения:

Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет загрузку процессора выше 75%. Служба может быть перегружена.

S3GatewayHighCancelRate

Высокая частота отмены запросов шлюза S3.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

30 > ((sum(ostor_s3gw_req_cancelled_rate) by (_pak_id, instance)) / (sum(ostor_s3gw_req_rate) by (_pak_id, instance))) * 100 > 5

Шаблон сообщения:

Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет частоту отмены запросов выше 5%. Это может быть вызвано проблемами с подключением, таймаутами запросов или низким лимитом ожидающих запросов.

S3GatewayHighFailedRequests

Большое количество неудачных запросов шлюза S3.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

((sum(ostor_req_server_err_rate) by (instance, _pak_id)) / (sum(ostor_s3gw_req_rate) by (instance, _pak_id))) * 100 > 5

Шаблон сообщения:

Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет много неудачных запросов с ошибкой сервера (код состояния 5XX).

S3GatewayHighGetLatency

Высокая задержка GET-запросов шлюза S3.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

5000 > histogram_quantile(0.5, sum(ostor_s3gw_get_req_latency_ms_bucket_rate) by (instance, _pak_id, le)) > 1000

Шаблон сообщения:

Шлюз S3 по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }} имеет медианную задержку GET-запросов выше 1 секунды.

S3ServiceFailedStart

Неудачный запуск службы S3.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

increase(ostor_svc_start_failed_count_total{service=~"OS | NS | S3GW"}[5m]) > 1

Шаблон сообщения:

Агент объектного хранилища не смог запустить {{ $labels.service }} по адресу ({{ $labels.instance }}) ПАК {{ $labels._pak_id }}.

S3ServiceFrozen

Замороженная служба S3.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

increase(pcs_process_inactive_seconds_total{service=~"S3GW | OS | NS"}[5m]) > 0

Шаблон сообщения:

Служба S3 ({{ $labels.service }}, по адресу {{ $labels._pak_id }}) ПАК {{ $labels._pak_id }} имеет неактивный цикл событий более 1 минуты.

SystemUnitChronydRestart

Перезапуск сервиса chronyd.service.

Период: 1m (1 минута).

Важность: warning.

Категория: server

Выражение PromQL:

(systemd_service_uptime{service="chronyd.service"} < systemd_service_uptime{service="chronyd.service"} offset 1m) == 1

Шаблон сообщения:

Произошел перезапуск сервиса chronyd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitChronydStoped

Остановка сервиса chronyd.service.

Период: 1m (1 минута).

Важность: critical.

Категория: server

Выражение PromQL:

systemd_unit_state{name="chronyd.service"}!= 1

Шаблон сообщения:

Произошла остановка сервиса chronyd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitHaproxyRestart

Перезапуск сервиса haproxy.service.

Период: 1m (1 минута).

Важность: warning.

Категория: server

Выражение PromQL:

(systemd_service_uptime{service="haproxy.service"} < systemd_service_uptime{service="haproxy.service"} offset 1m) == 1

Шаблон сообщения:

Произошел перезапуск сервиса haproxy.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitHaproxyStoped

Остановка сервиса haproxy.service.

Период: 1m (1 минута).

Важность: critical.

Категория: server

Выражение PromQL:

systemd_unit_state{name="haproxy.service"}!= 1

Шаблон сообщения:

Произошла остановка сервиса haproxy.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitKeepalivedRestart

Перезапуск сервиса keepalived.service.

Период: 1m (1 минута).

Важность: warning.

Категория: server

Выражение PromQL:

(systemd_service_uptime{service="keepalived.service"} < systemd_service_uptime{service="keepalived.service"} offset 1m) == 1

Шаблон сообщения:

Произошел перезапуск сервиса keepalived.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitKeepalivedStoped

Остановка сервиса keepalived.service.

Период: 1m (1 минута).

Важность: critical.

Категория: server

Выражение PromQL:

systemd_unit_state{name="keepalived.service"}!= 1

Шаблон сообщения:

Произошла остановка сервиса keepalived.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitNginxRestart

Перезапуск сервиса nginx.service.

Период: 1m (1 минута).

Важность: warning.

Категория: server

Выражение PromQL:

(systemd_service_uptime{service="nginx.service"} < systemd_service_uptime{service="nginx.service"} offset 1m) == 1

Шаблон сообщения:

Произошел перезапуск сервиса nginx.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitNginxStoped

Остановка сервиса nginx.service.

Период: 1m (1 минута).

Важность: critical.

Категория: server

Выражение PromQL:

systemd_unit_state{name="nginx.service"}!= 1

Шаблон сообщения:

Произошла остановка сервиса nginx.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitOstorAgentdRestart

Перезапуск сервиса ostor-agentd.service.

Период: 1m (1 минута).

Важность: warning.

Категория: server

Выражение PromQL:

(systemd_service_uptime{service="ostor-agentd.service"} < systemd_service_uptime{service="ostor-agentd.service"} offset 1m) == 1

Шаблон сообщения:

Произошел перезапуск сервиса ostor-agentd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitOstorAgentdStoped

Остановка сервиса ostor-agentd.service.

Период: 1m (1 минута).

Важность: critical.

Категория: server

Выражение PromQL:

systemd_unit_state{name="ostor-agentd.service"}!= 1

Шаблон сообщения:

Произошла остановка сервиса ostor-agentd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitOstorCfgdRestart

Перезапуск сервиса ostor-cfgd.service.

Период: 1m (1 минута).

Важность: warning.

Категория: server

Выражение PromQL:

(systemd_service_uptime{service="ostor-cfgd.service"} < systemd_service_uptime{service="ostor-cfgd.service"} offset 1m) == 1

Шаблон сообщения:

Произошел перезапуск сервиса ostor-cfgd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitOstorCfgdStoped

Остановка сервиса ostor-cfgd.service.

Период: 1m (1 минута).

Важность: critical.

Категория: server

Выражение PromQL:

systemd_unit_state{name="ostor-cfgd.service"}!= 1

Шаблон сообщения:

Произошла остановка сервиса ostor-cfgd.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitPacemakerRestart

Перезапуск сервиса pacemaker.service.

Период: 1m (1 минута).

Важность: warning.

Категория: server

Выражение PromQL:

(systemd_service_uptime{service="pacemaker.service"} < systemd_service_uptime{service="pacemaker.service"} offset 1m) == 1

Шаблон сообщения:

Произошел перезапуск сервиса pacemaker.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitPacemakerStoped

Остановка сервиса pacemaker.service.

Период: 1m (1 минута).

Важность: critical.

Категория: server

Выражение PromQL:

systemd_unit_state{name="pacemaker.service"}!= 1

Шаблон сообщения:

Произошла остановка сервиса pacemaker.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitPostgresRestart

Перезапуск сервиса postgres.server.

Период: 1m (1 минута).

Важность: warning.

Категория: server

Выражение PromQL:

(systemd_service_uptime{service="postgres.server"} < systemd_service_uptime{service="postgres.server"} offset 1m) == 1

Шаблон сообщения:

Произошел перезапуск сервиса postgres.server на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitPostgresStoped

Остановка сервиса postgres.server.

Период: 1m (1 минута).

Важность: critical.

Категория: server

Выражение PromQL:

systemd_unit_state{name="postgres.service"}!= 1

Шаблон сообщения:

Произошла остановка сервиса postgres.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitS3GatewayCompressionServerRestart

Перезапуск сервиса s3gateway-compression-server.service.

Период: 1m (1 минута).

Важность: warning.

Категория: server

Выражение PromQL:

(systemd_service_uptime{service="s3gateway-compression-server.service"} < systemd_service_uptime{service="s3gateway-compression-server.service"} offset 1m) == 1

Шаблон сообщения:

Произошел перезапуск сервиса s3gateway-compression.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitS3GatewayCompressionServerStoped

Остановка сервиса s3gateway-compression-server.service.

Период: 1m (1 минута).

Важность: critical.

Категория: server

Выражение PromQL:

systemd_unit_state{name="s3gateway-compression-server.service"} != 1

Шаблон сообщения:

Произошла остановка сервиса s3gateway-compression-server.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitS3GatewayControlServerRestart

Перезапуск сервиса s3gateway-control-server.service.

Период: 1m (1 минута).

Важность: warning.

Категория: server

Выражение PromQL:

(systemd_service_uptime{service="s3gateway-control-server.service"} < systemd_service_uptime{service="s3gateway-control-server.service"} offset 1m) == 1

Шаблон сообщения:

Произошел перезапуск сервиса s3gateway-control.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitS3GatewayControlServerStoped

Остановка сервиса s3gateway-control-server.service.

Период: 1m (1 минута).

Важность: critical.

Категория: server

Выражение PromQL:

systemd_unit_state{name="s3gateway-control-server.service"} != 1

Шаблон сообщения:

Произошла остановка сервиса s3gateway-control-server.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitS3GatewayOstorServerRestart

Перезапуск сервиса s3gateway-ostor-server.service.

Период: 1m (1 минута).

Важность: warning.

Категория: server

Выражение PromQL:

(systemd_service_uptime{service="s3gateway-ostor-server.service"} < systemd_service_uptime{service="s3gateway-ostor-server.service"} offset 1m) == 1

Шаблон сообщения:

Произошел перезапуск сервиса s3gateway-ostor.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitS3GatewayOstorServerStoped

Остановка сервиса s3gateway-ostor-server.service.

Период: 1m (1 минута).

Важность: critical.

Категория: server

Выражение PromQL:

systemd_unit_state{name="s3gateway-ostor-server.service"}!= 1

Шаблон сообщения:

Произошла остановка сервиса s3gateway-ostor-server.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitS3GatewayProxyServerRestart

Перезапуск сервиса s3gateway-proxy-server.service.

Период: 1m (1 минута).

Важность: warning.

Категория: server

Выражение PromQL:

(systemd_service_uptime{service="s3gateway-proxy-server.service"} < systemd_service_uptime{service="s3gateway-proxy-server.service"} offset 1m) == 1

Шаблон сообщения:

Произошел перезапуск сервиса s3gateway-proxy.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitS3GatewayProxyServerStoped

Остановка сервиса s3gateway-proxy-server.service.

Период: 1m (1 минута).

Важность: critical.

Категория: server

Выражение PromQL:

systemd_unit_state{name="s3gateway-proxy-server.service"} != 1

Шаблон сообщения:

Произошла остановка сервиса s3gateway-proxy-server.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitVstorageCsdRestart

Перезапуск сервиса вида vstorage-csd.X.X.service.

Период: 1m (1 минута).

Важность: warning.

Категория: server

Выражение PromQL:

(systemd_service_uptime{service=~"vstorage-csd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"} < systemd_service_uptime{service=~"vstorage-csd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"} offset 1m) == 1

Шаблон сообщения:

Произошел перезапуск сервиса вида vstorage-csd.X.X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitVstorageCsdStoped

Остановка сервиса вида vstorage-csd.X.X.service.

Период: 1m (1 минута).

Важность: critical.

Категория: server

Выражение PromQL:

systemd_unit_state{name=~"vstorage-csd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"}!= 1

Шаблон сообщения:

Произошла остановка сервиса vstorage-csd.X.X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitVstorageMdsdStoped

Остановка сервиса вида vstorage-mdsd.X.X.service.

Период: 1m (1 минута).

Важность: critical.

Категория: server

Выражение PromQL:

systemd_unit_state{name=~"vstorage-mdsd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"}!= 1

Шаблон сообщения:

Произошла остановка сервиса vstorage-mdsd.X.X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitVstorageMsdRestart

Перезапуск сервиса вида vstorage-mdsd.X.X.service.

Период: 1m (1 минута).

Важность: warning.

Категория: server

Выражение PromQL:

(systemd_service_uptime{service=~"vstorage-mdsd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"} < systemd_service_uptime{service=~"vstorage-mdsd\\.[a-zA-Z0-9_-]+\\.[a-zA-Z0-9_-]+\\.service"} offset 1m) == 1

Шаблон сообщения:

Произошел перезапуск сервиса вида vstorage-mdsd.X.X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitVstorageShamanRestart

Перезапуск сервиса вида vstorage-shaman@X.service.

Период: 1m (1 минута).

Важность: warning.

Категория: server

Выражение PromQL:

(systemd_service_uptime{service=~"shaman@[a-zA-Z0-9]+\\.service"} < systemd_service_uptime{service=~"shaman@[a-zA-Z0-9]+\\.service"} offset 1m) == 1

Шаблон сообщения:

Произошел перезапуск сервиса вида vstorage-shaman@X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}

SystemUnitVstorageShamanStoped

Остановка сервиса вида vstorage-shaman@.X.service.

Период: 1m (1 минута).

Важность: critical.

Категория: server

Выражение PromQL:

systemd_unit_state{name=~"shaman@[a-zA-Z0-9]+\\.service"}!= 1

Шаблон сообщения:

Произошла остановка сервиса vstorage-shaman@.X.service на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id}}