Правила оповещения МБД.П

Данные правила применимы для ПАК МБД.П.

EraCouldNotReconstruct

ERA RAID не может завершить реконструкцию.

Период: 5m (5 минут).

Важность: critical.

Категория: storage.

Выражение PromQL:

era_raid_state_initialization == 10

Шаблон сообщения:

RAID {{ $labels.raid_name }} находится в статусе Unrecovered, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}

EraCouldNotRecover

ERA RAID не смог восстановиться.

Период: 5m (5 минут).

Важность: critical.

Категория: storage.

Выражение PromQL:

era_raid_state_initialization == 11

Шаблон сообщения:

RAID {{ $labels.raid_name }} находится в статусе None, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}

EraCriticalDiskWear

Критический износ диска.

Период: 4h (4 часа).

Важность: critical.

Категория: storage.

Выражение PromQL:

era_disk_wear > 90

Шаблон сообщения:

Критический износ диска {{ $labels.device_name }} RAID'а {{ $labels.raid_name }}, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}

EraDiskNotAvailable

Диск ERA RAID недоступен.

Период: 1h (1 час).

Важность: critical.

Категория: storage.

Выражение PromQL:

era_disk_state == 0

Шаблон сообщения:

Диск {{ $labels.device_name }} RAID'а {{ $labels.raid_name }} недоступен, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}

EraHighDiskWear

Существенный износ диска.

Период: 24h (24 часа).

Важность: warning.

Категория: storage.

Выражение PromQL:

era_disk_wear > 75

Шаблон сообщения:

Существенный износ диска {{ $labels.device_name }} RAID'а {{ $labels.raid_name }}, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}

EraInitialNeeds

ERA RAID нуждается в инициализации.

Период: 30m (30 минут).

Важность: warning.

Категория: storage.

Выражение PromQL:

era_raid_state_initialization == 2

Шаблон сообщения:

RAID {{ $labels.raid_name }} находится в статусе Need initialized, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}

EraLicenseExpire

Месяц до истечения лицензии ERA.

Период: 0s (без ожидания).

Важность: warning.

Категория: storage.

Выражение PromQL:

((era_license_expired-time()) / 60 / 60 / 24) < 30 and (era_license_status == 1) and ((era_license_expired-time()) / 60 / 60 / 24 > 7)

Шаблон сообщения:

До истечения срока действия лицензии с ключом {{ $labels.license_key }} остался месяц, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}

EraLicenseExpireSoon

Неделя до истечения лицензии ERA.

Период: 0s (без ожидания).

Важность: critical.

Категория: storage.

Выражение PromQL:

((era_license_expired-time()) / 60 / 60 / 24) < 7 and era_license_status == 1

Шаблон сообщения:

До истечения срока действия лицензии с ключом {{ $labels.license_key }} осталась неделя, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}

EraLicenseNotActive

Лицензия неактивна.

Период: 0s (без ожидания).

Важность: critical.

Категория: storage..

Выражение PromQL:

era_license_status != 1

Шаблон сообщения:

Лицензия с ключом {{ $labels.license_key }} неактивна, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}

EraNotAvailable

ERA RAID недоступен (МБД.П)

Период: 30m (30 минут).

Важность: critical.

Категория: storage.

Выражение PromQL:

era_raid_state_availability == 0

Шаблон сообщения:

RAID {{ $labels.raid_name }} недоступен, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}

EraReconstructNeeds

ERA RAID нуждается в реконструкции (МБД.П)

Период: 4h (4 часа).

Важность: critical.

Категория: storage.

Выражение PromQL:

era_raid_state_initialization == 7

Шаблон сообщения:

RAID {{ $labels.raid_name }} нуждается в реконструкции, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}

PatroniClusterLocked

Кластер Patroni заблокирован.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

patroni_cluster_unlocked == 0

Шаблон сообщения:

Кластер {{ $labels.scope }} заблокирован. Узел {{ $labels._node_id}} ПАК {{$labels._pak_id}}

PatroniDCSConnectionLost

Потеря связи узла Patroni с DCS.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

time() - patroni_dcs_last_seen > 300

Шаблон сообщения:

Потеря связи с DCS на узле {{ $labels.name}} ПАК {{$labels._pak_id}}

PatroniFailsafeModeActive

Активирован failsafe режим на узле Patroni.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

patroni_failsafe_mode_is_active == 1

Шаблон сообщения:

Узел {{ $labels.name}} ПАК {{$labels._pak_id}} перешёл в режим failsafe

PatroniFrequentRestarts

Слишком частые перезагрузки узла Patroni.

Период: 0m (без ожидания).

Важность: warning.

Категория: func_service.

Выражение PromQL:

increase(patroni_postmaster_start_time[1h]) > 2

Шаблон сообщения:

Более 2 перезагрузок узла {{ $labels.name }} ПАК {{ $labels._pak_id }} за час

PatroniFrequentRoleChanges

Частые смены роли узла Primary/Replica.

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

( changes(patroni_primary[1h]) > 3 or changes(patroni_replica[1h]) > 3 ) and (patroni_primary == 1 or patroni_replica == 1)

Шаблон сообщения:

Узел {{ $labels.name }} ПАК {{ $labels._pak_id }} сменил роль более 3 раз за последний час

PatroniHighReplicationLag

Высокая задержка репликации узла Patroni.

Период: 30s (30 секунд).

Важность: warning.

Категория: func_service.

Выражение PromQL:

(patroni_xlog_location - patroni_xlog_replayed_location) > 5368709120

Шаблон сообщения:

Задержка репликации превышает 5GB. Узел {{ $labels._node_id}} ПАК {{$labels._pak_id}}

PatroniMasterSwitch

Смена Primary-роли узла Patroni.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

changes(patroni_primary[15m]) > 0 and patroni_primary == 1

Шаблон сообщения:

Узел {{ $labels.name }} ПАК {{ $labels._pak_id }} стал новым мастером в кластере {{ $labels.scope }}

PatroniNoPrimary

Отсутствие узла в роли Primary в кластере Patroni.

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

sum(patroni_primary) by (scope, _pak_id)== 0

Шаблон сообщения:

Отсутствие узла в роли Primary в кластере Patroni {{ $labels.scope }}. ПАК {{$labels._pak_id}}

PatroniNodeNeedsRestart

Требуется перезагрузка узла Patroni.

Период: 1h (1 час).

Важность: warning.

Категория: func_service.

Выражение PromQL:

patroni_pending_restart == 1

Шаблон сообщения:

Требуется перезагрузка узла {{ $labels._node_id}} ПАК {{$labels._pak_id}}

PatroniPostgresNotRunning

Сервис PostgreSQL не запущен (Patroni).

Период: 1m (1 минута).

Важность: critical.

Категория: func_service.

Выражение PromQL:

patroni_postgres_running == 0

Шаблон сообщения:

PostgreSQL не запущен. Узел {{ $labels._node_id}} ПАК {{$labels._pak_id}}

PatroniReplicaNotStreaming

Узел с ролью реплики не в streaming режиме.

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

patroni_replica == 1 and patroni_postgres_streaming == 0

Шаблон сообщения:

Узел {{ $labels.name }} ПАК {{ $labels._pak_id }} в роли реплики не в streaming режиме

PatroniScrapingDown

Скрепер метрик Patroni не работает.

Период: 2m (2 минуты).

Важность: critical.

Категория: func_service.

Выражение PromQL:

up{job="patroni"} == 0 or absent(up{job="patroni"})

Шаблон сообщения:

Метрики Patroni не собираются более 2 минут на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id }}

PatroniTemporalReplicaLag

Большая временная задержка репликации yf узле Patroni.

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

time() - patroni_xlog_replayed_timestamp > 300

Шаблон сообщения:

Данные репликации отстают более чем на 5 минут. Узел {{ $labels.name}} ПАК {{$labels._pak_id}}

PatroniUnexpectedArchiveRecovery

Восстановление PostgreSQL из архива на узле Patroni.

Период: 15m (15 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

patroni_postgres_in_archive_recovery == 1

Шаблон сообщения:

Узел {{ $labels.name }} ПАК {{ $labels._pak_id }} находится в режиме восстановления из архива

PatroniXLogPaused

Приостановлено ведение журналов транзакций PostgreSQL (Patroni).

Период: 10m (10 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

patroni_xlog_paused == 1

Шаблон сообщения:

Приостановлено ведение журналов транзакций журналов на узле {{ $labels.name}} ПАК {{$labels._pak_id}}

PostgresCriticalActiveSessionsCount

Количество активных сессий достигло 500 (МБД.П)

Период: 30s (30 секунд).

Важность: critical.

Категория: func_service.

Выражение PromQL:

pg_stat_activity_count > 500

Шаблон сообщения:

Количество активных сессий достигло 500 на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}

PostgresCriticalDatabaseTemp

Используется более 100 GB TEMP (МБД.П)

Период: 5m (5 минут).

Важность: critical.

Категория: func_service.

Выражение PromQL:

pg_stat_database_temp_bytes > 100

Шаблон сообщения:

Используется более 100 GB TEMP на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}

PostgresCriticalReplicationLag

Лаг репликации достиг значения 100.

Период: 5m (5 минут).

Важность: critical.

Категория: func_service.

Выражение PromQL:

pg_replication_lag > 100

Шаблон сообщения:

Лаг репликации достиг значения 100 на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}

PostgresHighActiveSessionsCount

Количество активных сессий достигло 100.

Период: 30s (30 секунд).

Важность: warning.

Категория: func_service.

Выражение PromQL:

pg_stat_activity_count > 100 and pg_stat_activity_count < 500

Шаблон сообщения:

Количество активных сессий достигло 100 на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}

PostgresHighDatabaseTemp

Используется более 50 ГБ TEMP.

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

pg_stat_database_temp_bytes > 50 and pg_stat_database_temp_bytes < 100

Шаблон сообщения:

Используется более 50 GB TEMP на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}

PostgresHighReplicationLag

Лаг репликации достиг значения 50.

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

pg_replication_lag > 50 and pg_replication_lag < 100

Шаблон сообщения:

Лаг репликации достиг значения 50 на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}

RaidixDcPassive

DC Raid находится в состоянии Passive.

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

raidix_raid_dc_status != 0

Шаблон сообщения:

DC у Raid {{ $labels.id }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} находится в состоянии Passive

RaidixDriveIsDirty

Имеются метаданные другого Raid на диске.

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

raidix_drive_dirty > 0

Шаблон сообщения:

На диске {{ $labels.id }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} имеются метаданные с кодом {{ $labels.dirty_code }}

RaidixNetworkVipDown

VIP Raidix находится в выключенном состоянии

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

raidix_network_vip_up != 1

Шаблон сообщения:

VIP Raidix {{ $labels.vip_address }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} находится в выключенном состоянии

RaidixRaidDegraded

Raid находится в состоянии degraded

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

raidix_raid_degraded > 0

Шаблон сообщения:

Raid {{ $labels.id }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} находится в состоянии degraded, значение {{ $value }}

RaidixRaidDown

RAID находится в состоянии, отличающемся от Online.

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

raidix_raid_status != 1

Шаблон сообщения:

Raid {{ $labels.id }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} находится в состоянии, отличном от Online

RaidixRaidShareBadStatus

Raid имеет проблемы с общими ресурсами

Период: 5m (5 минут).

Важность: warning.

Категория: server.

Выражение PromQL:

raidix_raid_share_status != 1

Шаблон сообщения:

Raid {{ $labels.id }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} имеет проблемы с общими ресурсами

SpectrumCriticalAutovacuumProcCount

Активных процессов автовакуума больше 6 .

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

spectrum_autovacuum_proc_count > 6

Шаблон сообщения:

Активных процессов автовакуума на узле {{ $labels.node_name}} ПАК {{$labels._pak_id}} больше 6 (PG)

SpectrumHighAutovacuumProcCount

Активных процессов автовакуума больше 3 (МБД.П)

Период: 1m (1 минута).

Важность: warning.

Категория: func_service.

Выражение PromQL:

spectrum_autovacuum_proc_count > 3 and spectrum_autovacuum_proc_count < 6

Шаблон сообщения:

Активных процессов автовакуума на узле {{ $labels.node_name}} ПАК {{$labels._pak_id}} больше 3