Правила оповещения МБД.П
Данные правила применимы для ПАК МБД.П.
EraCouldNotReconstruct
ERA RAID не может завершить реконструкцию.
Период: 5m (5 минут).
Важность: critical.
Категория: storage.
Выражение PromQL:
era_raid_state_initialization == 10
Шаблон сообщения:
RAID {{ $labels.raid_name }} находится в статусе Unrecovered, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}
EraCouldNotRecover
ERA RAID не смог восстановиться.
Период: 5m (5 минут).
Важность: critical.
Категория: storage.
Выражение PromQL:
era_raid_state_initialization == 11
Шаблон сообщения:
RAID {{ $labels.raid_name }} находится в статусе None, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}
EraCriticalDiskWear
Критический износ диска.
Период: 4h (4 часа).
Важность: critical.
Категория: storage.
Выражение PromQL:
era_disk_wear > 90
Шаблон сообщения:
Критический износ диска {{ $labels.device_name }} RAID'а {{ $labels.raid_name }}, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}
EraDiskNotAvailable
Диск ERA RAID недоступен.
Период: 1h (1 час).
Важность: critical.
Категория: storage.
Выражение PromQL:
era_disk_state == 0
Шаблон сообщения:
Диск {{ $labels.device_name }} RAID'а {{ $labels.raid_name }} недоступен, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}
EraHighDiskWear
Существенный износ диска.
Период: 24h (24 часа).
Важность: warning.
Категория: storage.
Выражение PromQL:
era_disk_wear > 75
Шаблон сообщения:
Существенный износ диска {{ $labels.device_name }} RAID'а {{ $labels.raid_name }}, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}
EraInitialNeeds
ERA RAID нуждается в инициализации.
Период: 30m (30 минут).
Важность: warning.
Категория: storage.
Выражение PromQL:
era_raid_state_initialization == 2
Шаблон сообщения:
RAID {{ $labels.raid_name }} находится в статусе Need initialized, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}
EraLicenseExpire
Месяц до истечения лицензии ERA.
Период: 0s (без ожидания).
Важность: warning.
Категория: storage.
Выражение PromQL:
((era_license_expired-time()) / 60 / 60 / 24) < 30 and (era_license_status == 1) and ((era_license_expired-time()) / 60 / 60 / 24 > 7)
Шаблон сообщения:
До истечения срока действия лицензии с ключом {{ $labels.license_key }} остался месяц, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}
EraLicenseExpireSoon
Неделя до истечения лицензии ERA.
Период: 0s (без ожидания).
Важность: critical.
Категория: storage.
Выражение PromQL:
((era_license_expired-time()) / 60 / 60 / 24) < 7 and era_license_status == 1
Шаблон сообщения:
До истечения срока действия лицензии с ключом {{ $labels.license_key }} осталась неделя, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}
EraLicenseNotActive
Лицензия неактивна.
Период: 0s (без ожидания).
Важность: critical.
Категория: storage..
Выражение PromQL:
era_license_status != 1
Шаблон сообщения:
Лицензия с ключом {{ $labels.license_key }} неактивна, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}
EraNotAvailable
ERA RAID недоступен (МБД.П)
Период: 30m (30 минут).
Важность: critical.
Категория: storage.
Выражение PromQL:
era_raid_state_availability == 0
Шаблон сообщения:
RAID {{ $labels.raid_name }} недоступен, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}
EraReconstructNeeds
ERA RAID нуждается в реконструкции (МБД.П)
Период: 4h (4 часа).
Важность: critical.
Категория: storage.
Выражение PromQL:
era_raid_state_initialization == 7
Шаблон сообщения:
RAID {{ $labels.raid_name }} нуждается в реконструкции, узел {{ $labels._node_id }} ПАК {{ $labels._pak_id }}
PatroniClusterLocked
Кластер Patroni заблокирован.
Период: 1m (1 минута).
Важность: critical.
Категория: func_service.
Выражение PromQL:
patroni_cluster_unlocked == 0
Шаблон сообщения:
Кластер {{ $labels.scope }} заблокирован. Узел {{ $labels._node_id}} ПАК {{$labels._pak_id}}
PatroniDCSConnectionLost
Потеря связи узла Patroni с DCS.
Период: 1m (1 минута).
Важность: warning.
Категория: func_service.
Выражение PromQL:
time() - patroni_dcs_last_seen > 300
Шаблон сообщения:
Потеря связи с DCS на узле {{ $labels.name}} ПАК {{$labels._pak_id}}
PatroniFailsafeModeActive
Активирован failsafe режим на узле Patroni.
Период: 1m (1 минута).
Важность: critical.
Категория: func_service.
Выражение PromQL:
patroni_failsafe_mode_is_active == 1
Шаблон сообщения:
Узел {{ $labels.name}} ПАК {{$labels._pak_id}} перешёл в режим failsafe
PatroniFrequentRestarts
Слишком частые перезагрузки узла Patroni.
Период: 0m (без ожидания).
Важность: warning.
Категория: func_service.
Выражение PromQL:
increase(patroni_postmaster_start_time[1h]) > 2
Шаблон сообщения:
Более 2 перезагрузок узла {{ $labels.name }} ПАК {{ $labels._pak_id }} за час
PatroniFrequentRoleChanges
Частые смены роли узла Primary/Replica.
Период: 5m (5 минут).
Важность: warning.
Категория: func_service.
Выражение PromQL:
( changes(patroni_primary[1h]) > 3 or changes(patroni_replica[1h]) > 3 ) and (patroni_primary == 1 or patroni_replica == 1)
Шаблон сообщения:
Узел {{ $labels.name }} ПАК {{ $labels._pak_id }} сменил роль более 3 раз за последний час
PatroniHighReplicationLag
Высокая задержка репликации узла Patroni.
Период: 30s (30 секунд).
Важность: warning.
Категория: func_service.
Выражение PromQL:
(patroni_xlog_location - patroni_xlog_replayed_location) > 5368709120
Шаблон сообщения:
Задержка репликации превышает 5GB. Узел {{ $labels._node_id}} ПАК {{$labels._pak_id}}
PatroniMasterSwitch
Смена Primary-роли узла Patroni.
Период: 1m (1 минута).
Важность: warning.
Категория: func_service.
Выражение PromQL:
changes(patroni_primary[15m]) > 0 and patroni_primary == 1
Шаблон сообщения:
Узел {{ $labels.name }} ПАК {{ $labels._pak_id }} стал новым мастером в кластере {{ $labels.scope }}
PatroniNoPrimary
Отсутствие узла в роли Primary в кластере Patroni.
Период: 1m (1 минута).
Важность: critical.
Категория: func_service.
Выражение PromQL:
sum(patroni_primary) by (scope, _pak_id)== 0
Шаблон сообщения:
Отсутствие узла в роли Primary в кластере Patroni {{ $labels.scope }}. ПАК {{$labels._pak_id}}
PatroniNodeNeedsRestart
Требуется перезагрузка узла Patroni.
Период: 1h (1 час).
Важность: warning.
Категория: func_service.
Выражение PromQL:
patroni_pending_restart == 1
Шаблон сообщения:
Требуется перезагрузка узла {{ $labels._node_id}} ПАК {{$labels._pak_id}}
PatroniPostgresNotRunning
Сервис PostgreSQL не запущен (Patroni).
Период: 1m (1 минута).
Важность: critical.
Категория: func_service.
Выражение PromQL:
patroni_postgres_running == 0
Шаблон сообщения:
PostgreSQL не запущен. Узел {{ $labels._node_id}} ПАК {{$labels._pak_id}}
PatroniReplicaNotStreaming
Узел с ролью реплики не в streaming режиме.
Период: 1m (1 минута).
Важность: warning.
Категория: func_service.
Выражение PromQL:
patroni_replica == 1 and patroni_postgres_streaming == 0
Шаблон сообщения:
Узел {{ $labels.name }} ПАК {{ $labels._pak_id }} в роли реплики не в streaming режиме
PatroniScrapingDown
Скрепер метрик Patroni не работает.
Период: 2m (2 минуты).
Важность: critical.
Категория: func_service.
Выражение PromQL:
up{job="patroni"} == 0 or absent(up{job="patroni"})
Шаблон сообщения:
Метрики Patroni не собираются более 2 минут на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id }}
PatroniTemporalReplicaLag
Большая временная задержка репликации yf узле Patroni.
Период: 5m (5 минут).
Важность: warning.
Категория: func_service.
Выражение PromQL:
time() - patroni_xlog_replayed_timestamp > 300
Шаблон сообщения:
Данные репликации отстают более чем на 5 минут. Узел {{ $labels.name}} ПАК {{$labels._pak_id}}
PatroniUnexpectedArchiveRecovery
Восстановление PostgreSQL из архива на узле Patroni.
Период: 15m (15 минут).
Важность: warning.
Категория: func_service.
Выражение PromQL:
patroni_postgres_in_archive_recovery == 1
Шаблон сообщения:
Узел {{ $labels.name }} ПАК {{ $labels._pak_id }} находится в режиме восстановления из архива
PatroniXLogPaused
Приостановлено ведение журналов транзакций PostgreSQL (Patroni).
Период: 10m (10 минут).
Важность: warning.
Категория: func_service.
Выражение PromQL:
patroni_xlog_paused == 1
Шаблон сообщения:
Приостановлено ведение журналов транзакций журналов на узле {{ $labels.name}} ПАК {{$labels._pak_id}}
PostgresCriticalActiveSessionsCount
Количество активных сессий достигло 500 (МБД.П)
Период: 30s (30 секунд).
Важность: critical.
Категория: func_service.
Выражение PromQL:
pg_stat_activity_count > 500
Шаблон сообщения:
Количество активных сессий достигло 500 на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}
PostgresCriticalDatabaseTemp
Используется более 100 GB TEMP (МБД.П)
Период: 5m (5 минут).
Важность: critical.
Категория: func_service.
Выражение PromQL:
pg_stat_database_temp_bytes > 100
Шаблон сообщения:
Используется более 100 GB TEMP на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}
PostgresCriticalReplicationLag
Лаг репликации достиг значения 100.
Период: 5m (5 минут).
Важность: critical.
Категория: func_service.
Выражение PromQL:
pg_replication_lag > 100
Шаблон сообщения:
Лаг репликации достиг значения 100 на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}
PostgresHighActiveSessionsCount
Количество активных сессий достигло 100.
Период: 30s (30 секунд).
Важность: warning.
Категория: func_service.
Выражение PromQL:
pg_stat_activity_count > 100 and pg_stat_activity_count < 500
Шаблон сообщения:
Количество активных сессий достигло 100 на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}
PostgresHighDatabaseTemp
Используется более 50 ГБ TEMP.
Период: 5m (5 минут).
Важность: warning.
Категория: func_service.
Выражение PromQL:
pg_stat_database_temp_bytes > 50 and pg_stat_database_temp_bytes < 100
Шаблон сообщения:
Используется более 50 GB TEMP на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}
PostgresHighReplicationLag
Лаг репликации достиг значения 50.
Период: 5m (5 минут).
Важность: warning.
Категория: func_service.
Выражение PromQL:
pg_replication_lag > 50 and pg_replication_lag < 100
Шаблон сообщения:
Лаг репликации достиг значения 50 на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}
RaidixDcPassive
DC Raid находится в состоянии Passive.
Период: 5m (5 минут).
Важность: warning.
Категория: server.
Выражение PromQL:
raidix_raid_dc_status != 0
Шаблон сообщения:
DC у Raid {{ $labels.id }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} находится в состоянии Passive
RaidixDriveIsDirty
Имеются метаданные другого Raid на диске.
Период: 5m (5 минут).
Важность: warning.
Категория: server.
Выражение PromQL:
raidix_drive_dirty > 0
Шаблон сообщения:
На диске {{ $labels.id }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} имеются метаданные с кодом {{ $labels.dirty_code }}
RaidixNetworkVipDown
VIP Raidix находится в выключенном состоянии
Период: 5m (5 минут).
Важность: warning.
Категория: server.
Выражение PromQL:
raidix_network_vip_up != 1
Шаблон сообщения:
VIP Raidix {{ $labels.vip_address }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} находится в выключенном состоянии
RaidixRaidDegraded
Raid находится в состоянии degraded
Период: 5m (5 минут).
Важность: warning.
Категория: server.
Выражение PromQL:
raidix_raid_degraded > 0
Шаблон сообщения:
Raid {{ $labels.id }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} находится в состоянии degraded, значение {{ $value }}
RaidixRaidDown
RAID находится в состоянии, отличающемся от Online.
Период: 5m (5 минут).
Важность: warning.
Категория: server.
Выражение PromQL:
raidix_raid_status != 1
Шаблон сообщения:
Raid {{ $labels.id }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} находится в состоянии, отличном от Online
RaidixRaidShareBadStatus
Raid имеет проблемы с общими ресурсами
Период: 5m (5 минут).
Важность: warning.
Категория: server.
Выражение PromQL:
raidix_raid_share_status != 1
Шаблон сообщения:
Raid {{ $labels.id }} узла {{ $labels._node_id}} ПАК {{ $labels._pak_id }} имеет проблемы с общими ресурсами
SpectrumCriticalAutovacuumProcCount
Активных процессов автовакуума больше 6 .
Период: 1m (1 минута).
Важность: warning.
Категория: func_service.
Выражение PromQL:
spectrum_autovacuum_proc_count > 6
Шаблон сообщения:
Активных процессов автовакуума на узле {{ $labels.node_name}} ПАК {{$labels._pak_id}} больше 6 (PG)
SpectrumHighAutovacuumProcCount
Активных процессов автовакуума больше 3 (МБД.П)
Период: 1m (1 минута).
Важность: warning.
Категория: func_service.
Выражение PromQL:
spectrum_autovacuum_proc_count > 3 and spectrum_autovacuum_proc_count < 6
Шаблон сообщения:
Активных процессов автовакуума на узле {{ $labels.node_name}} ПАК {{$labels._pak_id}} больше 3