МБД.КХ
Данные правила применимы для ПАК МБД.КХ.
Предустановленные правила
Эти правила доступны сразу после установки необходимых плагинов.
ClickHouseReplicasMaxDelay
Превышение максимальной разницы в секундах между свежей реплицированной частью и свежей частью данных.
Период: 5m (5 минут).
Важность: warning.
Категория: func_service.
Выражение PromQL:
clickhouse_replicas_max_delay_seconds > 60
Шаблон сообщения:
Максимальная разница в секундах между самой свежей реплицируемой частью и самой свежей частью данных, которую нужно реплицировать, превысила 60 секунд. Узел {{ $labels._node_id}}, ПАК {{$labels._pak_id}}
ClickHouseReplicationStuckTasks
Имеются зависшие задачи репликации ClickHouse.
Период : 5m (5 минут).
Важность : warning.
Категория: func_service.
Выражение PromQL:
clickhouse_replication_stuck_task_count > 0
Шаблон сообщения:
Имеются зависшие задачи репликации ClickHouse на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}
ClickHouseServerProcessInfo
Отсутствует процесс сервера ClickHouse.
Период: 0m (без ожидания).
Важность: info.
Категория: func_service.
Выражение PromQL:
namedprocess_namegroup_num_procs{groupname="clickhouse"} == 0
Шаблон сообщения:
На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} отсутствует процесс сервера ClickHouse
ClickHouseServerProcessWarning
Процесс сервера ClickHouse отсутствует более 5 минут.
Период: 5m (5 минут).
Важность: warning.
Категория: func_service.
Выражение PromQL:
namedprocess_namegroup_num_procs{groupname="clickhouse"} < 0
Шаблон сообщения:
На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} процесс сервера ClickHouse отсутствует более 5 минут
ClickHouseServerRestarted
ClickHouse был перезапущен.
Период: 0m (без ожидания).
Важность: warning.
Категория: func_service.
Выражение PromQL:
ClickHouseAsyncMetrics_Uptime < ClickHouseAsyncMetrics_Uptime offset 1h
Шаблон сообщения:
ClickHouse был перезапущен на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}
ClickHouseSimultaneousQueries100
Количество одновременных запросов к БД ClickHouse достигло значения 100.
Период: 30s (30 секунд).
Важность: warning.
Категория: func_service.
Запрос PromQL:
ClickHouseMetrics_Query >= 100
Шаблон сообщения:
Количество одновременных запросов к БД ClickHouse на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id }} достигло значения 100
ClickHouseSimultaneousQueries50
Количество одновременных запросов к БД ClickHouse достигло значения 50.
Период: 5m (5 минут).
Важность: warning.
Категория: func_Service.
Запрос PromQL:
ClickHouseMetrics_Query >= 50 and ClickHouseMetrics_Query < 100
Шаблон сообщения:
Количество одновременных запросов к БД ClickHouse на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id }} достигло значения 50
ClickHouseZooKeeperOutstandingRequest
Количество ожидающих запросов ZooKeeper превысило 50.
Период: 5m (5 минут).
Важность: warning.
Категория: func_service.
Запрос PromQL:
ClickHouseMetrics_KeeperOutstandingRequets > 50
Шаблон сообщения:
Количество ожидающих запросов ZooKeeper на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} превысило 50
ClickHouseZooKeeperStatus
ZooKeeper недоступен.
Период: 0m (ноль минут).
Важность: critical.
Категория: func_service.
Запрос PromQL:
clickhouse_zookeeper_status == 0 or absent(clickhouse_zookeeper_status)==1
Шаблон сообщения:
ZooKeeper ClickHouse недоступен на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}
Правила blackbox_exporter
Для мониторинга доступности узлов ClickHouse используется плагин blackbox_exporter, который устанавливается на Proxy Визиона. Из-за этой особенности требуется указывать адрес узла без зарезервированных имён, вследствие чего нельзя создать предустановленное правило. Создайте нужные правила самостоятельно, используя приведённые ниже параметры.
Отсутствует связь с сервером ClickHouse
Период: 0m (без ожидания).
Важность: info.
Категория: func_service.
Запрос PromQL:
probe_success{instance="X:8123"} == 0
Шаблон сообщения:
Отсутствует связь с сервером ClickHouse