МБД.КХ

Данные правила применимы для ПАК МБД.КХ.

Предустановленные правила

Эти правила доступны сразу после установки необходимых плагинов.

ClickHouseReplicasMaxDelay

Превышение максимальной разницы в секундах между свежей реплицированной частью и свежей частью данных.

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

clickhouse_replicas_max_delay_seconds > 60

Шаблон сообщения:

Максимальная разница в секундах между самой свежей реплицируемой частью и самой свежей частью данных, которую нужно реплицировать, превысила 60 секунд. Узел {{ $labels._node_id}}, ПАК {{$labels._pak_id}}

ClickHouseReplicationStuckTasks

Имеются зависшие задачи репликации ClickHouse.

Период : 5m (5 минут).

Важность : warning.

Категория: func_service.

Выражение PromQL:

clickhouse_replication_stuck_task_count > 0

Шаблон сообщения:

Имеются зависшие задачи репликации ClickHouse на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}

ClickHouseServerProcessInfo

Отсутствует процесс сервера ClickHouse.

Период: 0m (без ожидания).

Важность: info.

Категория: func_service.

Выражение PromQL:

namedprocess_namegroup_num_procs{groupname="clickhouse"} == 0

Шаблон сообщения:

На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} отсутствует процесс сервера ClickHouse

ClickHouseServerProcessWarning

Процесс сервера ClickHouse отсутствует более 5 минут.

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Выражение PromQL:

namedprocess_namegroup_num_procs{groupname="clickhouse"} < 0

Шаблон сообщения:

На узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} процесс сервера ClickHouse отсутствует более 5 минут

ClickHouseServerRestarted

ClickHouse был перезапущен.

Период: 0m (без ожидания).

Важность: warning.

Категория: func_service.

Выражение PromQL:

ClickHouseAsyncMetrics_Uptime < ClickHouseAsyncMetrics_Uptime offset 1h

Шаблон сообщения:

ClickHouse был перезапущен на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}

ClickHouseSimultaneousQueries100

Количество одновременных запросов к БД ClickHouse достигло значения 100.

Период: 30s (30 секунд).

Важность: warning.

Категория: func_service.

Запрос PromQL:

ClickHouseMetrics_Query >= 100

Шаблон сообщения:

Количество одновременных запросов к БД ClickHouse на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id }} достигло значения 100

ClickHouseSimultaneousQueries50

Количество одновременных запросов к БД ClickHouse достигло значения 50.

Период: 5m (5 минут).

Важность: warning.

Категория: func_Service.

Запрос PromQL:

ClickHouseMetrics_Query >= 50 and ClickHouseMetrics_Query < 100

Шаблон сообщения:

Количество одновременных запросов к БД ClickHouse на узле {{ $labels._node_id }} ПАК {{ $labels._pak_id }} достигло значения 50

ClickHouseZooKeeperOutstandingRequest

Количество ожидающих запросов ZooKeeper превысило 50.

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Запрос PromQL:

ClickHouseMetrics_KeeperOutstandingRequets > 50

Шаблон сообщения:

Количество ожидающих запросов ZooKeeper на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}} превысило 50

ClickHouseZooKeeperStatus

ZooKeeper недоступен.

Период: 0m (ноль минут).

Важность: critical.

Категория: func_service.

Запрос PromQL:

clickhouse_zookeeper_status == 0 or absent(clickhouse_zookeeper_status)==1

Шаблон сообщения:

ZooKeeper ClickHouse недоступен на узле {{ $labels._node_id}} ПАК {{$labels._pak_id}}

Правила blackbox_exporter

Для мониторинга доступности узлов ClickHouse используется плагин blackbox_exporter, который устанавливается на Proxy Визиона. Из-за этой особенности требуется указывать адрес узла без зарезервированных имён, вследствие чего нельзя создать предустановленное правило. Создайте нужные правила самостоятельно, используя приведённые ниже параметры.

Отсутствует связь с сервером ClickHouse

Период: 0m (без ожидания).

Важность: info.

Категория: func_service.

Запрос PromQL:

probe_success{instance="X:8123"} == 0

Шаблон сообщения:

Отсутствует связь с сервером ClickHouse

Связь с сервером ClickHouse отсутствует более 5 минут

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Запрос PromQL:

probe_success{instance="X:8123"} == 0

Шаблон сообщения:

Связь с сервером ClickHouse отсутствует более 5 минут

Отсутствует связь с сервером реплики ClickHouse

Период: 5m (5 минут).

Важность: warning.

Категория: func_service.

Запрос PromQL:

probe_success{instance="X:8123/replicas_status"} == 0

Шаблон сообщения:

Отсутствует связь с сервером реплики ClickHouse