Node

Дашборд отображает метрики выбранного узла.

Для перехода к дашборду:

  1. Авторизуйтесь в Grafana.

  2. На панели навигации выберите Dashboards.

  3. В дереве дашбордов найдите узел МВ.К  Deckhouse  Node.

Подробное описание метрик см. в документации ядра Linux.

Quick CPU / Mem Disk

CPU Busy

Суммарная нагрузка на ядра CPU узла.

Sys Load (5m avg)

Средняя нагрузка на узел за последние 5 минут.

Sys Load (15m avg)

Средняя нагрузка на узел за последние 15 минут.

RAM Used

Использование RAM узла в процентах.

SWAP Used

Утилизация раздела подкачки в процентах.

Если раздел подкачки не используется, выводится значение N/A.

Root FS Used

Степень заполнения дискового пространства корневого раздела.

CPU Cores

Количество ядер CPU.

Uptime

Количество времени, прошедшего с последней загрузки.

RootFS Total

Размер корневого раздела.

RAM Total

Количество установленной RAM.

SWAP Total

Размер раздела подкачки.

Basic CPU / Mem / Net / Disk

CPU Basic

График потребления ресурсов CPU.

Легенда:

  • Busy System — выполнение задач на уровне ядра.

  • Busy User — выполнение задач на уровне пользователя.

  • Busy Iowait — ожидание завершения задач ввода/вывода.

  • Steal — выполнение задач других ОС, запущенных в режиме виртуализации.

  • Idle — режим ожидания.

  • Busy Other — прочие задачи.

Memory Basic

График потребления RAM и раздела подкачки.

Легенда:

  • RAM Total — общее количество установленной RAM.

  • RAM Used — используемое количество RAM.

  • RAM Cache + Buffer — количество RAM, занятой под кеш и буферы.

  • RAM Free — количество свободной RAM.

  • SWAP Used — используемое пространство раздела подкачки.

Network Traffic Basic

График нагрузки на сетевые интерфейсы.

Легенда:

  • trans — скорость передачи пакетов.

  • recv — скорость приёма пакетов.

Disk Space Used Basic

График использования хранилища.

Легенда формируется автоматически на основе записей в таблице разделов.

CPU / Memory / Net / Disk

CPU

График потребления ресурсов CPU.

Легенда:

  • System — выполнение задач на уровне ядра.

  • User — выполнение задач на уровне пользователя.

  • Nice — выполнение задач на уровне пользователя, но с изменённым приоритетом.

  • Idle — режим ожидания.

  • Iowait — ожидание завершения задач ввода/вывода.

  • Irq — обслуживание системных прерываний.

  • Softirq — обслуживание «мягких» системных прерываний.

  • Steal — выполнение задач других ОС, запущенных в режиме виртуализации.

Memory Stack

График потребления RAM и раздела подкачки.

Легенда:

  • Apps — количество RAM, использованной приложениями, запущенными в пользовательском режиме.

  • PageTables — количество страниц физической памяти, отображаемой в виртуальное адресное пространство.

  • SwapCache — количество памяти, которая занята данными из раздела подкачки, но пока не была изменена.

  • Slab — количество памяти, занятой кешем данных внутренних структур ядра.

  • Cache — файловый кеш (данные, ассоциированные с файлами).

  • Buffers — дисковый кеш (данные, ассоциированные с дисковыми устройствами).

  • Unused — свободная память.

  • Swap — используемое пространство раздела подкачки.

  • Hardware Corrupted — память, отмеченная ядром как повреждённая.

Network Traffic

Подробный график нагрузки на сетевые интерфейсы.

В колонке Name выводится название сетевого интерфейса и тип операции:

  • Receive — приём пакетов.

  • Transmit — скорость передачи пакетов.

Disk Space Used

Подробный график использования хранилища.

В колонке Name выводится название раздела.

Disk IOps

График количества операций ввода/вывода в хранилище.

В колонке Name выводится название дискового устройства и тип операции:

  • Reads completed — завершённые операции чтения.

  • Writes completed — завершённые операции записи.

I/O Usage Read / Write

График скорости ввода/вывода в хранилище.

В колонке Name выводится название дискового устройства и тип операции:

  • Successfully read bytes — чтение.

  • Successfully write bytes — запись.

I/O Utilization

Утилизация ресурсов ввода/вывода в процентах.

В колонке Name выводится название дискового устройства.

Memory Meminfo

Memory Active / Inactive

График использования оперативной памяти.

В колонке Name выводится тип операции и краткое описание:

  • Inactive — объём редко используемой оперативной памяти.

  • Active — объём часто используемой оперативной памяти.

Memory Commited

График использования виртуального адресного пространства.

Легенда:

  • Commited_AS — объём доступной памяти в виртуальном адресном пространстве.

  • CommitLimit — ограничение на размер виртуального адресного пространства.

Memory Active / Inactive Detail

Подробный график использования оперативной памяти.

В колонке Name выводится название метрики и её краткое описание:

  • Inactive_file — количество памяти, освобождённой при очистке файлового кеша.

  • Inactive_anon — количество памяти, освобождённой от анонимного кеша и кеша раздела подкачки, в том числе содержимого разделов tmpfs.

  • Active_file — количество памяти, занятой файловым кешем.

  • Active_anon — количество памяти, занятой анонимным кешем и кешем раздела подкачки, в том числе содержимым разделов tmpfs.

Memory Writeback and Dirty

График записи изменённых страниц памяти на диск («сброс» страниц памяти).

В колонке Name выводится тип операции и краткое описание:

  • Writeback — количество памяти, которая активно записывается на диск.

  • WritebackTmp — количество памяти, занятой временными дисковыми буферами FUSE.

  • Dirty — количество памяти, которая ожидает записи на диск.

Memory Shared and Mapped

График использования разделяемой (shared) и сопоставленной (mapped) памяти.

В колонке Name выводится тип разделения или отображения:

  • Mapped — количество памяти, используемой сопоставленными страницами, например, библиотеками.

  • Shmem — общая память, используемая пользовательскими процессами и разделами tmpfs.

  • ShmemHugePages — разделяемая память и память tmpfs, занятая в огромных страницах.

  • ShmemPmdMapped — объём разделяемой памяти, возвращённой в огромные страницы.

Memory Slab

Использование кеша структурами ядра (Slab, in-kernel data structures cache):

  • SUnreclaim — часть Slab, которая не может быть восстановлена при сжатии памяти.

  • SReclaimable — часть Slab, которая может быть восстановлена при сжатии памяти, например, кеш.

Memory VMalloc

График использования виртуального адресного пространства памяти.

В колонке Name выводится информация о виртуальном адресном пространстве:

  • VmallocChunk — размер наибольшего свободного непрерывного блока в виртуальном адресном пространстве.

  • VmallocTotal — общий размер виртуального адресного пространства.

  • VmallocUsed — объём использованного виртуального адресного пространства.

Memory Bounce

График использования оперативной памяти под дисковые буферы.

Memory Anonymous

График использования анонимных страниц памяти.

В колонке Name выводится название типа страниц:

  • AnonHugePages — огромные анонимные страницы памяти.

  • AnonPages — пользовательские страницы памяти, не связанные с файлами.

Memory Kernel / CPU

График использования оперативной памяти структурами ядра.

В колонке Name выводится название типа памяти ядра:

  • KernelStack — память основных структур ядра.

  • PerCPU — память, используемая динамически загружаемыми модулями ядра.

Memory HugePages Counter

График изменения количества огромных страниц:

  • HugePages_Free — количество не выделенных страниц.

  • HugePages_Rsvd — количество страниц, которые были запрошены на выделение, но выделить их не удалось.

  • HugePages_Surp — количество огромных страниц в пуле, превышающее значение в /proc/sys/vm/nr_hugepages.

Подробное описание параметров см. в документации ядра Linux.

Memory HugePages Size

График изменения размера огромных страниц:

  • HugePages — общий размер пула огромных страниц.

  • Hugepagesize — размер огромной страницы.

Memory DirectMap

Количество оперативной памяти, напрямую сопоставленной (mapped) со страницами различных размеров:

  • DirectMap1G — страницы размером 1 ГБ.

  • DirectMap2M — страницы размером 2 МБ.

  • DirectMap4K — страницы размером 4 КБ.

Memory Unevictable and MLocked

График изменения количества оперативной памяти, защищённой от выгрузки.

  • Unevictable — количество оперативной памяти, страницы которой не могут быть выгружены.

  • MLocked — количество оперативной памяти, страницы которой заблокированы от выгрузки на диск системным вызовом mlock() или mlockall().

Memory NFS

График использования оперативной памяти под страницы NFS, которые были отправлены на сервер, но их запись в хранилище не подтверждена.

Memory Vmstat

Memory Pages In / Out

Количество страниц оперативной памяти, загруженных с диска или выгруженных на него:

  • Pagesin — количество страниц, загруженных с диска;

  • Pagesout — количество страниц, выгруженных на диск.

Memory Pages Swap In / Out

График обмена страниц памяти с разделом подкачки.

В колонке Name выводится тип операции:

  • Pswpin — перенос страниц из оперативной памяти на раздел подкачки.

  • Pswpout — перенос страниц с раздела подкачки в оперативную память.

Memory Page Faults

График отказов при выполнении операций со страницами памяти.

В колонке Name выводится название группы операций:

  • Pgfault — сумма значений Pgmajfault и Pgminfault.

  • Pgmajfault — отказы при выполнении основных операций со страницами памяти.

  • Pgminfault — отказы при выполнении дополнительных операций со страницами памяти.

OOM Killer

Счётчик количества вызовов OOM (Out Of Memory) killer.

System Timesync

График отклонения системного времени от эталонных часов:

  • Estimated error in seconds — оценочный размер отклонения в секундах.

  • Time offset between local system and reference clock — смещение между локальными и эталонными часами.

  • Maximum error in seconds — оценочный размер максимального отклонения между локальными и эталонными часами.

Time PLL Adjust

PLL, Phase-Locked Loop — состояние цепи обратной связи, используемой для синхронизации частоты локального генератора с эталонным, чтобы минимизировать разницу во времени.

Time Synchronized Status

Статус синхронизации времени:

  • Is clock synchronized to a reliable server — статус синхронизации локальных часов с сервером точного времени.

  • Local clock frequency adjustment — корректировка частоты локального генератора сигналов.

Time Misc

График изменения периода между тиками часов и сдвига относительно международного атомного времени.

  • Seconds between clock ticks — период между тиками часов.

  • International Atomic Time (TAI) offset — сдвиг относительно международного атомного времени.

System Processes

Processes Status

График изменения статуса процессов в разрезе ввода/вывода.

  • Processes blocked waiting for I/O to complete — количество процессов, ожидающих завершения операций ввода/вывода.

  • Processes in runnable state — количество выполняемых процессов.

Processes State

Количество процессов, находящихся в одном из состояний:

  • D — непрерывный режим ожидания (ждёт освобождения ресурсов или сигнала);

  • I — незанятый поток ядра;

  • R — запущен или доступен для выполнения;

  • S — прерываемый режим ожидания (ожидает завершения события).

  • T — остановлен сигналом управления задачами.

  • Z — процесс-«зомби»: завершён, но ещё не обработан родительским процессом.

Отображаются только состояния, в которых находится хотя бы один процесс.

Processes Forks

График количества системных вызовов fork().

Processes Memory

График использования оперативной памяти процессами.

  • Processes virtual memory size in bytes — размер виртуального адресного пространства, занятого процессами, в байтах.

  • Maximum amount of virtual memory available in bytes — максимальный размер виртуального адресного пространства в байтах.

PIDs Number and Limit

График использования идентификаторов процессов (PID, Process ID).

  • Number of PIDs — значение последнего использованного PID.

  • PIDs limit — ограничение на значение PID.

Threads Number and Limit

График использования количества доступных тредов.

  • Allocated threads — количество использованных тредов.

  • Threads limit — ограничение на количество тредов.

System Misc

Context Switches / Interrupts

График изменения количества переключений контекста и прерываний за выбранный период.

System Load

Графики нагрузки на систему за 1 минуту, 5 минут и 15 минут соответственно.

Entropy

График доступности энтропии для генератора случайных чисел.

CPU time spent in user and system context

График изменения количества суммарного процессорного времени, затраченного на выполнение задач в пользовательском и системном контекстах.

File Descriptors

График изменения количества открытых файловых дескрипторов:

  • Maximum open file descriptors — максимально возможное количество открытых файловых дескрипторов.

  • Open file descriptors — количество открытых файловых дескрипторов.

Storage Disk

Сведения о хранилище узла.

Disk IOps Completed

График изменения количества операций ввода/вывода в секунду.

Disk R/W Data

График изменения скорости чтения/записи на диск.

Disk Average Wait Time

Среднее время ожидания при выполнении операций чтения/записи на диск.

Average Queue Size

Средняя длина очереди операций чтения/записи на диск.

Disk R/W Merged

График изменения количества объединённых запросов записи на диск.

Time Spent Doing I/Os

График изменения количества процессорного времени, затраченного на выполнение задач ввода/вывода.

Instantaneous Queue Size

График изменения длины очереди процессов, которые готовы к выполнению но не могут быть запущены из-за занятости CPU выполнением других задач.

Disk IOps Discards completed / merged

График изменения количества завершенных или объединенных операций по освобождения блоков в дисковом хранилище.

Storage Filesystem

Набор панелей отображает информацию о файловой системе узла.

Filesystem space available

График изменения размера свободного дискового пространства по разделам.

Filesystem size

График изменения размера занятого дискового пространства по разделам.

File Descriptor

График изменения количества открытых файлов:

  • Max open files — максимально возможное количество открытых файлов.

  • Open files — количество открытых файлов.

File Nodes Free

График изменения количества свободных файловых узлов по разделам.

Filesystem in ReadOnly / Error

График нахождения разделов в состоянии «Только чтение» или «Ошибка».

File Nodes Size

График изменения количества занятых файловых узлов по разделам.

Network Traffic

Network Traffic by Packets

График изменения скорости приёма и отправки пакетов сетевыми интерфейсами узла, пакетов в секунду.

Network Traffic Errors

График изменения количества ошибок приёма и отправки пакетов сетевыми интерфейсами узла, пакетов в секунду.

Network Traffic Drop

График изменения количества пакетов отброшенных при приёме и отправке.

Network Traffic Compressed

График изменения количества принятых и отправленных сжатых пакетов.

Network Traffic Multicast

График изменения количества принятых и отправленных пакетов.

Network Traffic Fifo

График изменения количества пакетов в очередях приёма и отправки.

Network Traffic Frame

График изменения количества принятых и отправленных сетевых кадров.

Network Traffic Carrier

График изменения количества физических или логических каналов, по которым выполняется передача данных.

Network Traffic Colls

График изменения количества коллизий при приёме и отправке данных.

NF Conntrack

График изменения количества данных, отслеживаемых через подсистему nfnetlink.

  • NF conntrack entries — объём данных, обработанных с помощью nfnetlink.

  • NF conntrack limit — ограничение на объём данных, которые могут быть обработаны с помощью nfnetlink.

Подробности см. в документации ядра Linux.

ARP Entries

Количество ARP-запросов, обработанных каждым сетевым интерфейсом.

MTU

График изменения максимального размера полезного блока данных одного пакета, который может быть передан протоколом без фрагментации.

Speed

График изменения скорости передачи данных каждым сетевым интерфейсом.

Queue Length

Длина очереди пакетов на приём и передачу соответственно.

Network Operational Status

Статусы сетевых интерфейсов узла:

  • 0 — не активен;

  • 1 — работает.

Network Sockstat

Информация об использовании сокетов.

Sockstat TCP

График изменения количества TCP-сокетов:

  • TCP_alloc — количество доступных TCP-сокетов.

  • TCP_inuse — количество используемых TCP-сокетов.

  • TCP_orphan — количество используемых TCP-сокетов, которые никому не принадлежат.

  • TCP_tw — количество TCP-сокетов, ожидающих закрытия.

Sockstat UDP

График изменения количества UDP-сокетов:

  • UDPLITE_inuse — количество используемых сокетов Udplite.

  • UDP_inuse — количестве используемых UDP-сокетов.

  • UDP_mem — количество оперативной памяти, занятой UDP-сокетами.

Sockstat Used

График изменения количества используемых сокетов.

Sockstat Memory Size

График изменения количества оперативной памяти, используемой TCP- и UDP-сокетами соответственно.

Sockstat FRAG / RAW

График изменения FRAG-сокетов:

  • FRAG_inuse — количество используемых FRAG-сокетов.

  • FRAG_memory — количество оперативной памяти, занятой FRAG-сокетами.

  • RAW_inuse — количество используемых RAW-сокетов.

Network Netstat

Netstat IP In / Out Octets

График изменения количества входящих и исходящих октетов.

Netstat IP Forwarding

График изменения состояния перенаправления IP-пакетов.

ICMP In / Out

График изменения количества входящих и исходящих ICMP-пакетов.

ICMP Errors

График изменения количества ошибок ICMP-пакетов.

UDP In / Out

График изменения количества принятых и отправленных дейтаграмм.

UDP Errors

График изменения количества ошибок обработки UDP-пакетов:

  • InErrors — дейтаграммы UDP, которые не могут быть доставлены приложению.

  • NoPorts — дейтаграммы, отправленные на порт, который никто не слушает.

  • InErrors Lite — дейтаграммы UDPLite, которые не могут быть доставлены приложению.

TCP In / Out

График изменения количества сегментов TCP:

  • InSegs — количество принятых сегментов, в том числе принятых с ошибкой.

  • OutSegs — количество отправленных сегментов, включая активные подключения, но за вычетом пересланных октетов.

TCP Errors

График изменения количества ошибок TCP:

  • ListenOverflows — переполнение очереди ожидания сокета.

  • ListenDrops — игнорирование SYN-пакетов.

  • TCPSynRetrans — количество повторных попыток отправить TCP SYN-пакет для начала трёхстороннего рукопожатия.

  • RetransSegs — количество пересланных сегментов, содержащих переданные ранее октеты.

  • InErrs — ошибки получения сегментов, например, несовпадение контрольной суммы пакета TCP.

TCP Connections

График изменения количества подключений, находящихся в активном статусе или ожидающих закрытия.

TCP SynCookie

График изменения количества SYN cookie:

  • SyncookiesFailed — ошибки получения SYN cookie.

  • SyncookiesRecv — полученные SYN cookie.

  • SyncookiesSent — отправленные SYN cookie.

TCP Direct Transition

График изменения количества открытых подключений TCP:

  • ActiveOpens — активные TCP-подключения.

  • PassiveOpens — пассивные TCP-подключения.

TCP TimeWait

График изменения количества TCP-сокетов, закрытых по причине ожидания:

  • TW — завершение ожидания быстрого таймера.

  • TWKilled — завершение медленного таймера.

  • TWRecycled — сокет закрыт по метке времени.

  • TCPTimeWaitOverflow — сокет закрыт из-за переполнения бакета.

Node Exporter

Графики состояния node_exporter.

Node Exporter Scrape Time

Время, затраченное на получение метрики каждого типа.

Node Exporter Scrape

Статус получения метрики каждого типа:

  • 0 — неуспешно;

  • 1 — успешно.