Мониторинг сетевого стэка linux

186f6ac3ca244779a297d1d2cfb05bf9.jpgЧасто мониторинг сетевой подсистемы операционной системы заканчивается на счетчиках пакетов, октетов и ошибок сетевых интерфейсах. Но это только 2й уровень модели OSI!
С одной стороны большинство проблем с сетью возникают как раз на физическом и канальном уровнях, но с другой стороны приложения, работающие с сетью оперируют на уровне TCP сессий и не видят, что происходит на более низких уровнях.


Я расскажу, как достаточно простые метрики TCP/IP стэка могут помочь разобраться с различными проблемами в распределенных системах.


Netlink


Почти все знают утилиту netstat в linux, она может показать все текущие TCP соединения и дополнительную информацию по ним. Но при большом количестве соединений netstat может работать достаточно долго и существенно нагрузить систему.


Есть более дешевый способ получить информацию о соединениях — утилита ss из проекта iproute2.


Для сравнения:


$ time netstat -an|wc -l
62109

real    0m0.467s
user    0m0.288s
sys     0m0.184s

$ time ss -ant|wc -l
62111

real    0m0.126s
user    0m0.112s
sys     0m0.016s

Ускорение достигается за счет использования протола netlink для запросов информации о соединениях у ядра. Наш агент использует netlink напрямую.


Считаем соединения


Disclaimer: для иллюстрации работы с метриками в разных срезах я буду показывать наш интерфейс (dsl) работы с метриками, но это можно сделать и на opensource хранилищах.


В первую очередь мы разделяем все соединения на входящие (inbound) и исходящие (outbound) по отношению к серверу.


Каждое TCP соединения в определенный момент времени находится в одном из состояний, разбивку по которым мы тоже сохраняем (это иногда может оказаться полезным):


af796ab0051f475ea139453e792f6908.png


По этому графику можно оценить общее количество входящих соединений, распределение соединений по состояниям.


Здесь так же видно резкое падение общего количества соединений незадолго до 11 Jun, попробуем посмотреть на соединения в разрезе listen портов:


08457980e85b4f45bae73a00296a759c.png


На этом графике видно, что самое значительное падение было на порту 8014, посмотрим только 8014 (у нас в интерфейсе можно просто нажать на нужном элементе легенды):


cced40fbaffb4d73ac583dfe79dbff91.png


Попробуем посмотреть, изменилось ли количество входящий соединений по всем серверам?


Выбираем серверы по маске «srv10*»:


c25b34fcea544a7da6af6e30eba41cbe.png



Теперь мы видим, что количество соединений на порт 8014 не изменилось, попробуем найти на какой сервер они мигрировали:


ac7d1e92d2664c7e8ca2788e44edc532.png



Мы ограничили выборку только портом 8014 и сделали группировку не по порту, а по серверам.


Теперь понятно, что соединения с сервера srv101 перешли на srv102.


Разбивка по IP


Часто бывает необходимо посмотреть, сколько было соединений с различных IP адресов. Наш агент снимает количество TCP соединений не только с разбивкой по listen портам и состояниям, но и по удаленному IP, если данный IP находится в том же сегменте сети (для всех остальный адресов метрики суммируются и вместо IP мы показываем »~nonlocal»).


Рассмотрим тот же период времени, что и в предыдущих случаях:


7298b0c4a4f849509a193c26de94c318.png



Здесь видно, что соединений с 192.168.100.1 стало сильно меньше и в это же время появились соединения с 192.168.100.2.


Детализация рулит


На самом деле мы работали с одной метрикой, просто она была сильно детализирована, индентификатор каждого экземпляра выглядит примерно так:


{name="netstat.connections.inbound.count", state="", listen_ip="" listen_port="" remote_ip=""}

Например, у одно из клиентов на нагруженном сервере-фронтенде снимается ~700 экземпляров этой метрики


TCP backlog


По метрикам TCP соединений можно не только диагностировать работу сети, но и определять проблемы в работе сервисов.


Например, если какой-то сервис, обслуживающий клиентов по сети, не справляется с нагрузкой и перестает обрабатывать новые соединения, они ставятся в очередь (backlog).


На самом деле очереди две:


  • SYN queue — очередь неустановленных соединений (получен пакет SYN, SYN-ACK еще не отправлен), размер ограничен согласно sysctl net.ipv4.tcp_max_syn_backlog;
  • Accept queue — очередь соединений, для которых получен пакет ACK (в рамках «тройного рукопожатия»), но не был выполнен accept приложением (очередь ограничивается приложением)

При достижении лимита accept queue ACK пакет удаленного хоста просто отбрасывается или отправляется RST (в зависимости от значения переменной sysctl net.ipv4.tcp_abort_on_overflow).


Наш агент снимает текущее и максимальное значение accept queue для всех listen сокетов на сервере.


Для этих метрик есть график и преднастроенный триггер, который уведомит, если backlog любого сервиса использован более чем на 90%:


b9edc590d8f34786a0e3b9fa188d1519.png



Счетчики и ошибки протоколов


Однажды сайт одного из наших клиентов подвергся DDOS атаке, в мониторинге было видно только увеличение трафика на сетевом интерфейсе, но мы не показывали абсолютно никаких метрик по содержанию этого трафика.


В данный момент однозначного ответа на этот вопрос окметр дать по-прежнему не может, так как сниффинг мы только начали осваивать, но мы немного продвинулись в этом вопросе.


Попробуем что-то понять про эти выбросы входящего трафика:


a0a2d4ba2d4e4b0e8b7052cf1dde23da.png



288b541b3c904b399f91379fc8e70e69.png


Теперь мы видим, что это входящий UDP трафик, но здесь не видно первых из трех выбросов.
Дело в том, что счетчики пакетов по протоколам в linux увеличиваются только в случае успешной обработки пакета.


Попробуем посмотреть на ошибки:


dc642904d7314baea64d2740626d4eeb.png



А вот и наш первый пик — ошибки UDP: NoPorts (количество датаграмм, пришедших на UPD порты, которые никто не слушает)


Данный пример мы эмулировали с помощью iperf, и в первый заход не включили на сервер-приемщик пакетов на нужном порту.


TCP ретрансмиты


Отдельно мы показываем количество TCP ретрансмитов (повторных отправок TCP сегментов).


Само по себе наличие ретрансмитов не означает, что в вашей сети есть потери пакетов.
Повторная передача сегмента осуществляется, если передающий узел не получил от принимающего подтверждение (ACK) в течении определенного времени (RTO).


Данный таймаут расчитывается динамически на основе замеров времени передачи данных между конкретными хостами (RTT) для того, чтобы обеспечивать гарантированную передачу данных при сохранении минимальных задержек.


На практике количество ретрансмитов обычно коррелирует с нагрузкой на серверы и важно смотреть не на абсолютное значение, а на различные аномалии:


ad5f2ff6abc14f30ac331c2f127d9f2c.png


На данном графике мы видим 2 выброса ретрансмитов, в это же время процессы postgres утилизировали CPU данного сервера:


4c8104cd85224d8ab058604dad2ffc99.png



Cчетчики протоколов мы получаем из /proc/net/snmp.


Conntrack


Еще одна распространенная проблема — переполнение таблицы ip_conntrack в linux (используется iptables), в этом случае linux начинает просто отбрасывать пакеты.


Это видно по сообщению в dmesg:


ip_conntrack: table full, dropping packet

Агент автоматически снимает текущий размер данной таблицы и лимит с серверов, использующих ip_conntrack.


В окметре так же есть автоматический триггер, который уведомит, если таблица ip_conntrack заполнена более чем на 90%:


b9393dad94ba46e58cd21a39d2ea0fba.png



На данном графике видно, что таблица переполнялась, лимит подняли и больше он не достигался.


Вместо заключения


  • детализация метрик очень важна
  • если где-то что-то может переполниться, нужно обязательно покрывать мониторингом такие места
  • мы снимаем еще много разного по TCP/IP (RTT, соединения с непустыми send/recv очередями), но пока не придумали, как c этим правильно работать

Примеры наших стандартных графиков можно посмотреть в нашем демо-проекте.
Там же можно постмотреть графики Netstat одного из серверов.

Комментарии (0)

© Habrahabr.ru