Два письма в месяц
Только важные материалы
Представьте ситуацию: на производственном сервере работает критически важная база данных, которая обслуживает сотни пользователей. Железо начинает сбоить, требуется срочное обслуживание, а остановка сервиса обойдется компании в тысячи рублей каждую минуту. Раньше такая ситуация означала неизбежный простой и недовольных пользователей.
Знакомая ситуация: купили мощный сервер, развернули виртуальные машины, а через месяц половина ресурсов простаивает, зато пользователи жалуются на медленную работу. Или наоборот — экономили на железе, а теперь каждое новое приложение превращается в лотерею: запустится или система рухнет от нехватки ресурсов.
Времена, когда серьезная виртуализация была синонимом VMware vSphere и многомиллионных лицензионных затрат, безвозвратно уходят в прошлое. Сегодня бесплатные гипервизоры способны обеспечить функциональность, которая еще недавно была доступна только в enterprise решениях стоимостью в сотни тысяч рублей.
В два часа ночи срабатывает алерт: на сервере зафиксирована подозрительная активность. Кто-то пытается получить доступ к административным учетным записям, используя словарные атаки. Через полчаса — новое уведомление: обнаружена попытка эксплуатации уязвимости в веб-приложении. Еще через час — подозрительный исходящий трафик на неизвестные IP-адреса.
Пользователь нажимает кнопку "Купить" в интернет-магазине. Казалось бы, простое действие. Но за кулисами разворачивается сложная симфония: проверка товара в каталоге, валидация пользователя, обращение к платежной системе, резервирование на складе, отправка email-уведомления, обновление рекомендательной системы. Двенадцать микросервисов, пять баз данных, три внешних API — и все это должно работать слаженно за доли секунды.
В половине третьего ночи сетевой интерфейс сервера внезапно начинает передавать данные со скоростью, в десять раз превышающей обычную. Антивирус молчит, система работает нормально, пользователей в это время нет. Что происходит? Криптомайнер? Утечка данных? А может быть, просто сбой в приложении, которое начало бесконечно дублировать запросы к базе данных?
Диск умирает не мгновенно — он долго посылает сигналы о помощи, которые администраторы должны уметь правильно интерпретировать. В три утра, когда сервер с критически важной базой данных внезапно становится недоступным, уже поздно вспоминать о том, что неделю назад система показывала странные значения каких-то там SMART атрибутов.
Сервер работает, пользователи не жалуются, но что-то подсказывает, что с дисками не все в порядке. Может быть, это едва заметное увеличение времени отклика, странные звуки из серверной стойки или периодические подвисания приложений. Проблема в том, что диагностика диска на сервере в продакшне — это хождение по минному полю. Одно неосторожное действие может положить всю систему.