К каким поломкам готовиться в первую очередь
Не существует серверных, в которых не было поломок. Не говоря даже об упавших серверах, нет такого серверного зала, в котором не вышел из строя важный компонент, необходимый сервер, а то и (в самых "удачных" случаях) целая стойка.
Естественно, каждому системному администратору лучше заранее готовиться к неприятностям, и хорошие сисадмины к ним, конечно, готовы. А вот у начинающих могут возникнуть вопросы! Поэтому мы решили составить список самых часто ломающихся компонентов - проверьте, не слишком ли многое зависит в вашей инфраструктуре от самых уязвимых из них.
Самые хлипкие: жесткие диски
Жесткие диски не зря пользуются славой "расходных комплектующих". Да, ломаются они чаще прочих, но вовсе не потому, что рынок заполонили фальшивки - даже самые высококачественные выходят из строя сравнительно часто. Дело тут и в том, что их в любой системе больше всего, и в том, что в них есть механические компоненты, и, конечно, в том, что они постоянно записывают и перезаписывают информацию.
Но и решения этой проблемы, конечно, есть. Организуйте верно выбранный RAID-массив - и несколько "умерших" жестких дисков не приведут к потере даже небольшого количества информации. Берите серверы с функцией "горячей замены" - и сразу после поломки можете сменить отказавшие диски на новые.
Ну и, конечно, не забывайте закупаться резервными жесткими дисками. Запас может быть не очень внушительным, но его необходимо постоянно поддерживать на одном уровне.
Чуть больше прочности: RAID-контроллеры
Жесткие диски организуются в массивы с помощью RAID-контроллеров, но ведь и они ломаются. И, как показывает практика, нередко!
Впрочем, тут можно не слишком переживать... в случае, если вы готовы потратиться на уверенность в завтрашнем дне. Дело в том, что высокий уровень отказов контроллеров RAID связан не с их хлипкостью, а всего-навсего с желанием сэкономить на резервном копировании и массивах. Дорогостоящие и мощные контроллеры же имеют отличный запас прочности.
Ну и нечего говорить, что если из строя выйдет контроллер, то выйдет и весь рейд! Так что просто будьте уверены, что строите свои массивы на достойном фундаменте.
Блоки питания и резервирование электроснабжения
Потерять диск с данными или массив - обидно. А потерять сразу весь сервер - еще обиднее! К счастью, чем важнее комплектующая, тем больше в нее закладывается запаса прочности. Так вышло и с блоками питания - они ломаются не так уж часто (хотя и не так уж редко), но их можно дублировать, так что в случае выхода из строя одного, автоматически включается второй. Чаще всего его и заменить можно "горячим" образом.
А вот если исчезает не блок питания, а само питание, тут может случиться совсем катастрофа - потеря данных, потеря оборудования, потеря аппаратных компонентов... Чтобы избавиться от такой возможности, нужно будет установить ИБП, который поможет не только сохранить информацию при сбое электроснабжения, но и увеличить срок службы оборудования.
Чем меньше вы можете позволить себе простоев, тем стоит больше обращать внимание на качество и количество ИБП, а то и заводить в серверной дизельный генератор.
Микроклимат
Реже, но не так уж и редко, отказывает менее сложное, но все равно важное оборудование: кондиционеры, поддерживающие температуру в серверной.
Чаще всего это не слишком критично и поломку оперативно успевают починить, но перегрев может привести к отключению или поломке серверов, а работа в слишком жарком помещении - к уменьшению срока их эксплуатации, так что лучше дублировать систему кондиционирования.
Хуже, если поломка касается не микроклимата даже, а внутренних вентиляторов сервера. Их, как правило, можно заменить, но для этого сервер нужно остановить, да и на складе нужно иметь запасные. Так что озаботьтесь тем, чтобы у вас был контакт с кем-то, кто может помочь в починке (например, гарантией производителя или дистрибьютора), а на складе лежали запасные части.
Все прочее
Остальные комплектующие тоже ломаются, но заметно реже. За всю карьеру системного администратора может сломаться всего несколько процессоров, например, да и прочие детали не сильно уязвимее.
Однако уже администратор администратору рознь: что хорошо, надежно и долго работает в правильно температуре и влажности, в отсутствии пыли, то при дурных условиях эксплуатации выйдет из строя очень быстро. С другой стороны, от заводского брака даже самый грамотный и въедливый администратор или инженер не застрахован.
Так что помните: не бывает на 100% отказоустойчивых систем, поэтому решающее значение имеют проектирование, планирование, профилактика - ну и, конечно, наличие нужных компонентов под рукой!