Top.Mail.Ru
КОНФИГУРАТОР Серверы
Сетевое оборудование
СХД
IP-телефоны IP-камеры Источники бесперебойного питания (ИБП) Комплектующие Готовые решения -40 % Серверы под задачу
О компании Купить в лизинг Блог Отзывы Доставка Гарантия Контакты Работа у нас Реквизиты Спецпредложения Игровые ПК на ISKRAPC Заявка в тех поддержку
Эксперты в подборе IT-оборудования

Серверы для ИИ: как выбрать и собрать под реальные задачи

20 мая 2025

Искусственный интеллект стал повседневным рабочим инструментом для любого бизнеса. Но для стабильной и надежной работы этого инструмента необходимо соответствующее «железо».

При выборе подходящего сервера для ИИ, нужно учесть, что он должен позволять решать 3 главные задачи:

  • Обучение;
  • Развертывание;
  • Инференс (непосредственно работа с запросами пользователей).

Обучение требует огромного объема данных, которые нужно «переварить». На этом этапе все упирается в скорость работы с данными. Это значит, что сервер для ИИ должен иметь большой объем дискового пространства и при этом работать с данными так быстро, чтобы обучение занимало приемлемое количество времени.

С инференсом тоже все не так просто. Если вы хотите получать ответы от нейросети быстро, то «железо» должно быть достаточно мощным. В основном скорость инференса зависит от мощности GPU, именно он обрабатывает запросы от пользователей.

А для такого мощного оборудования потребуется мощная система охлаждения, соответствующее питание, быстрая сеть, много оперативной памяти и т.д.

Мы расскажем о ключевых компонентах сервера для ИИ, объясним, в чем особенность платформ для ИИ, покажем, как выбирать «железо» для запуска нейросетей и дадим несколько примеров сборок сервера для разных задач из сферы ИИ.

Архитектура серверов для ИИ: что нужно вашей нейросети для работы

Сервер для обучения нейросети и ее дальнейшей работы это довольно специфическая система. Для работы нейросети нужны огромные вычислительные мощности, И лучше всего с такой нагрузкой справляется GPU. Они лучше приспособлены для совершения матричных операций и обрабатывают данные быстрее CPU. Это позволяет обучать нейросеть на большом количестве данных за разумное время.

Но не один лишь GPU играет важную роль в сервере, предназначенном для работы ИИ. Центральный процессор тоже может помочь или помешать работе ИИ в зависимости от вашего выбора комплектующих.

CPU отвечает за первичную обработку данных для обучения, ввод и вывод, обращение к дискам и т.д. А в некоторые алгоритмы машинного обучения быстрее выполняются как раз на центральном процессоре, так что CPU для сервера, на котором будет работать ИИ, тоже нужно подбирать подходящий.

AMD EPYC vs Intel Xeon: чьи CPU лучше подходят для работы с ИИ?

Вечная борьба двух производителей остается актуальной и на поле выбора процессора для работы ИИ. В обеих линейках есть отличные модели, но как всегда важно смотреть на детали.

AMD EPYC с сокетом SP3 — много ядер, много потоков, и как итог — CPU подходит для обучения нейросети на огромном количестве данных. Многопоточная производительность поможет ускорить обработку ваших данных, даже если их будет очень много.

Intel Xeon на LGA3647 — мастер стабильности. Да, этот сокет поддерживает меньше ядер — до 40 в отличие от лимита в 64 ядра у SP3, зато в сочетании с процессорами от Intel вы получите их технологии. Специализированные инструкции вроде AVX-512 ускорят матричные вычисления, а Deep Learning Boost сделает обучение моделей быстрее. Такое предлагает только Intel Xeon.

Совет: Если ваш ИИ больше анализирует (инференс) — берите Intel. Если обучается на терабайтах данных — AMD. Это не универсальное правило, но можете ориентироваться на него.


Графические ускорители — рабочая лошадка сервера для ИИ

GPU за счет своей специфической архитектуры идеально походят для работы ИИ. В них используется большое количество Cuda-ядер. Все вычисления делятся на огромное количество параллельных потоков, что сильно экономит время работы над задачей. А еще производители стали выпускать специальные модели, «заточенные» под работу с ИИ.

У Nvidia это модели H100, A100 и RTX A5000. Чтобы понять, чем они отличаются от игровых моделей, достаточно посмотреть на характеристики.

H100 имеет 16 896 ядер, 80 Гб памяти типа HBM3 в варианте SXM и использует тензорные ядра Tensor Core четвертого поколения.

У A100 6912 CUDA-ядер, 40 либо 80 Гб памяти в зависимости от конфигурации и также есть тензорные ядра. Плюс доступны технологии NVLink и NVSwitch, увеличивающие пропускную способность между GPU для ускорения передачи данных при экстремально высоких нагрузках.

Ну а RTX A5000 даст вам 8192 ядра, 24 Гб памяти, опять же есть тензорные ядра, доступна NVLink и есть трассировка лучей — главная фича серии RTX.

Одно из главных преимуществ GPU от NVIDIA — тензорные ядра. Tensor Core — это специализированные вычислительные блоки в GPU NVIDIA, оптимизированные для выполнения матричных операций, которые лежат в основе глубокого обучения и других задач искусственного интеллекта.

Но не только Nvidia понимает важность GPU для нейросетей, AMD тоже предлагает хорошие варианты, например, AMD Radeon Instinct MI300. 14080 Cuda-ядер, 128 Гб памяти, и все это на архитектуре CDNA3, которая повысила скорость работы с данными по сравнению с прошлыми поколениями.

Еще одной важной особенностью специализированных GPU для ИИ является использование ECC-памяти. В обычных видеокартах такое не встретишь.

Оперативная память для сервера с ИИ

Необходимый для сервера объем RAM зависит от того, насколько большой датасет будет использоваться и от сложности самой нейросети. Но в целом для мощных моделей рекомендуем брать от 256 Гб и больше. С таким объемом и обучение, и инференс будут проходить быстрее.

Используйте память с частотой от 4800 МГц. Не стоит экономить и брать модели прошлых поколений. И обязательно выбирайте ECC-память. Функция коррекции ошибок важна для любого сервера, но в случае работы ИИ особенно.

Хранилище данных — библиотека для знаний ИИ

Данные, на которых будет обучаться нейросеть, обычно занимают большой объем. Чем больше датасет, тем больше для него требуется дискового пространства. И здесь можно было бы использовать массив HDD, но они не обеспечат достаточную скорость работы с данными.

Для хранения этих данных нужно использовать SSD. Брать нужно NVMe SSD, которые выдают скорость чтения-записи данных около 3 ГБ/с. Это быстрее не только HDD, но и классических SSD, подключаемых по интерфейсу SATA.

Еще один способ ускорить работу с датасетом — использовать объектное хранилище данных. Работа с объектами проходит быстрее, хранилище проще масштабировать, и управлять данными тоже можно быстрее за счет того, что метаданные (описание объектов, свойства и индексы) хранятся в отдельной таблице.

Но как и в любой другой СХД, в случае с сервером для ИИ нужно правильно распределять данные по дискам. Большие архивы, данные из которых используются не очень часто, можно хранить на HDD, так как в этом случае скорость работы с данными не так важна, как доступный объем.

Итог

Конфигурация сервера для ИИ всегда будет отличаться от конфигурации сервера для других задач. Обучение нейросетевых моделей и работа с ними это специфический процесс, но сейчас ИИ настолько распространен, что производители «железа» предлагают целые линейки комплектующих специально под сервера для ИИ. Выбирайте из них и будьте уверены, что ваш сервер справится с задачей.

Серверные платформы для ИИ: какие бывают, и чем отличаются

С ключевыми комплектующими разобрались, но все они не работают сами по себе. Как обычному компьютеру нужна материнская плата, система охлаждения и блок питания, так же серверу нужна серверная платформа. Ее выбор тоже требует внимания. Специфика работы с ИИ влияет и на выбор платформы.


Решения от NVIDIA: DGX и HGX

К счастью, на рынке есть готовые решения, на базе которых можно собрать идеальный сервер для ИИ. К примеру, варианты от NVIDIA: DGX и HGX.

NVIDIA DGX это готовое решение, которое уже адаптировано под работу с искусственным интеллектом. Эти сервера оснащаются топовыми GPU для ИИ, в NVIDIA DGX A100 установлено 8 процессоров A100, которые объединены между собой через NVLink/NVSwitch для уменьшения задержек при работе с данными.

Естественно, сервер поддерживает все технологии NVIDIA в области ИИ. Фреймворки TensorFlow, PyTorch, облачные решения NVIDIA Base Command, в общем, все, что нужно, будет доступно «из коробки». Ну и плюсом система охлаждения, питание и все остальное тоже подобрано так, что ничего менять не придется.

NVIDIA DGX подойдет для:

  • Обучения крупных ИИ-моделей (нейросети, NLP, компьютерное зрение);
  • Исследований в области ИИ в лабораториях и университетах.
  • Корпоративных решений для анализа Big Data и автоматизации.

NVIDIA HGX очень похож на своего коллегу, но является более гибкой платформой. Тут используется модульная структура, позволяющая использовать 4 или 8 GPU. Например, HGX H100/H200: поддерживает до 8 GPU на базе архитектуры Hopper, с возможностью объединения до 256 GPU через NVLink.

Есть еще и новейшая версия HGX B300 на архитектуре Blackwell, которая поддерживает до 16 GPU, объединенных через NVLink 5-го поколения, с пропускной способностью 1.8 ТБ/с между GPU.

В HGX H100/H200 используются тензорные ядра 4-го поколения, поддерживающие форматы FP8, FP16, TF32, что ускоряет обучение ИИ-моделей в 3–6 раз по сравнению с предыдущими поколениями.

Многие крупные компании по типу Dell, HPE, Supermicro выбирают эту платформу, чтобы добавить в нее CPU, систему охлаждения и другие компоненты по своему выбору, исходя из задач конкретного сервера. В итоге они получают отличную производительность, адаптированную под любые условия.

NVIDIA HGX это выбор для:

  • Облачных вычислений и SaaS-платформ;
  • Масштабной обработки данных в реальном времени;
  • Развёртывания ИИ-сервисов в дата-центрах.

Универсальные платформы

Есть на рынке и универсальные решения, которые дают еще больше гибкости и возможностей масштабирования. К тому же они предлагают оптимальное соотношение цены и функционала.

HPE ProLiant предлагает 4 линейки с разной модульной структурой:

  • DL (стоечные, высокая плотность),
  • ML (башенные, хорошая масштабируемость),
  • BL (блейд-серверы),
  • SL (гипермасштабируемые решения).

Поддерживаются процессоры Intel Xeon Scalable (до 28 ядер на процессор) и AMD EPYC Gen4 (до 128 ядер), оперативная память DDR5-4800 (Gen11/Gen12) с объёмом до 6 ТБ, NVMe Gen5 (до 1600W), SAS/SATA и гибридных конфигураций (например, DL380 Gen10 — до 30 дисков).

Но самое главное — современные поколения платформы поддерживают подключение до 8 GPU.

Есть и несколько полезных технологий от производителя, которые больше нигде не встретишь. HPE iLO дает возможность удаленно управлять сервером, а Silicon Root of Trust защищает от физических и программных атак.

Большая гибкость платформы и поддержка современных поколений комплектующих делает из серии HPE ProLiant отличный конструктор, с помощью которого можно получить машину, подходящую для работы ИИ, но комплектующие при этом придется подбирать самостоятельно, готовых решений производитель не предлагает.

Dell PowerEdge тоже предлагает гибкую модульную структуру с поддержкой актуального «железа» для различных задач. Есть башенные и стоечные серверы, а также сверхплотные и блейд-серверы.

Поддерживаются процессоры Intel Xeon Scalable до 4 поколения и AMD EPYC 3 и 4 поколений. Серверы 16-го поколения (G16) оснащены DDR5 и PCIe 5.0, что увеличивает пропускную способность на 100% по сравнению с предыдущими версиями.

До 6 ТБ DDR4/DDR5 (в моделях R750) и поддержка NVMe Gen4/Gen5, SAS/SATA, а также гибридных конфигураций.

Помимо гибкости в сборке семейство Dell PowerEdge многие ценят за надежность, обеспечиваемую резервируемыми компонентами охлаждения и питания. А еще есть поддержка интеграции с VMware, Microsoft Azure Stack, NVIDIA GPU.

И наконец Huawei FusionServer — серия от китайского производителя, которая так же как и предыдущие варианты, имеет модульную структуру.

Поддерживаются процессоры Intel Xeon Scalable 3 поколения для V6 и E5-2600 v3/v4 для V3-серий. Технологии Intel Turbo Boost, Hyper-Threading и Virtualization для ускорения многопоточных задач тоже в наличии, что является большим плюсом.

По оперативной памяти поддержка до 32 DIMM DDR4 (2288H V6) или 16 DIMM DDR4 (RH1288 V3) с поддержкой ECC. А дисковое хранилище поддерживает все те же гибкие конфигурации: SAS/SATA HDD, NVMe SSD и Intel Optane PMem.

Есть и набор полезных для любого сервера технологий:

  • iBMC — встроенный модуль для удаленного мониторинга, диагностики и управления через KVM.
  • Аппаратное шифрование AES-NI и TPM 2.0.
  • Fault Diagnosis & Management (FDM), которая прогнозирует сбои за 7–30 дней с высокой точностью.

Уже захотели приобрести сервер из этой линейки? Погодите, тут есть один нюанс. Huawei FusionServer поддерживают до 8 GPU, но совместима платформа только с китайскими чипами Ascend.

Эти GPU разработаны специально для ИИ, но пока что мало обкатаны, а некоторые модели, заявленные как аналоги популярных решений от Nvidia, еще только тестируются. Возможно эти чипы действительно смогут стать альтернативой уже проверенным процессорам от других производителей, но пока они не получили большого распространения, брать их может быть рискованно.

Конфигурация сервера для ИИ: что еще нужно учесть при сборке

Стабильную и качественную работу сервера помимо GPU, CPU и другого «железа» обеспечивают и остальные компоненты. Важно подобрать подходящую систему охлаждения, учесть совместимость с профильным ПО, заложить базу для масштабирования. Вот небольшой чек-лист того, о чем нужно подумать перед покупкой сервера.

Поддержка NVLink и PCIe 5.0

Скорость передачи данных критически важна при обучении нейросетей. Если использовать старые технологии и стандарты, то даже топовые GPU потратят на обучение гораздо больше времени, чем вы рассчитывали.

NVLink — это высокоскоростная шина от NVIDIA, предназначенная для соединения GPU между собой и с CPU, оптимизированная для задач искусственного интеллекта ИИ и высокопроизводительных вычислений.

NVLink 5.0 (Blackwell) обеспечивает скорость 1.8 ТБ/с на модуль при минимальных задержках (буквально наносекунды). Каждый GPU соединен с другими через коммутатор NVSwitch, что исключает узкие места. При этом GPU могут совместно использовать память, ускоряя обмен данными. Поддерживается до 256 GPU в связке, это целый кластер.

PCI Express 5.0 — последний стандарт шины для подключения периферийных устройств (GPU, SSD, сетевых карт) к CPU или чипсету. Скорость передачи данных 128 ГБ/с для конфигурации x16. Задержки тут выше, так как взаимодействие идет через CPU, но все равно скорость работы всей системы при использовании PCI Express 5.0 заметно увеличивается.

Обе технологии дополняют друг друга: PCIe 5.0 обеспечивает общую связность системы, а NVLink ускоряет взаимодействие GPU в специализированных кластерах.


Система охлаждения

Современные серверы для ИИ с профильными GPU потребляют огромное количество энергии, а значит и сильно нагреваются. Система охлаждения важна для любого сервера, но при выборе сервера для ИИ нужно подходить к охлаждению очень внимательно.

Воздушное охлаждение это база. Принцип работы прост и понятен каждому -- воздушный поток отводит тепло. Устанавливается такое охлаждение легко и стоит недорого. А еще такое охлаждение имеет высокую ремонтопригодность, вышедший из строя кулер всегда можно просто снять и заменить.

Но не все так гладко. Во-первых, далеко не во все конфигурации физически можно установить воздушное охлаждение. Вряд ли кулеры справятся с достойным охлаждением плотных конфигураций, например, 8 GPU в 2U. Во-вторых, вентиляторы сильно шумят. Вам потребуется очень хорошая звукоизоляция серверной, чтобы гул не мешал работе сотрудников.

Жидкостное охлаждение это более современный вариант. Тепло отводится через специальные хладагенты, а иногда воду, циркулирующую в замкнутом контуре.

Такая система охлаждения гораздо эффективнее обычных кулеров, жидкость отводит в сотни раз больше тепла, чем воздух. К тому же жидкостные системы охлаждения более компактные, так что сервер с таких охлаждением будет проще разместить.

Стоит такое удовольствие больше, чем воздушное охлаждение. Цены в среднем на 30-50% выше. К тому же есть риск утечки хладагента, а утечка означает остановку сервера на период ремонта или замены охлаждения.

При использовании небольшого сервера для ИИ на 1-4 GPU, то вам скорее всего хватит воздушного охлаждения. Но если планируется крупный кластер да еще и с серверами высокой плотности, то выбирайте жидкостное охлаждение.

Кластеризация и распределение вычислений

С обучением крупных ИИ-моделей типа GPT-4 или Llama один сервер не справится. Чтобы этот процесс занимал не годы, а хотя бы дни, используются кластеры серверов, в которых вычисления распределяются между несколькими машинами.

Чтобы кластер ускорял процесс, передача данных между объединенными GPU должна быть быстрой. Здесь на помощь приходит технология InfiniBand. Она обеспечивает скорость передачи данных до 400 Гбит/с на порт при задержке в 0.6 мкс (микросекунд).

По итогу получаем ускорение обмена данными между GPU происходит в 5–10 раз быстрее, чем через классический Ethernet. А еще поддержку NVIDIA Collective Communications Library для синхронизации GPU и возможность подключения до 10 000 узлов в одном кластере.

Есть еще один вариант — Ethernet 200G. Он имеет не такие впечатляющие показатели скорости и задержки: 200 Гбит/с на порт и ~5–10 мкс. Зато работает с TCP/IP-стеком и легко интегрируется в существующую инфраструктуру. Плюс поддерживает виртуализацию и облачные среды Kubernetes и OpenStack. В общем, классическая гибкость и универсальность. Стоит, кстати, Ethernet 200G дешевле, чем InfiniBand.

Совместимость с профильным ПО

«Железо» без софта — ничто. Для серверов, ориентированных на обучение и использование ИИ, разработаны фреймворки и технологии, оптимизирующие работу сервера. Прежде, чем покупать себе сервер для ИИ, нужно узнать, с какими из этих технологий будет совместимо ваше «железо».

NVIDIA CUDA — основная платформа для ускорения вычислений на GPU NVIDIA. Она обеспечивает поддержку фреймворков TensorFlow и PyTorch через библиотеки и драйверы. Все серверы с GPU NVIDIA поддерживают CUDA и оптимизированы для максимальной производительности.

Но при этом требуется строгое соответствие версий CUDA и ПО. Например, TensorFlow 2.15 работает только с CUDA 11.8, а PyTorch 2.3 — с CUDA 12.1.

AMD ROCm — это альтернатива CUDA для GPU от AMD. Поддерживает запуск CUDA-приложений через ZLUDA — слой совместимости, транслирующий вызовы CUDA в HIP/ROCm без модификации исходного кода.

Если говорить простым языком, это значит, что серверы на базе AMD могут выполнять CUDA-приложения с производительностью, близкой к нативной.

К сожалению, не все библиотеки полностью поддерживаются, так что нужно исходить из того, что будете использовать.

TensorFlow и PyTorch — самые актуальные фреймворки для ИИ.

TensorFlow оптимизирован для CUDA, но будьте внимательны, последние версии требуют CUDA 12.x и cuDNN 8.9+. С AMD фреймворк работает через ROCm.

Тут важно внимательно следить за версиями, потому что легко наткнуться на несовместимость. Например, TensorFlow 2.10 работает только с CUDA 11.2.

С PyTorch все чуть проще. Он поддерживает CUDA, ROCm и даже Intel oneAPI. Актуальная версия PyTorch 2.3 работает с ROCm 6.0 для AMD и CUDA 12.1 для NVIDIA.

И наконец Kubernetes — незаменимый инструмент для управления ИИ-кластерами. У него есть интеграция как с NVIDIA, так и AMD.

Плагин NVIDIA GPU Operator автоматизирует установку драйверов и мониторинг GPU. А работа с чипами от AMD обеспечивается через ROCM Operator и плагин k8s-device-plugin для выделения ресурсов GPU.

Эксплуатация и поддержка ИИ-серверов: как наладить работу без лишних проблем

Каждому хочется, чтобы после запуска сервер сам по себе работал, не ломался, не выдавал ошибок и вообще минимально тревожил системных администраторов. К сожалению, нажать кнопку «Старт» и уехать в отпуск не получится, потому что серверу требуется поддержка и грамотное управление.


Мониторинг нагрузки и управление ресурсами

Инструменты для мониторинга нагрузки нужны серверу так же, как приборная панель автомобилю. Без этого будет вообще непонятно, что происходит с вашим сервером.

Grafana + Prometheus — отличная связка, закрывающая большую часть задач по мониторингу состояния сервера. Prometheus собирает данные о работе сервера, Главное его отличие от аналогичных мониторинговых инструментов заключается в том, что он сам собирает информацию с заданных устройств, а не ждет, пока сервер отправит ему данные. Настраивается все это очень гибко благодаря специальному языку PromQL.

С помощью Prometheus вы будете анализировать производительность моделей машинного обучения в реальном времени и отслеживать задержки и использование ресурсов.

А Grafana выведет все собранные данные в виде наглядных и удобных графиков и дашбордов. Большинство мониторинговых программ передают собранные данные в таком виде, в котором их нельзя или сложно прочитать, поэтому для визуализации используют специальное ПО.

Если вы используете GPU NVIDIA, то выбирайте NVIDIA DCGM. Это профессиональный инструмент для мониторинга, управления и диагностики GPU в дата-центрах, адаптированный для использования на серверах для обучения ИИ.

NVIDIA DCGM собирает информацию о загрузке ядер GPU, их температуре, использовании памяти и других параметрах. На основе этих данных программа сама обнаруживает «узкие места» в работе сервера.

Плюс есть функция ограничения мощности, разделение физических ядер на несколько виртуальных и изолирование задач между пользователями. Это может быть полезно при работе нескольких команд над разными задачами с одним сервером.

Вот несколько советов по лучшим практикам управления сервером:

  • Установите базовые показатели.
      Определите типичные для работы вашего сервера показатели, чтобы быстро выявлять аномалии. Например, если ИИ-модель потребляет 80% GPU при пиковой нагрузке, отклонения от этого значения говорят о проблемах.
  • Оптимизируйте сбор данных.
      Фильтрация данных: Уменьшайте объём собираемых метрик, исключая то, что вам не нужно.
      Кэширование: Используйте кэширование промежуточных результатов вычислений для снижения нагрузки на CPU/GPU.
  • Балансируйте нагрузку.
      Для распределённых ИИ-систем применяйте балансировщики, например, Kubernetes и стратегии гибкого распределения ресурсов.
  • Обеспечьте безопасность данных.
      Шифруйте данные мониторинга, настройте права доступа к этим данным. Для ИИ-систем также критично избегать утечек тренировочных данных.
  • Планируйте использование ресурсов.
      Анализируйте исторические данные для прогнозирования будущих потребностей. Например, если ИИ-модель требует удвоения ресурсов каждые 6 месяцев, заранее планируйте апгрейд и подготовьтесь к нему.

Виртуализация и распределение ресурсов

Виртуализация и контейнеризация встречаются на большинстве серверов. Это необходимый элемент грамотной и эффективной эксплуатации.

Proxmox — самый распространенный инструмент для выделения на сервере изолированных виртуальных машин. Позволяет разделять GPU между разными командами и задачами, запускать специфичный софт для экспериментов или решения специфичных задач и обеспечивать безопасность данных.

Поддерживается интеграция с Ceph для распределенного хранилища данных, что очень актуально для больших датасетов. Proxmox имеет открытый исходный код, то есть использовать его можно бесплатно, при его возможностях это буквально подарок.

Docker — «база» для контейнеризации. Позволяет упаковывать приложения в изолированные контейнеры с общим ядром ОС. Это очень полезно, например, для обхода проблем с совместимостью версий ПО, потому что контейнеры фиксируют версии библиотек.

Плюс контейнеры потребляют меньше ресурсов, чем виртуальная машина. С их помощью управлять ресурсами сервера будет гораздо проще. Да и переносить приложения с помощью контейнеров гораздо проще, когда потребуется, вы быстро переедете из локального сервера в виртуальный.

А для управления кластерами контейнеров подойдет Kubernetes. Это самый распространенный софт для распределения нагрузок и управления большими серверными структурами.

Kubernetes поможет запустить распределенное обучения моделей на сотнях GPU, автоматически масштабирует сервисы инференса при пиковой нагрузке и даже перезапустит упавшие узлы с моделями.

Комбинируя эти технологии, вы получите оптимально работающий сервер, который позволит эффективно использовать GPU для обучения моделей и инференса, даст возможность экспериментировать с разными моделями на одной машине и будет гораздо удобнее в использовании, чем монолитный сервер.


Безопасность превыше всего: сертификация ФСТЭК и защита персональных данных

Почти наверняка ваш ИИ будет работать с персональными данными. Да и в датасете, на котором нейросеть будет обучаться, тоже персональные данные могут встречаться. Такие данные защищены 152 ФЗ, который предусматривает большие штрафы за утечку. А если сервер будет использоваться в государственных организациях, то обязательна сертификация ФСТЭК.

Как обеспечить безопасность данных на вашем сервере? Для начала стоит разграничить права доступа. Обычно создается несколько роле, каждая из которых обладает своими доступами к данным и ресурсам сервера. К примеру, у рядового пользователя не должно быть доступа к изменению настроек, базе данных и другой закрытой информации.

Также обязательно настройте двухфакторную аутентификацию. Сейчас она используется почти везде от электронной почты до критически важных информационных систем. Двухфакторная идентификация не даст получить доступ к данным даже если кто-то получить все логины и пароли сотрудников.

Для того, чтобы быть в курсе, кто, когда и куда заходил, ведите логи всех действий пользователей. Например, Graylog или Splunk помогут отследить запуск обучения моделей, получение доступа к датасетам с персональными данными и другие важные действия в системе.

Сами данные обязательно должны быть защищены шифрованием как на уровне дисков, например, через LUKS для Linux и BitLocker для Windows, так и при передаче между серверами (тут поможет TLS). Бэкапы тоже шифруются, про них не забываем.

Также обязательно используем защиту от утечек (DLP). Системы вроде SearchInform или Rocket DLP будут отслеживать передачи данных за пределы вашей инфраструктуры и тут же подадут сигнал, если кто-то решит несанкционированно выгрузить что-то с сервера.

Для ИИ-серверов есть отличная технология Federated Learning. Она позволяет обучать модели без передачи исходных данных на центральный сервер. Отличный вариант для случаев, когда в датасетах есть очень важные данные, которые нужно защитить максимально надежно.

152-ФЗ устанавливает особые правила для работы с персональными данными. Они не всегда напрямую связаны с «железом» или ПО, но их важно знать и учитывать.

Ключевые требования такие:

  • Категоризация данных.
      Вы должны заранее определить, какие данные относятся к персональным данным, а какие нет.
  • Получение согласия на работу с ПД.
      Без получения согласия на сбор и обработку ПД вы не имеете права их использовать.
  • Уведомление Роскомнадзора о работе с ПД.
      Если ИИ-система обрабатывает персональные данные более 100 тысяч субъектов, вы обязаны сообщить об этом Роскомнадзору.
  • Сертификация средств защиты.
      Необходимо использовать средства защиты информации, сертифицированные ФСТЭК.

Для соответствия требованиям ФСТЭК нужно, во-первых, использовать отечественное, проверенное ПО, например, ОС Astra Linux или RED OS и PostgreSQL с российскими криптоалгоритмами. Во-вторых, внедрить межсетевые экраны и систему обнаружения вторжений. И в-третьих, доступ к серверу должен быть физически ограничен, а также нужно вести журнал учета с данными обо всех случаях доступа к серверу.

Готовые конфигурации под конкретные задачи

Несколько конфигураций сервера для ИИ, которые мы рекомендуем в зависимости от задач, стоящих перед сервером.

Сервер для обучения моделей

Конфигурация оптимизирована под задачи глубокого обучения (LLM, компьютерное зрение, NLP) с учетом баланса производительности, масштабируемости и энергоэффективности.

  • GPU: NVIDIA H100 SXM5 (Hopper) × 8
  • CPU: AMD EPYC 9654 (Genoa) × 2
  • RAM: DDR5 ECC RDIMM 4800 MHz × 24
  • Хранилище данных: Основное (NVMe) Samsung PM1743 × 8 (122,88 ТБ); Резервное (HDD) Seagate Exos X22 × 12 (264 ТБ)
  • Система охлаждения: Гибридная (жидкостное + воздушное) Жидкостное: EK-Quantum Magnitude для CPU + GPU
     Воздушное: 8 × Noctua NF-A14 промышленные вентиляторы
  • Блок питания: Delta Platinum 3500W × 2 (резервирование N+1) с поддержкой горячей замены

Такая конфигурация подойдет для обучения LLM (GPT-4, LLaMA 3) с триллионом параметров.

Сервер для инференса и аналитики

Эта конфигурация оптимизирована под задачи обработки запросов в реальном времени (NLP, компьютерное зрение, рекомендательные системы) с фокусом на низкую задержку, энергоэффективность и масштабируемость.

  • GPU: NVIDIA L40S × 4
  • CPU: Intel Xeon Gold 6430 × 2
  • RAM: DDR5 ECC RDIMM 4400 MHz × 8
  • Хранилище данных: Основное (NVMe) Kingston DC1500M × 4 (30,72 ТБ); Кэш (SSD) Samsung 870 QVO × 2 (16 ТБ)
  • Система охлаждения: пассивная воздушная — кулеры для CPU Noctua NH-U14S
  • Блок питания: Seasonic Prime TX-1000 × 2

Конфигурация отлично справится с задачами типа обработки видеостримов (транскодирование, детекция объектов), обеспечит работу чат-ботов, обработку текста (GPT-3.5, BERT) или функционирование рекомендательных систем.

Итог: как выбрать сервер для ИИ, чтобы не обжечься

Выбор сервера для ИИ это не обычная задача сисадмина, а полноценный проект. Искусственный интеллект это самый современный инструмент, доступный бизнесу, так что работать он должен на конфигурации, которая была подобрана специалистами.

Что важно знать при выборе сервера для ИИ:

  1. Железо должно соответствовать задачам.
  2. Комплектующие совместимы друг с другом.
  3. Сервер работает с необходимыми фреймворками и поддерживает нужные технологии.
  4. Есть поддержка и гарантия.

Не забывайте уточнять наличие выбранных комплектующих на складе и сроки доставки. Не всегда все, что вам нужно, могут привезти через пару дней.

В целом, вы можете заняться подбором комплектующих самостоятельно, этот путь сложный, но возможный. Есть и готовые решения, в которых все «железо» подобрано профессионалами, так что вы будете уверены в совместимости и корректной работе сервера.

А еще многие поставщики предлагают компромиссный вариант — серверы для ИИ с возможностью изменения конфигурации под свои задачи. То есть основа уже есть, а вы можете выбрать сколько и каких GPU и CPU поставить, какой объем дискового хранилища вам нужен и т.д.

ПОДПИСКА

НА РАССЫЛКУ
ПОЛЕЗНЫЕ СТАТЬИ, АКЦИИ
И ЗАКРЫТЫЕ РАСПРОДАЖИ
Котик подписка
Вам также может быть интересно

ТОП-5 ошибок при выборе сервера
Товар добавлен в список сравнения
Перейти в сравнение
Продолжить просмотр
Заявка в тех поддержку
Заказать консультацию
IT-архитектор подберет сервер под вашу задачу
Заказать сервер
Мы свяжемся с вами в течение 15 мин
Зарегистрироваться в бонусной программе
Заявка на лизинг