Что такое DPU (Data Processing Unit): краткий ликбез
У вас 96-ядерный EPYC в сервере, 512 ГБ оперативки, NVMe-массив — казалось бы, вычислительной мощности хватит на маленький дата-центр. Открываете htop и видите: 30 ядер заняты обработкой VXLAN-туннелей, OVS-правилами и IPsec-шифрованием. Знакомая картина? На 100-гигабитном линке один только Open vSwitch способен утилизировать 8–12 ядер, и это ещё без учёта NVMe-oF и сетевых политик безопасности. Ядра, купленные для виртуальных машин и контейнеров, вместо этого обслуживают инфраструктуру.
DPU (Data Processing Unit) — специализированный процессор, который забирает эту инфраструктурную нагрузку на себя. Физически — PCIe-карта с ARM-ядрами, собственной DDR-памятью, аппаратными ускорителями и сетевыми портами на 100–400 Гбит/с. По сути, отдельный компьютер внутри сервера, который берёт на себя сетевой стек, хранилище и безопасность.
Идея не нова. Ещё в 90-х появились первые smartnic с аппаратным TCP offload — карты, которые снимали с CPU часть сетевой обработки. Но тогда скорости были скромные, а процессоры справлялись. Всё изменилось с приходом 25/100/400-гигабитного Ethernet и массовой виртуализации: объём инфраструктурных задач вырос на порядки, и CPU перестал справляться без посторонней помощи. DPU — это ответ индустрии на эту проблему: вместо того чтобы наращивать ядра на хосте, инфраструктурные функции вынесли на отдельный чип.
SmartNIC, DPU, IPU — кто есть кто
Путаница в терминологии — бич этого рынка. SmartNIC, DPU, IPU — три аббревиатуры, которые часто используют как синонимы, хотя между ними есть принципиальная разница.
SmartNIC — сетевая карта с FPGA или ASIC, которая ускоряет конкретные сетевые функции аппаратно: TCP offload, VXLAN encapsulation, фильтрацию пакетов. У неё нет собственной ОС, нет полноценного CPU-комплекса. Это «умная» сетевая карта, но всё ещё карта.
DPU — следующая ступень. Здесь уже полноценный SoC с ARM-ядрами (обычно 8–24), своя DDR4/DDR5 память, встроенный PCIe-свитч и аппаратные ускорители для крипто, сжатия, regexp. DPU запускает собственную операционную систему — Linux, а в некоторых случаях даже гипервизор. NVIDIA и AMD используют термин DPU.
IPU (Infrastructure Processing Unit) — так Intel называет свою реализацию той же концепции. Архитектурно IPU от DPU не отличается: те же ARM-ядра, та же DDR, те же ускорители. Разница — маркетинговая.
| Характеристика | SmartNIC | DPU / IPU |
|---|---|---|
| CPU-комплекс | Нет или минимальный (1–2 ядра) | 8–24 ARM-ядра |
| Собственная ОС | Нет | Linux / ESXi |
| Память | Shared с хостом | Выделенная DDR4/DDR5 (8–48 ГБ) |
| PCIe-свитч | Нет | Встроенный (Gen4/Gen5) |
| Программируемость | FPGA / фиксированные ASIC | ASIC + P4 pipeline + SDK |
| Типичные задачи | Сетевой offload | Сеть + storage + безопасность + управление |
Что внутри DPU: архитектура без магии
Зачем нужен dpu — вопрос, который раскрывается через архитектуру. Внутри каждого DPU четыре базовых блока, и каждый решает свою задачу.
ARM-ядра — вычислительное ядро. BlueField-3 использует 16 ядер Arm Cortex-A78, Intel IPU E2200 — до 24 Arm Neoverse N2. Выбор ARM продиктован энергоэффективностью: 16 ядер A78 укладываются в 75 Вт TDP. Аналогичная производительность на x86 обошлась бы в 150+ Вт. На этих ядрах крутится полноценный Linux (или даже ESXi в случае VMware), который обрабатывает control plane и запускает пользовательские сервисы — мониторинг, IDS, кастомные сетевые функции.
Аппаратные ускорители (ASIC/FPGA) — data plane. Крипто-движок для AES-XTS/GCM на линейной скорости, regexp-процессор для deep packet inspection, compression engine. Пакеты обрабатываются в hardware pipeline, не касаясь ARM-ядер. У AMD Pensando ключевая фишка — P4-программируемый pipeline: можно описать логику обработки пакетов на языке P4 и загрузить её в ASIC.
Память DDR5 — от 8 до 48 ГБ, в зависимости от модели. У BlueField-3 — 32 ГБ DDR5 ECC на борту. Это изолированная память, к которой хост не имеет доступа. Здесь хранятся таблицы маршрутизации, flow tables, сессии IPsec — всё, что раньше съедало RAM хоста.
Сетевые интерфейсы — от 2×100 GbE до 1×400 GbE. BlueField-3 поддерживает Ethernet и InfiniBand на скорости до 400 Гбит/с. Встроенный PCIe Gen5 x16 свитч позволяет напрямую связать DPU с GPU, минуя хостовый CPU — для правильно собранных серверов под ИИ это критично.
Всё это собрано на одном кристалле (или нескольких, в случае чиплетной архитектуры) и работает как единый SoC. Хостовая ОС видит DPU как обычную PCIe-карту с сетевыми интерфейсами, но «за кулисами» на ней крутится отдельный Linux со своим сетевым стеком, storage backend и security-сервисами. Управление DPU идёт через встроенный BMC (Baseboard Management Controller) — можно перезагрузить DPU, обновить прошивку, собрать телеметрию, и всё это без вмешательства в хостовую ОС.
Разгрузка CPU: что именно уходит на DPU
Разгрузка CPU — главная причина существования DPU. Разберём три направления offload.
Сетевые функции. OVS offload (ASAP²) — распространённый сценарий. Все flow rules выполняются на ASIC карты, а не в ядре хоста. Результат — тысячи микросекунд задержки превращаются в единицы. Сюда же уходят VXLAN/Geneve encapsulation, QoS-политики, RDMA (RoCEv2), балансировка нагрузки. На 100-гигабитном линке это освобождает 8–12 ядер хоста.
Storage offload. NVMe-oF (NVMe over Fabrics) на DPU — удалённые NVMe-диски выглядят для хоста как локальные. Технология NVIDIA SNAP виртуализирует физическое хранилище: сетевой flash-массив работает через стандартный NVMe-интерфейс без модификации драйверов на хосте. Шифрование данных (AES-XTS) тоже выполняется на DPU — до 18 миллионов IOPS на чтение/запись у BlueField-3 с включённым шифрованием.
Безопасность. Firewall L3/L4 на линейной скорости, IDS/IPS через deep packet inspection, TLS-терминация — всё это работает inline, прямо на DPU. Пакет проверяется до того, как попадёт на хост. DPU изолирован от хостовой ОС: даже если сервер скомпрометирован, сетевой и security-стек на DPU продолжает работать. Это основа zero-trust архитектуры в дата-центрах — подход, который заметно упрощает подготовку серверной инфраструктуры к ИБ-аудиту.
Вендоры и их карты: сравнение в цифрах
Рынок архитектуры DPU делят четыре крупных игрока. У каждого — своя философия и целевая аудитория.
| Параметр | NVIDIA BlueField-3 | AMD Pensando Salina 400 | Intel IPU E2100 | Marvell OCTEON 10 |
|---|---|---|---|---|
| Пропускная способность | 400 Гбит/с | 400 Гбит/с | 200 Гбит/с | 400 Гбит/с |
| CPU-ядра | 16× Arm A78 | до 16× Arm | 16× Arm Neoverse N1 | Arm Neoverse N2 |
| Память | 32 ГБ DDR5 | до 128 ГБ | 48 ГБ LPDDR4x | DDR5 |
| PCIe | Gen5 x16 | Gen5 | Gen5 | Gen5 |
| Техпроцесс | 7 нм | 5 нм | — | 5 нм |
| P4-программируемость | Нет (DOCA SDK) | Да | Да | Частично |
| TDP | ~150 Вт | ~75 Вт | 75–150 Вт | ~50 Вт |
NVIDIA BlueField — лидер по экосистеме. DOCA SDK, интеграция с GPU через PCIe-свитч, поддержка VMware и Kubernetes «из коробки». Если в серверах стоят GPU NVIDIA — BlueField интегрируется с ними через единый стек управления. DOCA (Data Center on a Chip Architecture) — это по сути «CUDA для DPU»: SDK абстрагирует hardware-ускорители и предоставляет API для разработки сетевых, storage и security-приложений. В комплекте — runtime, оркестрация для тысяч DPU, библиотеки для deep packet inspection, load balancing, regexp. Цена BlueField-3 стартует от ~340 000 ₽, BlueField-2 — от ~190 000 ₽.
AMD Pensando — выбор гиперскейлеров. Oracle Cloud, Microsoft Azure, Goldman Sachs используют Pensando в продакшене. Главное преимущество — P4-программируемость: можно писать кастомную логику обработки пакетов и загружать её в ASIC. Salina 400 выполнена по 5-нм техпроцессу, что даёт отличную энергоэффективность.
Intel IPU E2100 — платформа, вдохновлённая AWS Nitro. Разработана совместно с Google Cloud. E2100 уже в продакшене у Google, а следующее поколение E2200 (24 ядра Neoverse N2, 400 Гбит/с) анонсировано на Hot Chips 2025.
Marvell OCTEON 10 — первый DPU на 5-нм техпроцессе с ядрами Neoverse N2. Заявлена трёхкратная вычислительная производительность при 50% снижении энергопотребления относительно предыдущего поколения. Встроенные ML-ускорители для inline-инференса — уникальная фишка.
DPU и гипервизоры: от VMware до Kubernetes
Интеграция DPU с гипервизорами — то, что превращает карту из экзотики в рабочий инструмент.
VMware через Project Monterey перенесла NSX и весь сетевой стек на DPU. Это означает, что сетевые политики, firewall, балансировка — всё исполняется изолированно от хостовой ESXi. Для администратора это выглядит так: на DPU крутится отдельный экземпляр ESXi (так называемый «сервисный домен»), который обрабатывает весь datapath. Хостовая ESXi занимается только виртуальными машинами. В vSphere 8 Update 3 добавлена поддержка Dual DPU на одном хосте: два BlueField в режиме High Performance удваивают пропускную способность, а в режиме Active-Standby обеспечивают отказоустойчивость сетевого стека. Представьте: одна DPU-карта выходит из строя, а трафик мгновенно переключается на вторую без потери пакетов. При компрометации хоста сетевой стек на DPU остаётся нетронутым — изоляция на аппаратном уровне.
Kubernetes с DPU — это SR-IOV и RDMA без нагрузки на хостовый CPU. Network Function Chaining, service mesh offload, шифрование pod-to-pod трафика — функции, которые сейчас выполняет kube-proxy и CNI-плагин на CPU, переносятся на DPU. NVIDIA DOCA содержит готовые Helm-чарты для деплоя сетевых функций на BlueField.
Proxmox VE пока не поддерживает DPU нативно — это один из факторов при выборе гипервизора. Но BlueField работает через PCIe passthrough и DOCA-драйверы — настройка ручная, зато OVS offload функционирует.
Зачем вам это: экономика DPU
DPU стоит 190 000–340 000 ₽ за карту. Дорого? Считаем.
Один BlueField-3 освобождает CPU-ядра, эквивалентные 300 ядрам инфраструктурной нагрузки. На освободившихся ядрах можно разместить в 2–3 раза больше виртуальных машин. Для хоста с двумя 64-ядерными EPYC это разница между 80 и 200+ VM. Меньше серверов — меньше лицензий на VMware/RHEL, меньше юнитов в стойке, меньше потребление электричества.
По энергоэффективности выигрыш составляет 30–50% на инфраструктурных задачах. DPU с TDP 75–150 Вт заменяет десятки CPU-ядер с совокупным TDP в сотни ватт. Для дата-центра на 1000 серверов это ощутимое снижение OPEX — и по электричеству, и по охлаждению. Грубый расчёт: 30 ядер × 5 Вт на ядро = 150 Вт инфраструктурной нагрузки на CPU. DPU Marvell OCTEON 10 делает ту же работу при TDP ~50 Вт. Экономия 100 Вт на сервер × 1000 серверов × 8760 часов в год × ~7 ₽/кВт·ч = ~6,1 млн ₽ в год только на электричестве. А ведь каждый ватт тепла нужно ещё и охладить — умножайте на PUE вашего ЦОД.
Есть и неочевидный бонус: лицензирование. VMware, Red Hat, Oracle — многие лицензии привязаны к количеству CPU-ядер или сокетов. Если 30 ядер больше не заняты инфраструктурой и вам хватает меньшего процессора — экономия на лицензиях может превысить стоимость DPU за один-два года.
Рынок DPU и smartnic растёт с ~95 млрд ₽ в 2024 году до прогнозных ~375 млрд ₽ к 2034-му со среднегодовым темпом ~15%. Около половины облачных провайдеров уже используют DPU в продакшене.
Что дальше
BlueField-4 — следующее поколение от NVIDIA — обещает 800 Гбит/с и интеграцию GPU-ядер на кристалле DPU. Intel движется к E2200 с 24 ядрами Neoverse N2 и 400-гигабитным Ethernet. AMD совершенствует P4-pipeline в Salina 400 и развивает совместимость с предыдущими поколениями через единый софтверный стек.
Архитектура DPU движется в сторону чиплетов и гетерогенных SoC: ARM-ядра, ASIC-ускорители, GPU-блоки и память HBM на одной подложке. Когда (не если) пропускная способность сетей дорастёт до 1.6 Тбит/с на порт, CPU просто физически не сможет обработать этот трафик — даже частично. DPU перестанет быть опцией и станет обязательным компонентом, как когда-то RAID-контроллер стал стандартом для серверов.
Ещё одно направление — встроенные ML-ускорители. Marvell OCTEON 10 уже предлагает inline-инференс на DPU: классификация трафика, обнаружение аномалий, DDoS-детекция — всё на линейной скорости без обращения к хостовому CPU или внешнему GPU. Через 2–3 года такие функции станут нормой для всех DPU.
Если вы проектируете инфраструктуру с горизонтом 3–5 лет и планируете 100+ Гбит/с на сервер — закладывайте DPU в архитектуру уже сейчас.


