Что такое DPU (Data Processing Unit): краткий ликбез

17 апреля 2026

Содержание:

SmartNIC, DPU, IPU — кто есть кто
Что внутри DPU: архитектура без магии
Разгрузка CPU: что именно уходит на DPU
Вендоры и их карты: сравнение в цифрах
DPU и гипервизоры: от VMware до Kubernetes
Зачем вам это: экономика DPU
Что дальше

У вас 96-ядерный EPYC в сервере, 512 ГБ оперативки, NVMe-массив — казалось бы, вычислительной мощности хватит на маленький дата-центр. Открываете htop и видите: 30 ядер заняты обработкой VXLAN-туннелей, OVS-правилами и IPsec-шифрованием. Знакомая картина? На 100-гигабитном линке один только Open vSwitch способен утилизировать 8–12 ядер, и это ещё без учёта NVMe-oF и сетевых политик безопасности. Ядра, купленные для виртуальных машин и контейнеров, вместо этого обслуживают инфраструктуру.

DPU (Data Processing Unit) — специализированный процессор, который забирает эту инфраструктурную нагрузку на себя. Физически — PCIe-карта с ARM-ядрами, собственной DDR-памятью, аппаратными ускорителями и сетевыми портами на 100–400 Гбит/с. По сути, отдельный компьютер внутри сервера, который берёт на себя сетевой стек, хранилище и безопасность.

Идея не нова. Ещё в 90-х появились первые smartnic с аппаратным TCP offload — карты, которые снимали с CPU часть сетевой обработки. Но тогда скорости были скромные, а процессоры справлялись. Всё изменилось с приходом 25/100/400-гигабитного Ethernet и массовой виртуализации: объём инфраструктурных задач вырос на порядки, и CPU перестал справляться без посторонней помощи. DPU — это ответ индустрии на эту проблему: вместо того чтобы наращивать ядра на хосте, инфраструктурные функции вынесли на отдельный чип.

SmartNIC, DPU, IPU — кто есть кто

Путаница в терминологии — бич этого рынка. SmartNIC, DPU, IPU — три аббревиатуры, которые часто используют как синонимы, хотя между ними есть принципиальная разница.

SmartNIC — сетевая карта с FPGA или ASIC, которая ускоряет конкретные сетевые функции аппаратно: TCP offload, VXLAN encapsulation, фильтрацию пакетов. У неё нет собственной ОС, нет полноценного CPU-комплекса. Это «умная» сетевая карта, но всё ещё карта.

DPU — следующая ступень. Здесь уже полноценный SoC с ARM-ядрами (обычно 8–24), своя DDR4/DDR5 память, встроенный PCIe-свитч и аппаратные ускорители для крипто, сжатия, regexp. DPU запускает собственную операционную систему — Linux, а в некоторых случаях даже гипервизор. NVIDIA и AMD используют термин DPU.

IPU (Infrastructure Processing Unit) — так Intel называет свою реализацию той же концепции. Архитектурно IPU от DPU не отличается: те же ARM-ядра, та же DDR, те же ускорители. Разница — маркетинговая.

Характеристика	SmartNIC	DPU / IPU
CPU-комплекс	Нет или минимальный (1–2 ядра)	8–24 ARM-ядра
Собственная ОС	Нет	Linux / ESXi
Память	Shared с хостом	Выделенная DDR4/DDR5 (8–48 ГБ)
PCIe-свитч	Нет	Встроенный (Gen4/Gen5)
Программируемость	FPGA / фиксированные ASIC	ASIC + P4 pipeline + SDK
Типичные задачи	Сетевой offload	Сеть + storage + безопасность + управление

Один BlueField-3 DPU заменяет до 300 CPU-ядер на инфраструктурных задачах — данные NVIDIA по результатам тестирования сетевого и storage offload.

Что внутри DPU: архитектура без магии

Зачем нужен dpu — вопрос, который раскрывается через архитектуру. Внутри каждого DPU четыре базовых блока, и каждый решает свою задачу.

ARM-ядра — вычислительное ядро. BlueField-3 использует 16 ядер Arm Cortex-A78, Intel IPU E2200 — до 24 Arm Neoverse N2. Выбор ARM продиктован энергоэффективностью: 16 ядер A78 укладываются в 75 Вт TDP. Аналогичная производительность на x86 обошлась бы в 150+ Вт. На этих ядрах крутится полноценный Linux (или даже ESXi в случае VMware), который обрабатывает control plane и запускает пользовательские сервисы — мониторинг, IDS, кастомные сетевые функции.

Аппаратные ускорители (ASIC/FPGA) — data plane. Крипто-движок для AES-XTS/GCM на линейной скорости, regexp-процессор для deep packet inspection, compression engine. Пакеты обрабатываются в hardware pipeline, не касаясь ARM-ядер. У AMD Pensando ключевая фишка — P4-программируемый pipeline: можно описать логику обработки пакетов на языке P4 и загрузить её в ASIC.

Память DDR5 — от 8 до 48 ГБ, в зависимости от модели. У BlueField-3 — 32 ГБ DDR5 ECC на борту. Это изолированная память, к которой хост не имеет доступа. Здесь хранятся таблицы маршрутизации, flow tables, сессии IPsec — всё, что раньше съедало RAM хоста.

Сетевые интерфейсы — от 2×100 GbE до 1×400 GbE. BlueField-3 поддерживает Ethernet и InfiniBand на скорости до 400 Гбит/с. Встроенный PCIe Gen5 x16 свитч позволяет напрямую связать DPU с GPU, минуя хостовый CPU — для правильно собранных серверов под ИИ это критично.

Всё это собрано на одном кристалле (или нескольких, в случае чиплетной архитектуры) и работает как единый SoC. Хостовая ОС видит DPU как обычную PCIe-карту с сетевыми интерфейсами, но «за кулисами» на ней крутится отдельный Linux со своим сетевым стеком, storage backend и security-сервисами. Управление DPU идёт через встроенный BMC (Baseboard Management Controller) — можно перезагрузить DPU, обновить прошивку, собрать телеметрию, и всё это без вмешательства в хостовую ОС.

Разгрузка CPU: что именно уходит на DPU

Разгрузка CPU — главная причина существования DPU. Разберём три направления offload.

Сетевые функции. OVS offload (ASAP²) — распространённый сценарий. Все flow rules выполняются на ASIC карты, а не в ядре хоста. Результат — тысячи микросекунд задержки превращаются в единицы. Сюда же уходят VXLAN/Geneve encapsulation, QoS-политики, RDMA (RoCEv2), балансировка нагрузки. На 100-гигабитном линке это освобождает 8–12 ядер хоста.

Storage offload. NVMe-oF (NVMe over Fabrics) на DPU — удалённые NVMe-диски выглядят для хоста как локальные. Технология NVIDIA SNAP виртуализирует физическое хранилище: сетевой flash-массив работает через стандартный NVMe-интерфейс без модификации драйверов на хосте. Шифрование данных (AES-XTS) тоже выполняется на DPU — до 18 миллионов IOPS на чтение/запись у BlueField-3 с включённым шифрованием.

Безопасность. Firewall L3/L4 на линейной скорости, IDS/IPS через deep packet inspection, TLS-терминация — всё это работает inline, прямо на DPU. Пакет проверяется до того, как попадёт на хост. DPU изолирован от хостовой ОС: даже если сервер скомпрометирован, сетевой и security-стек на DPU продолжает работать. Это основа zero-trust архитектуры в дата-центрах — подход, который заметно упрощает подготовку серверной инфраструктуры к ИБ-аудиту.

Вендоры и их карты: сравнение в цифрах

Рынок архитектуры DPU делят четыре крупных игрока. У каждого — своя философия и целевая аудитория.

Параметр	NVIDIA BlueField-3	AMD Pensando Salina 400	Intel IPU E2100	Marvell OCTEON 10
Пропускная способность	400 Гбит/с	400 Гбит/с	200 Гбит/с	400 Гбит/с
CPU-ядра	16× Arm A78	до 16× Arm	16× Arm Neoverse N1	Arm Neoverse N2
Память	32 ГБ DDR5	до 128 ГБ	48 ГБ LPDDR4x	DDR5
PCIe	Gen5 x16	Gen5	Gen5	Gen5
Техпроцесс	7 нм	5 нм	—	5 нм
P4-программируемость	Нет (DOCA SDK)	Да	Да	Частично
TDP	~150 Вт	~75 Вт	75–150 Вт	~50 Вт

NVIDIA BlueField — лидер по экосистеме. DOCA SDK, интеграция с GPU через PCIe-свитч, поддержка VMware и Kubernetes «из коробки». Если в серверах стоят GPU NVIDIA — BlueField интегрируется с ними через единый стек управления. DOCA (Data Center on a Chip Architecture) — это по сути «CUDA для DPU»: SDK абстрагирует hardware-ускорители и предоставляет API для разработки сетевых, storage и security-приложений. В комплекте — runtime, оркестрация для тысяч DPU, библиотеки для deep packet inspection, load balancing, regexp. Цена BlueField-3 стартует от ~340 000 ₽, BlueField-2 — от ~190 000 ₽.

AMD Pensando — выбор гиперскейлеров. Oracle Cloud, Microsoft Azure, Goldman Sachs используют Pensando в продакшене. Главное преимущество — P4-программируемость: можно писать кастомную логику обработки пакетов и загружать её в ASIC. Salina 400 выполнена по 5-нм техпроцессу, что даёт отличную энергоэффективность.

Intel IPU E2100 — платформа, вдохновлённая AWS Nitro. Разработана совместно с Google Cloud. E2100 уже в продакшене у Google, а следующее поколение E2200 (24 ядра Neoverse N2, 400 Гбит/с) анонсировано на Hot Chips 2025.

Marvell OCTEON 10 — первый DPU на 5-нм техпроцессе с ядрами Neoverse N2. Заявлена трёхкратная вычислительная производительность при 50% снижении энергопотребления относительно предыдущего поколения. Встроенные ML-ускорители для inline-инференса — уникальная фишка.

При выборе DPU отталкивайтесь от экосистемы, а не от спецификаций. BlueField — для стека NVIDIA, Pensando — для P4-кастомизации, IPU — для Nitro-подобных архитектур.

DPU и гипервизоры: от VMware до Kubernetes

Интеграция DPU с гипервизорами — то, что превращает карту из экзотики в рабочий инструмент.

VMware через Project Monterey перенесла NSX и весь сетевой стек на DPU. Это означает, что сетевые политики, firewall, балансировка — всё исполняется изолированно от хостовой ESXi. Для администратора это выглядит так: на DPU крутится отдельный экземпляр ESXi (так называемый «сервисный домен»), который обрабатывает весь datapath. Хостовая ESXi занимается только виртуальными машинами. В vSphere 8 Update 3 добавлена поддержка Dual DPU на одном хосте: два BlueField в режиме High Performance удваивают пропускную способность, а в режиме Active-Standby обеспечивают отказоустойчивость сетевого стека. Представьте: одна DPU-карта выходит из строя, а трафик мгновенно переключается на вторую без потери пакетов. При компрометации хоста сетевой стек на DPU остаётся нетронутым — изоляция на аппаратном уровне.

Kubernetes с DPU — это SR-IOV и RDMA без нагрузки на хостовый CPU. Network Function Chaining, service mesh offload, шифрование pod-to-pod трафика — функции, которые сейчас выполняет kube-proxy и CNI-плагин на CPU, переносятся на DPU. NVIDIA DOCA содержит готовые Helm-чарты для деплоя сетевых функций на BlueField.

Proxmox VE пока не поддерживает DPU нативно — это один из факторов при выборе гипервизора. Но BlueField работает через PCIe passthrough и DOCA-драйверы — настройка ручная, зато OVS offload функционирует.

Зачем вам это: экономика DPU

DPU стоит 190 000–340 000 ₽ за карту. Дорого? Считаем.

Один BlueField-3 освобождает CPU-ядра, эквивалентные 300 ядрам инфраструктурной нагрузки. На освободившихся ядрах можно разместить в 2–3 раза больше виртуальных машин. Для хоста с двумя 64-ядерными EPYC это разница между 80 и 200+ VM. Меньше серверов — меньше лицензий на VMware/RHEL, меньше юнитов в стойке, меньше потребление электричества.

По энергоэффективности выигрыш составляет 30–50% на инфраструктурных задачах. DPU с TDP 75–150 Вт заменяет десятки CPU-ядер с совокупным TDP в сотни ватт. Для дата-центра на 1000 серверов это ощутимое снижение OPEX — и по электричеству, и по охлаждению. Грубый расчёт: 30 ядер × 5 Вт на ядро = 150 Вт инфраструктурной нагрузки на CPU. DPU Marvell OCTEON 10 делает ту же работу при TDP ~50 Вт. Экономия 100 Вт на сервер × 1000 серверов × 8760 часов в год × ~7 ₽/кВт·ч = ~6,1 млн ₽ в год только на электричестве. А ведь каждый ватт тепла нужно ещё и охладить — умножайте на PUE вашего ЦОД.

Есть и неочевидный бонус: лицензирование. VMware, Red Hat, Oracle — многие лицензии привязаны к количеству CPU-ядер или сокетов. Если 30 ядер больше не заняты инфраструктурой и вам хватает меньшего процессора — экономия на лицензиях может превысить стоимость DPU за один-два года.

Рынок DPU и smartnic растёт с ~95 млрд ₽ в 2024 году до прогнозных ~375 млрд ₽ к 2034-му со среднегодовым темпом ~15%. Около половины облачных провайдеров уже используют DPU в продакшене.

Что дальше

BlueField-4 — следующее поколение от NVIDIA — обещает 800 Гбит/с и интеграцию GPU-ядер на кристалле DPU. Intel движется к E2200 с 24 ядрами Neoverse N2 и 400-гигабитным Ethernet. AMD совершенствует P4-pipeline в Salina 400 и развивает совместимость с предыдущими поколениями через единый софтверный стек.

Архитектура DPU движется в сторону чиплетов и гетерогенных SoC: ARM-ядра, ASIC-ускорители, GPU-блоки и память HBM на одной подложке. Когда (не если) пропускная способность сетей дорастёт до 1.6 Тбит/с на порт, CPU просто физически не сможет обработать этот трафик — даже частично. DPU перестанет быть опцией и станет обязательным компонентом, как когда-то RAID-контроллер стал стандартом для серверов.

Ещё одно направление — встроенные ML-ускорители. Marvell OCTEON 10 уже предлагает inline-инференс на DPU: классификация трафика, обнаружение аномалий, DDoS-детекция — всё на линейной скорости без обращения к хостовому CPU или внешнему GPU. Через 2–3 года такие функции станут нормой для всех DPU.

Если вы проектируете инфраструктуру с горизонтом 3–5 лет и планируете 100+ Гбит/с на сервер — закладывайте DPU в архитектуру уже сейчас.

Логин:
Пароль:
	Запомнить меня

Регистрация
Забыли свой пароль?