Архитектура SoC NVIDIA GB10: итоги Hot Chips 2025

26 марта 2026

Содержание:

Два кристалла, одна задача
Память: 128 ГБ без HBM
Сравнение с конкурентами
ConnectX-7 и кластеризация
Arm, виртуализация и вопрос совместимости
Для каких задач это подходит
Что дальше

Пока индустрия обсуждала B100 и B200 в серверных стойках, NVIDIA тихо показала на Hot Chips 2025 кое-что принципиально другое. GB10 — это не просто уменьшенная версия датацентрового GPU. Это попытка запихнуть суперкомпьютер в форм-фактор рабочей станции, не потеряв производительность там, где это реально важно.

Разберём, что внутри, и — что не менее важно — зачем это вообще нужно тем, кто работает с реальной инфраструктурой.

Два кристалла, одна задача

GB10 — это Grace Blackwell Superchip: два кристалла в одном корпусе, соединённых через высокоскоростной C2C-интерфейс с пропускной способностью 600 ГБ/с. Это не просто "процессор с видеокартой на одной плате" — связь между ними когерентная, то есть CPU и GPU работают с общей памятью без копирования данных туда-обратно.

S-Die (CPU) — 20 ядер Armv9.2, разбитых на два кластера по 10 ядер. Каждый кластер имеет 16 МБ L3-кэша. Архитектура Arm здесь — не компромисс ради энергоэффективности, а вполне осознанный выбор под задачи параллельной обработки данных и контейнерных нагрузок.

G-Die (GPU) — Blackwell-ядро с 31 TFLOPS в FP32 и 1000 TOPS в формате NVFP4. 24 МБ L2-кэша работают как буфер для обеспечения когерентности между CPU и GPU — данные не дублируются, а адресуются напрямую.

Всё это упаковано в 2.5D-корпус на 3-нм техпроцессе TSMC. По технологии упаковки GB10 — технологически передовой продукт в линейке Blackwell, хотя по абсолютным числам FLOPS он, разумеется, уступает серверным монстрам.

Память: 128 ГБ без HBM

Одно из самых неочевидных решений в GB10 — отказ от HBM в пользу LPDDR5X. Звучит как откат назад, но дьявол в деталях. Чтобы оценить этот выбор, полезно понимать особенности и типы серверной оперативной памяти: разница между HBM, LPDDR и стандартными ECC-модулями влияет не только на пропускную способность, но и на архитектуру платформы целиком.

128 ГБ unified LPDDR5X-9400 работают в 256-битном режиме и обеспечивают 301 ГБ/с пропускной способности. Для сравнения: H100 SXM5 с HBM3 даёт 3,35 ТБ/с — на порядок больше, но стоит это совсем других денег, потребляет совсем другую мощность и требует совсем другой инфраструктуры охлаждения.

128 ГБ unified-памяти в GB10 — это больше, чем у большинства серверных GPU с HBM. AMD MI300X имеет 192 ГБ HBM3, но его TDP — 750 Вт. GB10 обходится 140 Вт.

Главное преимущество unified-архитектуры — CPU и GPU видят одно и то же адресное пространство. Никаких cudaMemcpy, никаких явных переносов данных. Это меняет характер работы с моделями: загрузить веса на 70B параметров и начать инференс можно без предварительного "распихивания" данных по разным пулам памяти.

Сравнение с конкурентами

Позиционирование GB10 становится понятнее, когда смотришь на таблицу. Он не конкурирует с B200 за место в датацентре — он закрывает другую нишу.

Аспект	NVIDIA GB10	AMD MI300X	Intel Gaudi 3
TDP	140 Вт	750 Вт	600 Вт
Память	128 ГБ LPDDR5X	192 ГБ HBM3	128 ГБ HBM2e
Пропускная способность	301 ГБ/с	5,3 ТБ/с	3,7 ТБ/с
ИИ-производительность	1000 TOPS (NVFP4)	~1300 TOPS	~1800 TOPS
Форм-фактор	Desktop/Edge	Серверный PCIe/OAM	Серверный PCIe
Цена платформы	~400.000 (DGX Spark)	1000.000+	600.000+

По сырым TOPS числа у конкурентов выглядят сопоставимо или лучше. Но ни один из них не влезет в рабочую станцию с воздушным охлаждением и не запустится от стандартной розетки. GB10 выигрывает не по пиковой мощности, а по соотношению производительности к Ваттам и к рублям за юнит инфраструктуры.

ConnectX-7 и кластеризация

Два DGX Spark с ConnectX-7 можно объединить в кластер — суммарно получаете 256 ГБ unified-памяти и 2000 TOPS без стойки и специального питания.

ConnectX-7 — это не просто "сетевая карта". Это адаптер, который в серверном мире используется для InfiniBand HDR и 400GbE Ethernet. Его присутствие в GB10 означает, что NVIDIA изначально проектировала чип не как изолированную рабочую станцию, а как ноду для edge-кластеров.

Два устройства DGX Spark объединяются в пару через ConnectX-7 и работают как единая система с общим пространством памяти 256 ГБ. Это не маркетинг — это конкретная топология для задач, где одной машины не хватает, но ставить полноценный сервер нет смысла (или места, или бюджета).

Arm, виртуализация и вопрос совместимости

20 ядер Armv9.2 — это та часть, которая у части аудитории вызовет скептицизм. Arm в серверном и edge-сегменте набирает позиции, но вопрос совместимости с корпоративным ПО никуда не делся.

Хорошая новость: Proxmox VE, Docker, Kubernetes — всё это работает на Arm без существенных ограничений. Контейнерные образы для arm64 давно стали нормой для большинства open-source инструментов. Zabbix, Grafana, Prometheus — у всех есть Arm-сборки.

Плохая новость: если у вас в инфраструктуре есть проприетарное ПО, заточенное под x86, — придётся либо эмулировать (с потерями), либо оставить такие задачи на x86-машинах. Миграция не будет бесплатной, и это честно надо признать.

Когерентный доступ CPU и GPU к общей памяти открывает интересный сценарий для виртуализации: передавать GPU-ресурсы в VM без паравиртуализации и сложных драйверных прослоек. Это потенциально упрощает архитектуру Proxmox-кластеров, где GPU-пробрасывание через VFIO до сих пор остаётся удовольствием на любителя — особенно если вы ещё не определились с выбором гипервизора под GPU-нагрузки.

Для каких задач это подходит

GB10 в составе DGX Spark (400.000 на момент анонса, с очередями на предзаказы) закрывает конкретный сегмент: локальный файнтюнинг и инференс моделей до 70B параметров без облака.

Это не абстрактная цифра. LLaMA 3 70B в 4-битном квантовании занимает около 35 ГБ — на GB10 это умещается с запасом. Можно запустить инференс, файнтюнинг на своих данных, RAG-пайплайн — и всё это без отправки данных на внешние серверы. Тем, кто рассматривает более тяжёлые задачи или мультиузловые кластеры, стоит отдельно изучить, как выбрать и собрать сервер под реальные ИИ-задачи. Для юрлиц с ограничениями на обработку данных это не фича, а необходимость.

Помимо ИИ-задач: DLSS 4, аппаратный ray tracing и поддержка до 4 дисплеев (3× DisplayPort + HDMI 2.1a) делают GB10 полноценной рабочей станцией для рендеринга и проектирования. 140 Вт TDP — это меньше, чем потребляет средний игровой ноутбук под нагрузкой.

Что дальше

GB10 — база для мобильных чипов серии N1, которые NVIDIA анонсировала для ноутбуков. Это означает, что архитектура Blackwell в компактном исполнении будет масштабироваться вниз, а не только вверх.

Интереснее другое: если в следующем поколении NVIDIA сохранит когерентную память и увеличит пропускную способность C2C-интерфейса — граница между "рабочей станцией" и "серверным узлом" размоется окончательно. Edge-вычисления перестанут быть компромиссом между производительностью и стоимостью инфраструктуры.

Пока что GB10 — это честный ответ на вопрос "можно ли работать с большими моделями без датацентра". Ответ — да, если 140 Вт и 400.000 вписываются в вашу логику затрат. Для многих команд это вполне реальная цифра.

Логин:
Пароль:
	Запомнить меня

Регистрация
Забыли свой пароль?