Архитектура SoC NVIDIA GB10: итоги Hot Chips 2025
Пока индустрия обсуждала B100 и B200 в серверных стойках, NVIDIA тихо показала на Hot Chips 2025 кое-что принципиально другое. GB10 — это не просто уменьшенная версия датацентрового GPU. Это попытка запихнуть суперкомпьютер в форм-фактор рабочей станции, не потеряв производительность там, где это реально важно.
Разберём, что внутри, и — что не менее важно — зачем это вообще нужно тем, кто работает с реальной инфраструктурой.
Два кристалла, одна задача
GB10 — это Grace Blackwell Superchip: два кристалла в одном корпусе, соединённых через высокоскоростной C2C-интерфейс с пропускной способностью 600 ГБ/с. Это не просто "процессор с видеокартой на одной плате" — связь между ними когерентная, то есть CPU и GPU работают с общей памятью без копирования данных туда-обратно.
S-Die (CPU) — 20 ядер Armv9.2, разбитых на два кластера по 10 ядер. Каждый кластер имеет 16 МБ L3-кэша. Архитектура Arm здесь — не компромисс ради энергоэффективности, а вполне осознанный выбор под задачи параллельной обработки данных и контейнерных нагрузок.
G-Die (GPU) — Blackwell-ядро с 31 TFLOPS в FP32 и 1000 TOPS в формате NVFP4. 24 МБ L2-кэша работают как буфер для обеспечения когерентности между CPU и GPU — данные не дублируются, а адресуются напрямую.
Всё это упаковано в 2.5D-корпус на 3-нм техпроцессе TSMC. По технологии упаковки GB10 — технологически передовой продукт в линейке Blackwell, хотя по абсолютным числам FLOPS он, разумеется, уступает серверным монстрам.
Память: 128 ГБ без HBM
Одно из самых неочевидных решений в GB10 — отказ от HBM в пользу LPDDR5X. Звучит как откат назад, но дьявол в деталях. Чтобы оценить этот выбор, полезно понимать особенности и типы серверной оперативной памяти: разница между HBM, LPDDR и стандартными ECC-модулями влияет не только на пропускную способность, но и на архитектуру платформы целиком.
128 ГБ unified LPDDR5X-9400 работают в 256-битном режиме и обеспечивают 301 ГБ/с пропускной способности. Для сравнения: H100 SXM5 с HBM3 даёт 3,35 ТБ/с — на порядок больше, но стоит это совсем других денег, потребляет совсем другую мощность и требует совсем другой инфраструктуры охлаждения.
Главное преимущество unified-архитектуры — CPU и GPU видят одно и то же адресное пространство. Никаких cudaMemcpy, никаких явных переносов данных. Это меняет характер работы с моделями: загрузить веса на 70B параметров и начать инференс можно без предварительного "распихивания" данных по разным пулам памяти.
Сравнение с конкурентами
Позиционирование GB10 становится понятнее, когда смотришь на таблицу. Он не конкурирует с B200 за место в датацентре — он закрывает другую нишу.
| Аспект | NVIDIA GB10 | AMD MI300X | Intel Gaudi 3 |
|---|---|---|---|
| TDP | 140 Вт | 750 Вт | 600 Вт |
| Память | 128 ГБ LPDDR5X | 192 ГБ HBM3 | 128 ГБ HBM2e |
| Пропускная способность | 301 ГБ/с | 5,3 ТБ/с | 3,7 ТБ/с |
| ИИ-производительность | 1000 TOPS (NVFP4) | ~1300 TOPS | ~1800 TOPS |
| Форм-фактор | Desktop/Edge | Серверный PCIe/OAM | Серверный PCIe |
| Цена платформы | ~400.000 (DGX Spark) | 1000.000+ | 600.000+ |
По сырым TOPS числа у конкурентов выглядят сопоставимо или лучше. Но ни один из них не влезет в рабочую станцию с воздушным охлаждением и не запустится от стандартной розетки. GB10 выигрывает не по пиковой мощности, а по соотношению производительности к Ваттам и к рублям за юнит инфраструктуры.
ConnectX-7 и кластеризация
ConnectX-7 — это не просто "сетевая карта". Это адаптер, который в серверном мире используется для InfiniBand HDR и 400GbE Ethernet. Его присутствие в GB10 означает, что NVIDIA изначально проектировала чип не как изолированную рабочую станцию, а как ноду для edge-кластеров.
Два устройства DGX Spark объединяются в пару через ConnectX-7 и работают как единая система с общим пространством памяти 256 ГБ. Это не маркетинг — это конкретная топология для задач, где одной машины не хватает, но ставить полноценный сервер нет смысла (или места, или бюджета).
Arm, виртуализация и вопрос совместимости
20 ядер Armv9.2 — это та часть, которая у части аудитории вызовет скептицизм. Arm в серверном и edge-сегменте набирает позиции, но вопрос совместимости с корпоративным ПО никуда не делся.
Хорошая новость: Proxmox VE, Docker, Kubernetes — всё это работает на Arm без существенных ограничений. Контейнерные образы для arm64 давно стали нормой для большинства open-source инструментов. Zabbix, Grafana, Prometheus — у всех есть Arm-сборки.
Плохая новость: если у вас в инфраструктуре есть проприетарное ПО, заточенное под x86, — придётся либо эмулировать (с потерями), либо оставить такие задачи на x86-машинах. Миграция не будет бесплатной, и это честно надо признать.
Когерентный доступ CPU и GPU к общей памяти открывает интересный сценарий для виртуализации: передавать GPU-ресурсы в VM без паравиртуализации и сложных драйверных прослоек. Это потенциально упрощает архитектуру Proxmox-кластеров, где GPU-пробрасывание через VFIO до сих пор остаётся удовольствием на любителя — особенно если вы ещё не определились с выбором гипервизора под GPU-нагрузки.
Для каких задач это подходит
GB10 в составе DGX Spark (400.000 на момент анонса, с очередями на предзаказы) закрывает конкретный сегмент: локальный файнтюнинг и инференс моделей до 70B параметров без облака.
Это не абстрактная цифра. LLaMA 3 70B в 4-битном квантовании занимает около 35 ГБ — на GB10 это умещается с запасом. Можно запустить инференс, файнтюнинг на своих данных, RAG-пайплайн — и всё это без отправки данных на внешние серверы. Тем, кто рассматривает более тяжёлые задачи или мультиузловые кластеры, стоит отдельно изучить, как выбрать и собрать сервер под реальные ИИ-задачи. Для юрлиц с ограничениями на обработку данных это не фича, а необходимость.
Помимо ИИ-задач: DLSS 4, аппаратный ray tracing и поддержка до 4 дисплеев (3× DisplayPort + HDMI 2.1a) делают GB10 полноценной рабочей станцией для рендеринга и проектирования. 140 Вт TDP — это меньше, чем потребляет средний игровой ноутбук под нагрузкой.
Что дальше
GB10 — база для мобильных чипов серии N1, которые NVIDIA анонсировала для ноутбуков. Это означает, что архитектура Blackwell в компактном исполнении будет масштабироваться вниз, а не только вверх.
Интереснее другое: если в следующем поколении NVIDIA сохранит когерентную память и увеличит пропускную способность C2C-интерфейса — граница между "рабочей станцией" и "серверным узлом" размоется окончательно. Edge-вычисления перестанут быть компромиссом между производительностью и стоимостью инфраструктуры.
Пока что GB10 — это честный ответ на вопрос "можно ли работать с большими моделями без датацентра". Ответ — да, если 140 Вт и 400.000 вписываются в вашу логику затрат. Для многих команд это вполне реальная цифра.


