Nvidia DGX

NVIDIA DGX — это серия серверов и рабочих станций, разработанная и производимая корпорацией NVIDIA Corporation, которые специализируются на использовании ускорителей GPGPU-вычислений для ускорения приложений глубокого обучения систем искусственного интеллекта.

Модельный ряд

Поколение Pascal — Volta

Nvidia DGX-1

Первая модель HPC-сервера Nvidia DGX-1 была анонсированная 6 апреля 2016 года^[1]. И имела 8 профессиональных карт расширения NVIDIA Tesla P100 / V100 c графическими процессорами класса Server/Datacenter на базе с микроархитектур Pascal или Volta^[2] с общей набортной памятью HBM2 объёмом 128 ГБ, подключенных через высокоскоростную шину NVLink^[3].

Серия продуктов предназначена для преодоления разрыва между графическими процессорами и ускорителями искусственного интеллекта, поскольку устройство имеет особые как аппаратные так и программные функции, которые позволяют ему ускорять процессы глубокого обучения (частью методов машинного обучения искусственного интеллекта)^[4].

Первоначальный DGX-1 на базе микроархитектуры Pascal обеспечивал 170 терафлопс обработки данных половинной точности^[5], а модернизация на базе Volta увеличила эту производительность до 1000 терафлопс^[6].

Представленный в мае 2017 года Nvidia DGX-1 второго поколения содержит 2 ЦПУ Intel Xeon E5 и 8 GPU Nvidia Tesla V100 на базе микроархитектуры Volta (5120 тензорных ядер), связанных через быструю шину NVLink^[7]. Он имеет специализированную архитектуру памяти^[англ.], которая является особенно подходящей для построения сетей глубокого обучения^[8]^[9].

Технические характеристики

2 × ЦПУ Intel Xeon E5;
512 ГБ OЗУ DDR4-2133;
8 × GPU NVIDIA Tesla P100 / V100 с общим объемом HBM2 памяти 128 ГБ;
2 × сетевые карты 10 ГБ Ethernet;
4 × твердотельных накопителя по 1,92 ТБ;
3200 Вт комбинированной мощности источника питания;
Стоечный корпус 3U.

Nvidia DGX-2

В конце марта 2018 года была продемонстрировано новое поколение HPC-серверов Nvidia DGX-2^[10]^[11] с более высокой производительностью до 2 петафлопс и с использований новых технологий, такими как NVSwitch^[англ.]^[12].

Nvidia DGX Station

Nvidia DGX Station — это рабочие станции с профессиональными картами расширения NVIDIA Tesla P100 / V100 на базе микроархитектур Pascal или Volta.

Поколение Ampere

Nvidia DGX A100 Server

В мае 2020 года был анонсирован Nvidia DGX A100 Server^[13] — это новое поколение HPC-серверов с профессиональными GPGPU-ускорителями NVIDIA A100 на базе микроархитектуры Ampere^[14].

Технические характеристики

DGX A100 Server содержит:

2 x ЦПУ 64-ядерные AMD EPYC;
2 Тбайт OЗУ;
8 × GPU A100 с общим объемом HBM2e памяти 320 или 640 Гб;
до 10 × 200 Гбит/с InfiniBand/Ethernet-коммутатор ConnectX-7;
6 NVIDIA NVSwitch^[англ.] пропускная способность 4,8 ТБ/с, что вдвое выше, чем в предыдущем поколении;
Высокоскоростное хранилище 30 Тбайт NVMe SSD Gen4.

Nvidia DGX Station A100

Nvidia DGX Station A100 — это рабочие станции с профессиональными картами расширения NVIDIA A100 на базе микроархитектуры Ampere.

Поколение Hopper

Nvidia DGX H100 Server

В марте 2022 года был анонсирован Nvidia DGX H100 Server^[15] — это очередное поколение HPC-серверов с профессиональными GPGPU-ускорителями NVIDIA H100 на базе микроархитектуры Hopper^[16].

Технические характеристики

DGX H100 Server содержит:

2 x ЦПУ Intel Xeon Sapphire Rapids^[англ.]^[17];
2 Тбайт OЗУ;
8 × GPU H100 с общим объемом HBM3 памяти 640 Гб;
2 × DPU^[англ.] BlueField^[англ.]-3;
8 × 400 Гбит/с InfiniBand/Ethernet-коммутатор ConnectX-7;
Высокоскоростное хранилище 30 Тбайт NVMe SSD.

Nvidia DGX GH200 AI Supercomputer

В конце мая 2023 года Nvidia анонсировала, что в конце 2023 года корпоративным заказчикам станет доступна новая HPC-платформа DGX GH200 AI Supercomputer, в которой используются 256 суперчипов GH200 Grace Hopper (72-ядерный ARM-процессор + GPGPU-ускоритель H100), объединённых при помощи технологии NVLink Switch System позволяющей всем ускорителям NVIDIA H100 в составе системы функционировать в качестве единого целого. Производительность этой платформы обещана на уровне 1 Эфлопс (~ 9 Пфлопс FP64), а суммарный объём памяти достигает 144 Тбайт — и это почти в 500 раз больше, чем в одной системе предыдущего поколения Nvidia DGX A100^[18]^[19].

Суперкомпьютеры

Nvidia DGX SuperPod

В октябре 2020 года Nvidia анонсировала для корпоративных предприятий решение NVIDIA DGX SuperPOD — суперкомпьютер который имеет размер кластера от 20 до 140 серверов NVIDIA DGX A100 Server^[20]^[21] или NVIDIA DGX H100 Server^[22].

Nvidia DGX Helios

В конце мая 2023 года Nvidia анонсировала построение NVIDIA DGX Helios — суперкомпьютера который с помощью высокоскоростной коммутируемой сети Quantum-2 InfiniBand объединит сразу четыре системы DGX GH200 AI Supercomputer и будет содержать 1024 суперчипа GH200 Grace Hopper (73728 ARM-ядер + 1024 GPGPU-ускорителя H100)^[18].

Ускорители

Сравнение ускорителей, используемых в DGX:^[23]^[24]^[25]

Ускоритель
H100
A100 80GB
A100 40GB
V100 32GB
V100 16GB
P100

Архитектура	Socket	FP32 CUDA Cores	FP64 Cores (excl. Tensor)	Mixed INT32/FP32 Cores	INT32 Cores	Максимальная частота	Частота памяти	Разрядность шины памяти	ПСП^[англ.]	VRAM	Single Precision (FP32)	Double Precision (FP64)	INT8 (non-Tensor)	INT8 Dense Tensor	INT32	FP16	FP16 Dense Tensor	bfloat16 Dense Tensor	TensorFloat-32 (TF32) Dense Tensor	FP64 Dense Tensor	Interconnect (NVLink)	GPU	L1 Cache Size	L2 Cache Size	TDP	Площадь кристалла GPU	Количество транзисторов	Техпроцесс
Hopper	SXM5	16896	4608	16896	N/A	1780 MHz	4,8 Gbit/s HBM3	5120-bit	3072 GB/sec	80GB	60 TFLOPs	30 TFLOPs	N/A	4000 TOPs	N/A	N/A	2000 TFLOPs	2000 TFLOPs	1000 TFLOPs	60 TFLOPs	900 GB/sec	GH100	25344KB(192KBx132)	51200 KB	700W	814 мм2	80 млрд	TSMC 4 нм N4
Ampere	SXM4	6912	3456	6912	N/A	1410 MHz	3,2 Gbit/s HBM2	5120-bit	2039 GB/sec	80GB	19.5 TFLOPs	9.7 TFLOPs	N/A	624 TOPs	19.5 TOPs	78 TFLOPs	312 TFLOPs	312 TFLOPs	156 TFLOPs	19.5 TFLOPs	600 GB/sec	GA100	20736KB(192KBx108)	40960 KB	400W	826 мм2	54,2 млрд	TSMC 7 нм N7
Ampere	SXM4	6912	3456	6912	N/A	1410 MHz	2,4 Gbit/s HBM2	5120-bit	1555 GB/sec	40GB	19.5 TFLOPs	9.7 TFLOPs	N/A	624 TOPs	19.5 TOPs	78 TFLOPs	312 TFLOPs	312 TFLOPs	156 TFLOPs	19.5 TFLOPs	600 GB/sec	GA100	20736KB(192KBx108)	40960 KB	400W	826 мм2	54,2 млрд	TSMC 7 нм N7
Volta	SXM3	5120	2560	N/A	5120	1530 MHz	1,75 Gbit/s HBM2	4096-bit	900 GB/sec	32GB	15.7 TFLOPs	7.8 TFLOPs	62 TOPs	N/A	15.7 TOPs	31.4 TFLOPs	125 TFLOPs	N/A	N/A	N/A	300 GB/sec	GV100	10240KB(128KBx80)	6144 KB	350W	815 мм2	21,1 млрд	TSMC 12 нм FFN
Volta	SXM2	5120	2560	N/A	5120	1530 MHz	1,75 Gbit/s HBM2	4096-bit	900 GB/sec	16GB	15.7 TFLOPs	7.8 TFLOPs	62 TOPs	N/A	15.7 TOPs	31.4 TFLOPs	125 TFLOPs	N/A	N/A	N/A	300 GB/sec	GV100	10240KB(128KBx80)	6144 KB	300W	815 мм2	21,1 млрд	TSMC 12 нм FFN
Pascal	SXM/SXM2	N/A	1792	3584	N/A	1480 MHz	1,4 Gbit/s HBM2	4096-bit	720 GB/sec	16GB	10.6 TFLOPs	5.3 TFLOPs	N/A	N/A	N/A	21.2 TFLOPs	N/A	N/A	N/A	N/A	160 GB/sec	GP100	1344KB(24KBx56)	4096 KB	300W	610 мм2	15,3 млрд	TSMC 16 нм FinFET+

Примечания

↑ NVIDIA Unveils the DGX-1 HPC Server: 8 Teslas, 3U, Q2 2016 (англ.). AnandTech. (6 апреля 2016). Дата обращения: 21 сентября 2023. Архивировано 16 июля 2023 года.
↑ The NVIDIA DGX-1 Deep Learning System (англ.). Официальный сайт NVIDIA Corporation. Дата обращения: 21 сентября 2023. Архивировано 1 июня 2023 года.
↑ Inside Pascal: NVIDIA’s Newest Computing Platform (англ.). Официальный сайт NVIDIA Corporation. — «Eight GPU hybrid cube mesh architecture with NVLink». Дата обращения: 21 сентября 2023. Архивировано 7 мая 2017 года.
↑ NVIDIA's insane DGX-1 is a computer tailor-made for deep learning (англ.). Engadget. (19 июля 2019). Дата обращения: 21 сентября 2023. Архивировано 19 сентября 2023 года.
↑ DGX-1 deep learning system (неопр.). — «NVIDIA DGX-1 Delivers 75X Faster Training...Note: Caffe benchmark with AlexNet, training 1.28M images with 90 epochs». Дата обращения: 22 сентября 2023. Архивировано 19 сентября 2023 года.
↑ NVIDIA DGX-1 (рус.). DGX-systems.ru. Дата обращения: 21 сентября 2023. Архивировано 4 июля 2022 года.
↑ Эра NVIDIA Volta началась с ускорителя Tesla V100 (неопр.). Servernews. (11 мая 2017). Дата обращения: 17 ноября 2017. Архивировано 1 декабря 2017 года.
↑ GTC Europe 2017: библиотека NVIDIA TensoRT 3 ускоряет работу нейросетей в 18 раз по сравнению с универсальным решением (неопр.). Servernews. (12 октября 2017). Дата обращения: 17 ноября 2017. Архивировано 17 ноября 2017 года.
↑ Новый российский суперкомпьютер предназначен для обучения нейросетей (неопр.). Servernews. (1 сентября 2017). Дата обращения: 17 ноября 2017. Архивировано 17 ноября 2017 года.
↑ NVIDIA’S DGX-2 SYSTEM PACKS AN AI PERFORMANCE PUNCH (англ.). The Next Platform. (28 марта 2018). Дата обращения: 21 сентября 2023. Архивировано 30 марта 2023 года.
↑ NVIDIA DGX-2 (рус.). DGX-systems.ru. Дата обращения: 21 сентября 2023. Архивировано 4 июля 2022 года.
↑ Тайны коммутатора NVIDIA NVSwitch (рус.). ServerNews. (10 апреля 2018). Дата обращения: 21 сентября 2023. Архивировано 28 мая 2023 года.
↑ NVIDIA представила ускорители A100 с архитектурой Ampere и систему DGX A100 на их основе (рус.). ServerNews. (14 мая 2020). Дата обращения: 21 сентября 2023. Архивировано 5 июля 2023 года.
↑ NVIDIA DGX A100 (неопр.). Официальный сайт NVIDIA Corporation. Дата обращения: 18 сентября 2023. Архивировано 21 марта 2023 года.
↑ NVIDIA анонсировала 4-нм ускорители Hopper H100 и самый быстрый в мире ИИ-суперкомпьютер EOS на базе DGX H100 (рус.). ServerNews. (22 марта 2022). Дата обращения: 21 сентября 2023. Архивировано 20 сентября 2023 года.
↑ NVIDIA DGX H100 (неопр.). Официальный сайт NVIDIA Corporation. Дата обращения: 18 сентября 2023. Архивировано 24 августа 2023 года.
↑ NVIDIA выбрала процессоры Intel Xeon Sapphire Rapids для своих топовых систем DGX H100 (рус.). ServerNews. (8 июня 2022). Дата обращения: 21 сентября 2023. Архивировано 1 июня 2023 года.
↑ ¹ ² NVIDIA представила 1-Эфлопс ИИ-суперкомпьютер DGX GH200: 256 суперчипов Grace Hopper и 144 Тбайт памяти (неопр.). ServerNews. (29 мая 2023). Дата обращения: 18 сентября 2023. Архивировано 30 августа 2023 года.
↑ DGX GH200: cуперкомпьютер Nvidia для искусственного интеллекта (неопр.). «Открытые системы». (5 июня 2023). Дата обращения: 18 сентября 2023. Архивировано 5 июня 2023 года.
↑ NVIDIA представляет готовые модули NVIDIA DGX SuperPOD от сертифицированных партнеров (неопр.). Overclockers.ru (6 октября 2020). Дата обращения: 21 сентября 2023. Архивировано 27 июля 2021 года.
↑ NVIDIA DGX SUPERPOD ДЛЯ ПРЕДПРИЯТИЙ (рус.). Forsite-company.ru. Дата обращения: 21 сентября 2023. Архивировано 29 марта 2023 года.
↑ NVIDIA DGX SuperPOD (неопр.). Официальный сайт NVIDIA Corporation. Дата обращения: 21 сентября 2023. Архивировано 13 июля 2023 года.
↑ Smith, Ryan (2022-03-22). "NVIDIA Hopper GPU Architecture and H100 Accelerator Announced: Working Smarter and Harder". AnandTech. Архивировано 23 сентября 2023. Дата обращения: 23 сентября 2023.
↑ Smith, Ryan (2020-05-14). "NVIDIA Ampere Unleashed: NVIDIA Announces New GPU Architecture, A100 GPU, and Accelerator". AnandTech. Архивировано 24 июля 2023. Дата обращения: 23 сентября 2023.
↑ NVIDIA Tesla V100 tested: near unbelievable GPU power (неопр.). TweakTown (17 сентября 2017). Дата обращения: 23 сентября 2023. Архивировано 6 апреля 2023 года.

Ссылки

Системы NVIDIA DGX (англ.). Официальный сайт NVIDIA Corporation. Дата обращения: 21 сентября 2023.

[1] NVIDIA Unveils the DGX-1 HPC Server: 8 Teslas, 3U, Q2 2016 (англ.). AnandTech. (6 апреля 2016). Дата обращения: 21 сентября 2023. Архивировано 16 июля 2023 года.

[2] The NVIDIA DGX-1 Deep Learning System (англ.). Официальный сайт NVIDIA Corporation. Дата обращения: 21 сентября 2023. Архивировано 1 июня 2023 года.

[3] Inside Pascal: NVIDIA’s Newest Computing Platform (англ.). Официальный сайт NVIDIA Corporation. — «Eight GPU hybrid cube mesh architecture with NVLink». Дата обращения: 21 сентября 2023. Архивировано 7 мая 2017 года.

[4] NVIDIA's insane DGX-1 is a computer tailor-made for deep learning (англ.). Engadget. (19 июля 2019). Дата обращения: 21 сентября 2023. Архивировано 19 сентября 2023 года.

[5] DGX-1 deep learning system (неопр.). — «NVIDIA DGX-1 Delivers 75X Faster Training...Note: Caffe benchmark with AlexNet, training 1.28M images with 90 epochs». Дата обращения: 22 сентября 2023. Архивировано 19 сентября 2023 года.

[6] NVIDIA DGX-1 (рус.). DGX-systems.ru. Дата обращения: 21 сентября 2023. Архивировано 4 июля 2022 года.

[7] Эра NVIDIA Volta началась с ускорителя Tesla V100 (неопр.). Servernews. (11 мая 2017). Дата обращения: 17 ноября 2017. Архивировано 1 декабря 2017 года.

[8] GTC Europe 2017: библиотека NVIDIA TensoRT 3 ускоряет работу нейросетей в 18 раз по сравнению с универсальным решением (неопр.). Servernews. (12 октября 2017). Дата обращения: 17 ноября 2017. Архивировано 17 ноября 2017 года.

[9] Новый российский суперкомпьютер предназначен для обучения нейросетей (неопр.). Servernews. (1 сентября 2017). Дата обращения: 17 ноября 2017. Архивировано 17 ноября 2017 года.

[10] NVIDIA’S DGX-2 SYSTEM PACKS AN AI PERFORMANCE PUNCH (англ.). The Next Platform. (28 марта 2018). Дата обращения: 21 сентября 2023. Архивировано 30 марта 2023 года.

[11] NVIDIA DGX-2 (рус.). DGX-systems.ru. Дата обращения: 21 сентября 2023. Архивировано 4 июля 2022 года.

[12] Тайны коммутатора NVIDIA NVSwitch (рус.). ServerNews. (10 апреля 2018). Дата обращения: 21 сентября 2023. Архивировано 28 мая 2023 года.

[13] NVIDIA представила ускорители A100 с архитектурой Ampere и систему DGX A100 на их основе (рус.). ServerNews. (14 мая 2020). Дата обращения: 21 сентября 2023. Архивировано 5 июля 2023 года.

[14] NVIDIA DGX A100 (неопр.). Официальный сайт NVIDIA Corporation. Дата обращения: 18 сентября 2023. Архивировано 21 марта 2023 года.

[15] NVIDIA анонсировала 4-нм ускорители Hopper H100 и самый быстрый в мире ИИ-суперкомпьютер EOS на базе DGX H100 (рус.). ServerNews. (22 марта 2022). Дата обращения: 21 сентября 2023. Архивировано 20 сентября 2023 года.

[16] NVIDIA DGX H100 (неопр.). Официальный сайт NVIDIA Corporation. Дата обращения: 18 сентября 2023. Архивировано 24 августа 2023 года.

[17] NVIDIA выбрала процессоры Intel Xeon Sapphire Rapids для своих топовых систем DGX H100 (рус.). ServerNews. (8 июня 2022). Дата обращения: 21 сентября 2023. Архивировано 1 июня 2023 года.

[snews22-18] ¹ ² NVIDIA представила 1-Эфлопс ИИ-суперкомпьютер DGX GH200: 256 суперчипов Grace Hopper и 144 Тбайт памяти (неопр.). ServerNews. (29 мая 2023). Дата обращения: 18 сентября 2023. Архивировано 30 августа 2023 года.

[19] DGX GH200: cуперкомпьютер Nvidia для искусственного интеллекта (неопр.). «Открытые системы». (5 июня 2023). Дата обращения: 18 сентября 2023. Архивировано 5 июня 2023 года.

[20] NVIDIA представляет готовые модули NVIDIA DGX SuperPOD от сертифицированных партнеров (неопр.). Overclockers.ru (6 октября 2020). Дата обращения: 21 сентября 2023. Архивировано 27 июля 2021 года.

[21] NVIDIA DGX SUPERPOD ДЛЯ ПРЕДПРИЯТИЙ (рус.). Forsite-company.ru. Дата обращения: 21 сентября 2023. Архивировано 29 марта 2023 года.

[22] NVIDIA DGX SuperPOD (неопр.). Официальный сайт NVIDIA Corporation. Дата обращения: 21 сентября 2023. Архивировано 13 июля 2023 года.

[23] Smith, Ryan (2022-03-22). "NVIDIA Hopper GPU Architecture and H100 Accelerator Announced: Working Smarter and Harder". AnandTech. Архивировано 23 сентября 2023. Дата обращения: 23 сентября 2023.

[24] Smith, Ryan (2020-05-14). "NVIDIA Ampere Unleashed: NVIDIA Announces New GPU Architecture, A100 GPU, and Accelerator". AnandTech. Архивировано 24 июля 2023. Дата обращения: 23 сентября 2023.

[25] NVIDIA Tesla V100 tested: near unbelievable GPU power (неопр.). TweakTown (17 сентября 2017). Дата обращения: 23 сентября 2023. Архивировано 6 апреля 2023 года.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

Nvidia DGX

Содержание

Модельный ряд

Поколение Pascal — Volta

Nvidia DGX-1

Nvidia DGX-2

Nvidia DGX Station

Поколение Ampere

Nvidia DGX A100 Server

Nvidia DGX Station A100

Поколение Hopper

Nvidia DGX H100 Server

Nvidia DGX GH200 AI Supercomputer

Суперкомпьютеры

Nvidia DGX SuperPod

Nvidia DGX Helios

Ускорители

Примечания

Ссылки

Навигация

Nvidia DGX

Модельный ряд

Поколение Pascal — Volta

Nvidia DGX-1

Nvidia DGX-2

Nvidia DGX Station

Поколение Ampere

Nvidia DGX A100 Server

Nvidia DGX Station A100

Поколение Hopper

Nvidia DGX H100 Server

Nvidia DGX GH200 AI Supercomputer

Суперкомпьютеры

Nvidia DGX SuperPod

Nvidia DGX Helios

Ускорители

Примечания

Ссылки

Навигация

Поиск