DGX A100
With NVIDIA Ampere Architecture

  • • 8 x NVIDIA A100 Tensor
  • • Dual AMD Rome 7742, 128 cores total, 2.25 GHz
  • • 8 x Single-Port Mellanox ConnectX-6 VPI 200Gb/s HDR InfiniBand
  • • 1 x Dual-Port Mellanox ConnectX-6 VPI 10/25/50/100/200Gb/s Ethernet
  • • 1 TB System Memory
  • • 320GB Total GPU Memory
  • • 5 petaFLOPS A / 10 petaOPS INT8
  • • OS: 2x 1.92TB M.2 NVME drives Internal Storage: 15TB
       (4x 3.84TB) U.2 NVME drives
견적 요청 및 제품 문의
DGX A100
With NVIDIA Ampere Architecture

AI 인프라를 위한 유니버설 시스템

NVIDIA DGX™ A100은 모든 AI 워크로드를 위한 유니버설 시스템으로, 세계 최초의
5페타플롭스 AI 시스템을 통해 유례없는 컴퓨팅 밀도, 성능 및 유연성을 제공합니다.
NVIDIA DGX A100은 세계에서 가장 최첨단의 가속기인 NVIDIA A100 Tensor 코어
GPU를 탑재하여 엔터프라이즈 기업들이 NVIDIA AI 전문가의 직접적인 지원과 함께
트레이닝에서 추론, 분석에 이르기까지 배포하기 쉬운 통합 AI 인프라를 구축할 수 있게 합니다.

AI / Deep Learning

딥 러닝은 인공 지능(AI)에서 가장 빠르게 성장하고 있는 분야로 컴퓨터가 이미지, 소리, 텍스트 형태로 되어 있는 무한한 양의 데이터를 이해할 수 있도록 돕는 기술입니다.
이제 컴퓨터는 여러 단계의 신경망을 사용해서 복잡한 상황을 인간 이상의 수준으로 보고, 학습하고, 반응할 수 있습니다. 그 결과로 데이터, 기술, 우리가 제공하는 제품과
서비스를 보는 방식이 크게 달라지고 있습니다.

|  모든 산업에 인공 지능이 필요한 시대

다양한 산업에서 미래지향적인 회사들이 기계 학습 알고리즘과 컴퓨터 하드웨어의 발전을 활용하여 기하급수적으로 증가하는 데이터를 처리하기 위해 딥 러닝을 채택하고
있습니다. 이 방법으로 이제 방대한 데이터를 충실하게 활용하여 제품, 서비스, 절차를 개발하며 막대한 경쟁 우위를 점하고 있습니다.

number of organiztions engaged with nvidia on deep learning
Deep learning is delivering revolutionaty results in all industries

|  딥 러닝의 힘

NVIDIA는 딥 러닝 가속화의 선두 주자로서 여러 해에 걸쳐 딥 러닝 소프트웨어, 라이브러리 및 도구를 개발해 왔습니다. 현재의 딥 러닝 솔루션은 NVIDIA GPU 가속 컴퓨팅을
사용해서 이미지, 필기 및 음성 인식과 같은 까다로운 일을 교육하고 실행 시간을 단축합니다. NVIDIA GPU를 이용한 딥 러닝 시스템에는 다음과 같은 이점이 있습니다.

DNN 및 훈련 성과 가속화

NVIDIA GPU는 병렬 작업 부하의 처리에 뛰어나며 네트워크 속도를 10~20배 가속화하여 수많은 데이터 훈련에 걸리는 시간을 몇 주에서 몇 일로 대폭 줄여줍니다. 실제로 GPU는 3년 사이에 심층 신경망의 학습 속도를 50배로 높이며 무어의 법칙을 크게 웃도는 결과를 낳았습니다.

신속한 AI 애플리케이션 개발

이제 컴퓨터는 스스로 학습하고 생각할 수 있는 단계 까지 왔습니다. 이로 인해 로봇,의료, 자율 주행 차량 분야 등에서 혁신적인 기회가 생겨나고 있습니다. 딥 러닝 애플리케이션을 설계하고 개발하면 이러한 놀라운 기회를 직접 만나보실 수 있습니다.

Every Industry Has Awoken To AI
  • INTERNET & CLOUD
  • MEDICINE & BIOLOGY
  • MEDEIA & ENTERTAINMENT
  • SECURITY & SEFENSE
  • AUTONOMOUS MACHINES
NVIDIA AMPERE ARCHITECTURE

세계 최고의 성능과 탄력성을 갖춘
데이터센터의 핵심

과학자, 연구자, 엔지니어와 같은 이 시대의 다빈치와 아인슈타인들이 AI와
고성능 컴퓨팅(HPC)을 통해 세계에서 가장 중요한 과학, 산업, 빅 데이터 과제를 해결하려
노력하고 있습니다. 기업들과 전체 산업들은 온프레미스와 클라우드 모두에서 대규모
데이터 세트로부터 새로운 인사이트를 추출하기 위해 AI의 힘을 활용하려고 합니다.
탄력적 컴퓨팅의 시대에 맞게 설계된 NVIDIA Ampere 아키텍처는 이전 세대 대비
혁신적인 성능 도약으로 모든 규모에서 비교할 수 없는 가속화를 제공하여 혁신가들이
중요한 연구 과제를 수행할 수 있도록 지원합니다.

GROUNDBREAKING INNOVATIONS

540억 개의 트랜지스터로 제작된 NVIDIA Ampere는 현재까지 제작된 가장 큰 7나노미터(nm) 칩으로, 획기적인 5개의 핵심 혁신을 선보입니다.

  • 3세대 Tensor 코어
    NVIDIA Volta™ 아키텍처에서 최초로 도입된 NVIDIA Tensor 코어 기술은 AI에 극적인 가속을 제공하여
    트레이닝 시간을 몇 주에서 몇 시간으로 단축하고 추론을 막대하게 가속시킵니다. NVIDIA Ampere
    아키텍처는 새로운 정밀도인 Tensor Float(TF32) 및 부동 소수점 정밀도 64(FP64)를 도입하여 이러한
    혁신을 토대로 AI 채택을 단순화하고 Tensor 코어의 성능을 HPC로 확장합니다.

    TF32는 FP32와 같이 작동하면서 코드 변경 없이 AI를 최대 20배까지 가속합니다. NVIDIA Automatic
    Mixed Precision를 사용하여 연구원은 코드를 단 한 줄만 추가해도 2배의 추가 성능을 얻을 수 있습니다.
    그리고 NVIDIA A100 Tensor 코어 GPU의 Tensor 코어는 bfloat16, INT8 및 INT4 에 대한 지원으로 AI
    트레이닝 및 추론 양쪽에 놀랍도록 다재다능한 가속기를 생성합니다. 또한, A100은 Tensor 코어의
    성능을 HPC에 도입하여 완전하고 IEEE 인증을 받은 FP64 정밀도로 매트릭스 연산을 가능케 합니다.
  • MIG(Multi-Instance GPU)
    모든 AI 및 HPC 애플리케이션은 가속의 이점을 얻을 수 있지만 모든 애플리케이션에 A100 GPU의 전체
    성능이 필요한 것은 아닙니다. MIG를 통해 각 A100은 자체 고대역폭 메모리, 캐시, 컴퓨팅 코어로 하드웨어
    수준에서 완전히 격리되고 보호되는 무려 7개의 GPU 인스턴스로 분할될 수 있습니다. 이제 개발자는 크고
    작은 모든 응용 프로그램의 획기적인 가속화에 액세스할 수 있으며 보장된 서비스 품질을 경험할 수
    있습니다. 그리고 IT 관리자는 최적화된 활용을 위한 적절한 규모의 GPU 가속화를 제공할 수 있으며 베어
    메탈 및 가상화된 환경 전반에서 모든 사용자와 애플리케이션으로 액세스를 확장할 수 있습니다.
  • 3세대 NVLink
    여러 GPU에서 애플리케이션을 확장하려면 데이터 이동 속도가 매우 빨라야 합니다. A100의 3세대
    NVLink는 GPU 간의 직접적인 대역폭을 2배인 600GB/s로 증가시키며 이는 PCIe Gen4의 10배에
    달합니다. 최신 세대의 NVSwitch와결합되는 경우 서버의 모든 GPU는 서로 간에 최대 NVLink
    속도로 통신하며 데이터를 놀랍도록 빠르게 전송할 수 있습니다.

    NVIDIA DGX™ A100 다른 선두 컴퓨터 제조업체의 서버는 NVLink 및 NVSwitch 기술을 통해 NVIDIA
    HGX™ A100 baseboards는 HPC 및 AI 워크 로드에 더 높은 확장성을 제공 합니다.
  • 구조적 희소성
    최신 AI 네트워크는 수백만 개, 일부 경우에는 수십억 개의 매개변수와 함께 점점 더 커지고 있습니다. 이
    매개변수가 정확한 예측과 추론에 모두 필요한 것은 아니므로, 일부는 정확성을 감소시키지 않고 모델을
    "희소"하게 만들기 위해 0으로 변환할 수 있습니다. A100의 Tensor 코어는 희소한 모델에 대해 최대 2배
    높은 성능을 제공할 수 있습니다. 희소성 기능은 AI 추론에 더 수월하게 이점을 제공하지만, 모델 트레이닝의
    성능을 개선하는 데 사용할 수도 있습니다.
  • 더 스마트하고 빠른 메모리
    A100은 데이터센터에 방대한 양의 컴퓨팅을 제공합니다. 이러한 컴퓨팅 엔진의 활용도를 완전하게
    유지하기 위해 업계 최고 수준인 1.5TB/s의 메모리 대역폭을 보유하여 이전 세대에 비해 67%
    증가했습니다. 또한, A100은 40MB 레벨 2 캐시를 포함하여 이전 세대에 비해 7배 더 많은 온 칩 메모리를
    보유함으로써 컴퓨팅 성능을 극대화합니다.
  • 엣지의 컨버지드 가속
    NVIDIA Ampere 아키텍처와 NVIDIA Mellanox의 ConnectX-6 Dx SmartNIC의 조합인 NVIDIA EGX™
    A100는 전례없는 컴퓨팅 성능과 네트워크 가속 기능으로 엣지에서 생성되는 대규모 데이터를 처리합니다.
    Mellanox SmartNIC는 최대 200GB/s의 회선 속도로 해독하는 보안 오프로드를 포함하며 GPUDirect™는
    AI 처리를 위해 비디오 프레임을 GPU 메모리로 직접 전송합니다. EGX A100 덕분에 비즈니스는 엣지에서 AI
    배포를 더 안전하고 효율적으로 가속할 수 있습니다.
NVLINK AND NVSWITCH

향상된 멀티 GPU 프로세싱,
속도와 확장성이 향상된 상호 연결의 필요성

AI 및 고성능 컴퓨팅(HPC)에서의 컴퓨팅 수요가 증가함에 따라 GPU 시스템이 함께 하나의 거대한 가속기
역할을 할 수 있도록 GPU 간의 원활한 연결이 가능한 멀티 GPU 시스템에 대한 필요성이 커지고 있습니다.
하지만 표준인 PCIe의 제한된 대역폭으로 인해 병목 현상이 발생하는 경우가 잦습니다. 가장 강력한 엔드 투
엔드 컴퓨팅 플랫폼을 구축하려면 속도와 확장성이 더욱 향상된 상호연결이 필요합니다.

NVLINK와 NVSWITCH가 함께 작동하는 방식

NVIDIA® NVLink®는 GPU 간 고속 직접 상호 연결입니다. NVIDIA NVSwitch™는 여러 NVLink를 통합함으로써 NVIDIA HGX™ A100과 같은 단일 노드 내에서
올 투 올 GPU 통신을 최대 NVLink 속도로 제공하여 한 차원 높은 상호 연결성을 제공합니다. NVIDIA는 NVLink와 NVSwitch를 조합하여 AI 성능을 효율적으로
여러 GPU로 확장하고 최초의 범산업 AI 벤치마크인 MLPerf 0.6을 획득할 수 있었습니다.

NVIDIA NVLink

NVLink GPU 간 연결을 지원하는 NVIDIA A100

NVIDIA NVSwitch

NVSwitch 토폴로지 다이어그램은 간단하게 이해할 수 있도록 두 GPU 간의 연결을 보여줍니다.
8장 또는 16장의 GPU는 모두 같은 방식으로 NVSwitch를 통해 올 투 올 연결됩니다.

NVIDIA NVLink

시스템 처리량 극대화

NVLink Performance

3세대 NVLINK
NVIDIA NVLink 기술은 멀티 GPU 시스템 구성을 위해 더 높은 대역폭,
더 많은 링크, 개선된 확장성을 제공함으로써 상호 연결 문제를
해결합니다. 하나의 NVIDIA A100 Tensor 코어 GPU는 최대 12개의 3
세대 NVLink 연결을 지원하여 600GB/s의 총 대역폭을 구현하며 이는
PCIe Gen 4 대역폭의 거의 10배에 해당합니다.

NVIDIA DGX™ A100 과 같은 서버는 이 기술을 활용하여 초고속
딥 러닝 트레이닝을 위한 더 높은 확장성을 제공합니다.

NVIDIA A100의 NVLink는 기존 세대 대비 GPU 간의 통신 대역폭을 두 배로 확장하므로
연구원들은 복잡한 문제의 해결을 위해 더 크고 정교한 애플리케이션을 사용할 수 있습니다.

NVIDIA NVSwitch

NVSwitch - 완전히 연결된 NVLink
멀티 GPU 시스템 수준에서 PCIe 대역폭이 병목 현상을 일으키는 경우가
잦아 딥 러닝의 신속한 도입은 속도와 확장성이 향상된 상호 연결 기술에
대한 수요를 증가시켰습니다. 딥 러닝 워크로드의 확장을 위해서는 대폭
증가된 대역폭과 감소된 지연 시간이 요구됩니다.

NVIDIA NVSwitch는 이 문제를 해결하기 위해 NVLink의 고급 통신
기능을 기반으로 구축됩니다. 단일 서버에서 더 많은 GPU를 지원하며
이러한 GPU 사이에 완전한 대역폭 연결성을 보장하는 GPU 패브릭으로
딥 러닝 성능을 다음 단계로 끌어올립니다. 각 GPU의 NVLink 12개가
NVSwitch로 완전히 연결되어 올투올(All-to-all) 고속 통신을
지원합니다.

비교할 수 없는 성능을 제공하는 완전한 연결
NVSwitch는 단일 서버 노드에서 8개~16개의 완전히 연결된 GPU를 지원하는 최초의 노드 간 스위치 아키텍처입니다. 2세대 NVSwitch는 놀라운
600GB/s 속도로 모든 GPU 쌍 사이에 동시 통신을 지원합니다. 직접적인 GPU 피어 투 피어(Peer-to-per) 메모리 주소 지정으로 완전한 올 투 올 통신을
지원합니다. 이러한 16장의 GPU는 통합 메모리 공간과 최대 10페타플롭스의 딥 러닝 컴퓨팅 성능을 갖춘 단일 고성능 가속기로 사용될 수 있습니다.

가장 강력한 엔드 투 엔드 AI 및 HPC 데이터센터 플랫폼
NVLink 및 NVSwitch는 완전한 NVIDIA 데이터센터 솔루션의 구성 요소로, 이 솔루션은 하드웨어, 네트워킹, 소프트웨어, 라이브러리, 그리고 NGC™
의 최적화된 AI 모델 및 애플리케이션을 통합합니다. 연구원은 가장 강력한 엔드 투 엔드 AI 및 HPC 플랫폼을 통해 실제 결과를 제공하고 솔루션을
프로덕션에 배포하여 모든 규모의 전례 없는 가속화를 제공할 수 있습니다.

SPECIFICATIONS
  • Second Generation
  • Third Generation
  • Total NVLink Bandwidth
  • 300 GB/s
  • 600 GB/s
  • Maximum Number of Links per GPU
  • 6
  • 12
  • Supported NVIDIA Architectures
  • NVIDIA Volta™
  • NVIDIA Ampere Architecture
  • First Generation
  • Second Generation
  • Number of GPUs with Direct Connection
  • Up to 16
  • Up to 16
  • NVSwitch GPU-to-GPU Bandwidth
  • 300 GB/s
  • 600 GB/s
  • Total Aggregate Bandwidth
  • 4.8 TB/s
  • 9.6 TB/s
  • Supported NVIDIA Architectures
  • NVIDIA Volta
  • NVIDIA Ampere Architecture
DGX A100

EXPLORE THE POWERFUL COMPONENTS OF DGX A100

  • 1  8X NVIDIA A100 GPUS WITH 320 GB TOTAL GPU MEMORY
            12 NVLinks/GPU, 600 GB/s GPU-to-GPU
             Bi-directonal Bandwidth
  • 2  6X NVIDIA NVSWITCHES
            4.8 TB/s Bi-directional Bandwidth, 2X More than
             Previous Generation NVSwitch
  • 3  9x MELLANOX CONNECTX-6 200Gb/S NETWORK INTERFACE
            450 GB/s Peak Bi-directional Bandwidth
  • 4  DUAL 64-CORE AMD CPUs AND 1 TB SYSTEM MEMORY
            3.2X More Cores to Power the Most Intensive AI Jobs
  • 5  15 TB GEN4 NVME SSD
            25GB/s Peak Bandwidth, 2X Faster than Gen3 NVME SSDs
ESSENTIAL BUILDING BLOCK OF THE AI DATA CENTER

AI 인프라를 위한 유니버설 시스템

분석에서 트레이닝과 추론에 이르기까지 NVIDIA DGX A100은 모든 AI 인프라를 위한 유니버설 시스템입니다.
컴퓨팅 밀도에 새로운 기준을 제시합니다. 6U 폼 팩터에 5페타플롭스의 AI 성능을 갖추고, 레거시 인프라
사일로를 모든 AI 워크로드에 사용 가능한 단일 플랫폼으로 대체합니다.

DGXperts: AI 전문가의 지원

NVIDIA DGXperts는 지난 10년간 쌓은 풍부한 경험으로 고객이 DGX 투자 가치를 극대화하도록
지원하는 14,000명 이상의 AI 전문가로 구성된 글로벌 팀입니다.

가장 빠른 솔루션 구축

NVIDIA DGX A100은 NVIDIA A100 Tensor 코어 GPU를 탑재한 세계 최초의 시스템입니다. 8장을 A100 GPU를
탑재한 이 시스템은 전례없는 가속을 제공하며 NVIDIA CUDA-X™ 소프트웨어와 엔드 투 엔드 NVIDIA 데이터센터
솔루션 스택에 모두 완전히 최적화되어 있습니다.

전례없는 데이터 센터 확장성

NVIDIA DGX A100은 최대 450GB/s의 양방향 대역폭으로 작동하는 내장형 Mellanox 네트워킹을 탑재합니다.
이는 DGX A100을 엔터프라이즈의 확장 가능한 AI 인프라 청사진인 NVIDIA DGX SuperPOD™와 같은 대규모
AI 클러스터의 기초 빌딩 블록으로 만드는 많은 기능 중 하나입니다.

GAME CHANGING PERFORMANCE
FOR DEVELOPERS

더 크고 복잡한 데이터 사이언스 문제를 더 빨리 해결

  • • 즉시 실행할 수 있는 최적화된 AI 소프트웨어로 지루한 설정 및 테스트가 필요하지 않습니다.
  • • 전례없는 성능으로 더 빠른 반복 작업이 가능한 더 나은 모델을 더 일찍 확인하세요.
  • • 시스템 통합과 소프트웨어 엔지니어링에 시간을 낭비하지 마세요.
FOR IT MANAGERS

규모에 맞는 인프라 배포 및 AI 운용

  • • 모든 AI 워크로드를 위한 하나의 시스템으로 간소화된 인프라 디자인과 용량 계획을 경험하세요.
  • • 최고의 컴퓨팅 밀도 및 성능을 최소한의 공간에서 달성하세요.
  • • 컨테이너부터 칩까지 층마다 내장된 보안을 활용하세요.
FOR BUSINESS LEADERS

인사이트 확보 시간 단축 및 AI의 ROI 가속화

  • • 데이터 사이언티스트의 생산성을 증대하고 부가 가치가 없는 노력을 들이지 마세요.
  • • 컨셉에서 프로덕션까지 제품 개발 사이클을 가속하세요.
  • • DGX 전문가가 문제점을 해결할 수 있도록 함께 도와드립니다.
THE TECHNOLOGY INSIDE NVIDIA DGX A100
  • NVIDIA A100 Tensor Core GPU
    NVIDIA A100 Tensor 코어 GPU는 AI, 데이터 분석 및 고성능 컴퓨팅(HPC)을 위한
    유례없는 가속화를 제공하여 세계에서 가장 까다로운 컴퓨팅 문제를 처리합니다.
    3세대 NVIDIA Tensor 코어가 막대하게 성능을 향상하므로 A100 GPU는 수천 개
    단위로 효율적으로 확장하거나 Multi-Instance GPU 를 통해 7개의 더 작은
    인스턴스로 분할되어 모든 규모의 워크로드를 가속화할 수 있습니다.
  • Multi-Instance GPU (MIG)
    MIG(Multi-Instance GPU) 덕분에 DGX A100의 A100 GPU 8개는 무려
    56개의 GPU 인스턴스로 구성될 수 있으며 각 GPU 인스턴스는 고유의
    고대역폭 메모리, 캐시, 컴퓨팅 코어로 완전히 격리될 수 있습니다.
    이는 관리자가 여러 워크로드를 위해 보장된 서비스 품질(QoS)의
    GPU를 적절한 크기로 사용할 수 있게 합니다.
  • Next-Generation NVLink and NVSwitch
    DGX A100에서 3세대 NVIDIA® NVLink®는 GPU 간의 직접적인 대역폭을 2배인
    600GB/s로 증가시키며 이는 PCIe Gen 4의 10배에 달합니다. DGX A100 는 이전
    세대보다 2배 빠른 차세대 NVIDIA NVSwitch™를 탑재합니다.
  • Mellanox
    ConnectX-6 VPI HDR InfiniBand

    DGX A100은 200GB/s로 작동하는 최신 Mellanox ConnectX-6 VPI
    HDR InfiniBand/이더넷 어댑터를 탑재하여 대규모 AI 워크로드를 위한
    고속 패브릭을 생성합니다.
  • Optimized Software Stack
    DGX A100은 AI 조정된 기본 운영 체제, 필요한 모든 시스템 소프트웨어, GPU
    가속 애플리케이션, 사전 트레이닝된 모델 및 NGC™의 기타 기능 등 테스트를
    거쳐 최적화된 DGX 소프트웨어 스택을 통합합니다.
  • Built-In Security
    DGX A100은 자체 암호화 드라이브, 서명된 소프트웨어 컨테이너, 안전한 관리
    및 모니터링 등 모든 주요 하드웨어 및 소프트웨어 구성 요소를 보호하는 다단계
    접근 방식으로 AI 배포를 위한 가장 든든한 보안 방식을 제공합니다.
NVIDIA DGX A100 SPECIFICATIONS

GPUs

8x NVIDIA A100 Tensor Core GPUs

GPU Memory

320 GB total

Performance

5 petaFLOPS AI
10 petaOPS INT8

NVSwitches

6

System Power Usage

6.5kW max

CPU

Dual AMD Rome 7742, 128 cores total,
2.25 GHz (base), 3.4 GHz (max bozost)

System Memory

1TB

Networking

8x Single-Port Mellanox ConnectX-6 VPI 200Gb/s HDR InfiniBand
1x Dual-Port Mellanox ConnectX-6 VPI 10/25/50/100/200Gb/s Ethernet

Storage

OS: 2x 1.92TB M.2 NVME drives
Internal Storage: 15TB
(4x 3.84TB) U.2 NVME drives

Software

Ubuntu Linux OS

System Weight

271 lbs (123 kgs)

Packaged System Weight

315 lbs (143 kgs)

System Dimensions

Height: 10.4 in (264.0 mm)
Width: 19.0 in (482.3 mm) MAX
Length: 35.3 in (897.1 mm) MAX

Operating Temperature Range

5ºC to 30ºC (41ºF to 86ºF)