image1

NVIDIA A100

Highlights

  • • Ampere Architecture, 40 GB HBM2 with ECC
  • • Memory bus width 5120-bit
  • • Memory bandwidth 1,6 TB/s
  • • 6912 NVIDIA® CUDA® Cores
  • • 9.7 Tflops (GPU Boost Clocks)
  • • 19.5 Tflops (GPU Boost Clocks)
  • • 312Tflops (GPU Boost Clocks)
  • • PCI Express 4.0 x16
  • • Max TDP Power : 250 W
견적 요청 및 제품 문의

NVIDIA A100

모든 워크로드를 위한 높은 유연성

NVIDIA A100 Tensor 코어 GPU는 AI, 데이터 분석 및 HPC(high-performance-
computing) 를 위한 모든 규모의 유례 없는 가속화를 제공하여 세계에서 가장
까다로운 컴퓨팅 문제를 처리합니다. NVIDIA 데이터센터 플랫폼의 엔진에 해당
하는 A100은 NVIDIA MIG(Multi-Instance GPU) 기술을 통해 수천 개 GPU로
효율적으로 확장하고 7개 GPU 인스턴스로 분할하여 모든 규모의 워크로드를
가속화합니다. 또한, 3세대 Tensor 코어는 다양한 워크로드를 위해 모든
정밀도를 가속화하여 인사이트 확보 시간과 시장 출시 시간을 단축합니다.

NVIDIA AMPRER
그래픽의 재창조

탄력적 컴퓨팅의 시대에 맞게 설계된 NVIDIA Ampere 아키텍처는
이전 세대 대비 혁신적인 성능 도약으로 모든 규모에서 비교할 수 없는
가속화를 제공하여 혁신가들이 중요한 연구 과제를 수행할 수 있도록
지원합니다.

    • 3세대 Tensor 코어

      NVIDIA Volta™ 아키텍처에서 최초로 도입된 NVIDIA Tensor 코어 기술은 AI에
      극적인 가속을 제공하여 트레이닝 시간을 몇 주에서 몇 시간으로 단축하고 추론을
      막대하게 가속 시킵니다. NVIDIA Ampere 아키텍처는 새로운 정밀도인 Tensor
      Float(TF32) 및 부동 소수점 정밀도 64(FP64)를 도입하여 이러한 혁신을 토대로
      AI 채택을 단순화하고 Tensor 코어의 성능을 HPC로 확장합니다.

    • MIG(Multi-Instance GPU)

      모든 AI 및 HPC 애플리케이션은 가속의 이점을 얻을 수 있지만 모든
      애플리케이션에 A100 GPU의 전체 성능이 필요한 것은 아닙니다. MIG를 통해
      각 A100은 자체 고대역폭 메모리, 캐시, 컴퓨팅 코어로 하드웨어 수준에서
      완전히 격리되고 보호되는 무려 7개의 GPU 인스턴스로 분할될 수 있습니다.

    • 2세대 RT 코어

      여러 GPU에서 애플리케이션을 확장하려면 데이터 이동 속도가 매우 빨라야 합니다.
      A100의 3세대 NVLink는 GPU 간의 직접적인 대역폭을 2배인 600GB/s로 증가
      시키며 이는 PCIe Gen4의 10배에 달합니다. 최신 세대의 NVSwitch와 결합되는
      경우 서버의 모든 GPU는 서로 간에 최대 NVLink 속도로 통신하며 데이터를
      놀랍도록 빠르게 전송할 수 있습니다.

    • 구조적 희소성

      최신 AI 네트워크는 수백만 개, 일부 경우에는 수십억개의 매개변수와 함께 점점
      커지고 있습니다. 이 매개변수가 정확한 예측과 추론에 모두 필요한 것은 아니므로
      일부는 정확성을 감소시키지 않고 모델을 '희소'하게 만들기 위해 0으로 변환할 수
      있습니다.

    • 더 스마트하고 빠른 메모리

      A100은 데이터센터에 방대한 양의 컴퓨팅 제공합니다. 이러한 컴퓨팅 엔진의
      활용도를 완전하게 유지하기 위해 업계 최고 수준의 1.5TB/s의 메모리 대역폭을
      보유하여 이전 세대에 비해 67% 증가했습니다. 또한, A100은 40MB 레벨2 캐시를
      포함하여 이전 세대에 비해 7배 더 많은 온 칩 메모리를 보유함으로써
      컴퓨팅 성능을 극대화합니다.

    • 엣지의 컨버지드 가속

      NVIDIA Ampere 아키텍처와 NVIDIA Mellanox의 Connect-6 Dx SmartNIC의
      조합인 NVIDIA EGX A100ㅇ은 전례없는 컴퓨팅 성능과 네트워크 가속 기능으로
      엣지에서 생성되는 대규모 데이터를 처리합니다. Mellanox SmartNIC는 최대
      200GB/s의 회선 속도로 해독하는 보안 오프로드를 포함하여 GPU Diroct는 AI
      처리를 위해 비디오 프레임을 GPU 메모리로 직접 전송합니다.

가장 강력한 엔드 투 엔드 AI 및 HPC 데이터센터 플랫폼

A100은 완전한 NVIDIA 데이터센터 솔루션의 일부로 하드웨어, 네트워킹, 소프트웨어, 라이브러리 및 NGC™ 의 최적화된 AI 모델과
애플리케이션에 걸쳐 빌딩 블록을 통합합니다. 연구자는 데이터센터를 위한 가장 강력한 엔드 투 엔드 AI 및 HPC 플랫폼을 통해 실제
결과를 제공하고 솔루션을 규모에 맞게 프로덕션에 배포할 수 있습니다.

  • AI 트레이닝용 TF32를 통해
    최대 6배 향상된 성능 제공

  • 딥 러닝 트레이닝


    AI 모델은 정확한 기존 AI 및 딥 추천자 시스템과 같은 새로운 수준의 도전과제를
    수행함에 따라 복잡성이 폭발적으로 커지고 있습니다. 이러한 과제를 트레이닝
    하려면 엄청난 컴퓨팅 성능과 확장성이 필요합니다.

    Tensor Float(TF32) 정밀도를 갖춘 NVIDIA A100의 3세대 Tensor CoresTensor
    코어는 코드를 변경할 필요 없이 이전 세대보다 최대 10배 높은 성능과 함께 자동
    혼합 정밀도로 추가 2배의 향상을 제공합니다. 3세대 NVIDIA® NVLink®, NVIDIA
    NVSwitch™, PCI Gen4, Mellanox InfiniBand 및 NVIDIA Magnum IO™ 소프트
    웨어 SDK와 결합하면 수천 개의 A100 GPU로 확장이 가능합니다. 이는 BERT와
    같은 대규모 AI 모델을 A100 xx개의 클러스터에서 단 xx분 안에 트레이닝하여
    유례없는 성능과 확장성을 제공할 수 있다는 뜻입니다.

    NVIDIA의 트레이닝 리더십은 AI 트레이닝에 대한 최초의 범산업 벤치마크인
    MLPerf 0.6에서 입증되었습니다.

  • 딥 러닝 인퍼런스


    A100은 획기적인 신기능을 도입하여 추론 워크로드를 최적화합니다. FP32에서
    FP16, INT8, INT4에 이르기까지 전 범위의 정밀도를 가속하여 유례없는 다용성을
    제공합니다. Multi-Instance GPU(MIG) 기술을 사용하면 여러 네트워크가 단일한
    A100 GPU에서 동시에 운용되어 컴퓨팅 리소스를 최적으로 활용할 수 있습니다.
    또한 구조적 희소성 지원은 A100의 다른 추론 성능 이점 외에 최대 2배의 추가
    성능을 제공합니다.

    NVIDIA는 추론에 대한 최초의 범산업 벤치마크인 MLPerf Inference 0.5를 전반적
    으로 휩쓴 데서 입증되었듯이 이미 시장 최고의 추론 성능을 제공합니다. A100은
    10배의 추가 성능을 제공하여 리더십을 한층 더 확장합니다.

  • 최대 6배 향상된 성능 제공

  • 4년 내 9배 더 높은 HPC 성능

  • 고성능 컴퓨팅


    차세대 검색을 활용하기 위해 과학자들은 신약 개발을 위한 복합분자, 잠재적인
    새로운 에너지원을 위한 물리학, 극한의 기후 패턴을 더 효율적으로 예측하고
    대비하기 위한 대기 데이터를 더 잘 이해하기 위해 시뮬레이션을 모색합니다.

    A100은 배정밀도 Tensor 코어를 도입하여 HPC용 GPU에서 배정밀도 컴퓨팅을
    도입한 후 최대 이정표를 제공합니다. 따라서 NVIDIA V100 Tensor 코어에서
    실행하는 10시간 배정밀도 시뮬레이션을 A100에서 단 4시간으로 단축할 수
    있습니다. HPC 애플리케이션도 A100의 Tensor 코어를 활용하여 단정밀도
    매트릭스 곱셈 연산에 대해 최대 10배 높은 처리량을 달성할 수 있습니다.

  • 고성능 데이터 분석


    고객은 대규모 데이터세트를 분석, 시각화하고 통찰력으로 전환할 수 있어야
    합니다. 하지만 스케일아웃 솔루션은 이러한 데이터세트가 여러 서버에 흩어져
    있기 때문에 교착 상태에 빠지는 경우가 너무 많습니다.

    A100를 사용하는 가속화 서버는 1.6TB/s의 메모리 대역폭과 3세대 NVLink 및
    NVSwitch를 통한 확장성과 함께 필요한 컴퓨팅 성능을 제공하여 이러한 대규모
    워크로드를 처리합니다. Mellanox InfiniBand, Magnum IO SDK, GPU 가속
    Spark 3.0 및 GPU 가속 데이터 분석을 위한 소프트웨어 제품군인 NVIDIA
    RAPIDS™ 와 결합된 NVIDIA 데이터센터 플랫폼은 전례없는 수준의 성능과
    효율성으로 이러한 막대한 워크로드를 고유하게 가속할 수 있습니다.

  • MIG(Multi-Instance GPU)를
    통한 7배 높은 추론 처리량

  • 엔터프라이즈 지원 활용률


    MIG 를 탑재한 A100은 전례없는 수준으로 GPU 가속 인프라의 활용을 극대화
    합니다. MIG를 통해 A100 GPU가 7개나 되는 별개의 인스턴스로 안전하게 분할
    될 수 있어서 애플리케이션과 개발 프로젝트를 위해 여러 사용자가 GPU 가속화에
    액세스할 수 있습니다. MIG는 NVIDIA Virtual Compute Server(vCS)와 함께
    Kubernetes, 하이퍼바이저 기반 서버와 함께 작동됩니다. MIG를 통해 인프라
    관리자는 모든 작업에 대해 서비스 품질(QoS)이 보장된 적절한 규모의 GPU를
    제공하여 활용률을 최적화하고 모든 사용자에게 컴퓨팅 리소스의 도달 범위를
    확대할 수 있습니다.

NVIDIA A100 for PCIe SPECIFICATIONS

GPU Architecture

NVIDIA AMPERE

Peak FP64

9.7 TF

Peak FP64 Tensor Core

19.5 TF

Peak FP32

19.5 TF

Tensor Float 32 (TF32)

156 TF | 312 TF*

Peak BFLOAT16 Tensor Core

312 TF | 624 TF*

Peak FP16 Tensor Corev

312 TF | 624 TF*

Peak INT8 Tensor Core

624 TOPS | 1,248 TOPS*

Peak INT4 Tensor Core

1,248 TOPS | 2,496 TOPS*

GPU Memory

40GB

GPU Memory Bandwidth

1,555 GB/s

Interconnect

NVIDIA NVLink 600 GB/s** PCIe Gen4 64 GB/s

Mulit-Instance GPUs

Various instance sizes with up to 7 MIGs at 5GB

Form Factor

PCIe

Max TDP Power

250 W