NVIDIA TensorRT, 고성능 딥러닝 추론을 위한 플랫폼
굵기 & 활성화 정밀도 교정
모델을 INT8로 양자화하여 처리량을
극대화하는 동시에 정확도를 유지합니다.
레이어 & 텐서 퓨전
커널의 노드를 퓨징하여
GPU 메모리와 bandwith를 최적화합니다.
커넬 오토튜닝
GPU 플랫폼을 기반으로 최고의
데이터 레이어와 알고리즘을 선택합니다.
역동적인 텐서 메모리
메모리 풋프린트를 최소화하고 텐서의
메모리를 효율적으로 재사용합니다.
멀티 스트림 수행
다양한 입력 스트림을 병렬로 처리하는
확장 가능한 디자인
TensorRT는 NVIDIA GPU의 딥러닝 추론 성능을 획기적으로 가속화합니다.
처리량이 높고 지연시간이 짧은 다양한 네트워크에서 얼마나 추론요구를 강화하는지 확인해보세요.
NVIDIA는 TensorRT를 사용하여 AI 플랫폼에서 추론에 최적화된 성능을 달성하기 위해 딥러닝 프레임워크 개발자와 긴밀하게 협력합니다. 트레이닝 모델이 ONNX 포맷이나 TensorFlow나 MATLAB
과 같은 다른 인기 프레임워크에 있는 경우, 추론을 위해 TensorRT로 모델을 가져오는 쉬운 방법이 있습니다. 아래는 시작방법에 대한 정보를 담은 몇 가지 통합입니다.
TensorRT와 TensorFlow는 긴밀하게 통합되어 있기 때문에 TensorRT의 강력한 최적화와 함께 TensorFlow의 유연성을 얻을 수 있습니다.
TensorFlow blog 포스트와 통합된 TensorRT에서 자세한 내용을 알아보세요.
MATLAB은 GPU Coder를 통해 TensorRT와 통합됩니다. 그래서 MATLAP을 사용하는 엔지니어와 과학자들은 Jetson, Drive 및 Tesla 플랫폼을 위한 고성능의 추론 엔진을 자동으로 생성할 수 있습니다. 이 웹세미나에 대해 더 알아보세요.
TensorRT는 ONNX 파서를 제공하여 Caffe 2, Chainer, Microsoft Cognitive Toolkit, MxNet 및 PyTorch와 같은 프레임워크에서 ONNX 모델을 TensorRT로 쉽게 가져올 수 있습니다. 여기에서 TensorRT의 ONNX 지원에 대해 자세히 알아보세요.
전용 또는 사용자 프레임워크에서 딥러닝 트레이닝을 수행하면 모델을 가속화하고 가져오는 데TensorRT C++ API를 사용합니다. TensroRT 문서에서 더 자세히 읽어보세요.
NVIDIA TensorRT 추론 서버는 데이터 센터 생산에서 AI 추론을 사용하는 것을 단순화합니다. Docker와 Kubernetes 통합으로 데이터 센터 생산이 GPU 이용을 최대로 활용하고 DevOps 구축에 원활하게 통합되는 추론 마이크로서비스입니다.
TensorRT 추론 서버는 NGC 컨테이너 레지스트리로부터 배포 가능한 컨테이너에서 제공되므로
운영환경에서 사용하는 것을 단순하게 합니다.
(운영 환경에서 간편하게 사용할 수 있습니다.)
또한 개발자들이 커스터마이즈 하고 명확한 데이터 센터의 워크플로우에 맞는 소프트웨어의 기능을
확장하는 것을 가능하게 함으로써 오픈소스로도 사용할 수 있습니다. TensorRT 추론 서버를
사용하여, 이제 AI 추론을 위한 공통의 솔루션이 마련되어, 각각의 AI를 이용하는 애플리케이션을 위한
배관을 낭비할 필요없이, 연구자들이 고품질의 숙달 모델을 창출하고 DevOps 엔지니어들이
배치하는데 집중하며 개발자들이 애플리케이션에 집중하는 것을 가능하게 합니다.
NGC 컨테이너 레지스트리에서 TensorRT 추론 서버를 다운로드 하거나
GitHub에서 오픈소스 프로젝트에 액세스하세요.
TensorRT 5.1은 20개 이상의 새로운 Tensorflow와 ONNX 작업을 위한 지원, 엔진에서 빠르게 모델 가중치를 업데이트 하는 기능 및 더 높은 성능을 위해 기본 프레임워크 포맷과 일치하는 새로운 패딩 모드를 포함합니다. 이 새로운 버전으로, 애플리케이션은 이미지/비디오, 번역 및 음성 애플리케이션을 위한 튜링 GPU에서 혼합 정밀도를 사용하는 추론 중에 40배 이상 빠른 성능을 보여줍니다.
TensorRT는 모든 프레임워크를 지원하는 동시에 TensorFlow 2.0 에도 포함되어 있어 TensorFlow 사용자에게 강력한 TensorRT 최적화를 제공합니다. 또한 TensorRT는 ONNX 런타임과 통합되어 ONNX 포맷에서 다양한 머신 러닝 모델을 위한 고성능 추론을 가능하게 합니다. 이에 더하여 TensorRT 5.1은 NVTX 포맷과 버그 수정 지원을 통한 새로운 샘플, 새로운 디버깅 기능을 포함합니다.
TensorRT 5.1 Release Candidate는 지금 NVIDIA 개발자 프로그램의 멤버들은 다운로드 가능합니다. 바로가기
NVIDIA TensorRT 추론 서버 1.0는 오디오 스트리밍 API, 버그 수정 및 향상된 기능이 포함되어 있으며 모든 향후 버전은 이 버전과 역호환 됩니다.
NGC 컨테이너 레지스트리로부터 배포 가능한 컨테이너로, 그리고 GitHub의 오픈소스 프로젝트로 이용 가능 합니다.
NVIDIA Deep Learning Institute (DLI)는 AI 및 가속화 컴퓨팅 분야의 개발자, 데이터 과학자, 연구자에게 실습 트레이닝을 제공합니다. 지금 TensorRT를 사용하는 지능형 비디오 분석을 위한 TensorRT와 배포를 사용하는 TensroFlow 모델의 최적화 및 배포에 대한 TensorRT 자기 주도 학습선택으로 체험학습을 시작하세요.
TensorRT는 개발과 배치를 위해 TensorRT 제품페이지에서 NVIDIA 개발자 프로그램의 멤버들에게 무료로 이용 가능합니다. 개발자는 NGC 컨테이너 레지스트리로부터 TensorRT를 TensorRT 컨테이너로 모을 수 있습니다. TensorRT 추론 서버는 NGC 컨테이너 레지스트리에서 배포 가능한 컨테이너로, 또한 GitHub에서오픈소스 프로젝트로 이용가능합니다.
TensorRT는 다음 항목에 포함되어 있습니다.