데이터센터에 AI 추론 성능 강화하는 엔비디아 텐서RT 3

엔비디아(CEO 젠슨 황)가 새로운 엔비디아 텐서RT 3 AI 추론 소프트웨어(NVIDIA TensorRT 3 AI inference software)를 공개했다. 이 소프트웨어는 성능향상과 함께, 자율주행차, 로봇 등과 관련된 클라우드에서 엣지 디바이스에 이르는 추론 비용을 절감할 수 있도록 지원한다.

텐서RT 3와 엔비디아 GPU를 결합하는 경우, 이미지 및 음성 인식, 자연어 처리, 비주얼 검색 및 맞춤 제안 등 인공지능 기반 서비스를 위한 프레임워크 전반에서 초고속으로 효율적인 추론을 구현할 수 있다. 텐서RT와 엔비디아 테슬라 GPU 가속기는 CPU 기반 솔루션의 10분의 1에 불과한 비용으로 CPU 대비 최대 40배 가량 빠른 속도를 낼 수 있다.

텐서RT 3는 AI 애플리케이션의 생산 및 배포를 위한 고성능의 최적화 컴파일러 및 런타임 엔진으로, 트레이닝을 거친 추론용 뉴럴 네트워크를 하이퍼스케일 데이터센터, 임베디드 또는 차량용 GPU 플랫폼으로 최적화, 승인 및 배포하는 작업을 신속하게 진행할 수 있다.

텐서RT 3는 INT8(8비트 정수) 및 FP16(16비트 반정밀도 부동소수점) 연산의 네트워크 실행에서 높은 정확도를 보이며, 데이터센터 운영업체는 매입비용 및 연간 에너지 비용을 수천만 달러 가량 절감할 수 있다. 개발업체의 경우, 텐서RT 3를 사용하면 트레이닝을 거친 뉴럴 네트워크를 이용해 단 하루 만에 배포 가능한 추론 솔루션을 형성할 수 있으며, 해당 솔루션은 트레이닝 프레임워크 대비 3배에서 5배 가량 빠르게 작동한다.

데이터센터 관리자들은 서버의 생산성을 최대로 유지하기 위해 계속해서 성능과 효율성 사이의 균형을 맞춘다. 테슬라 GPU 가속기는 딥 러닝 추론 애플리케이션 및 서비스를 위한 범용 CPU 서버 수십 대를 대체할 수 있어 랙 공간 문제를 해소할 수 있고, 에너지 및 냉각 관련 필수요건을 줄일 수 있으며 비용을 최대 90% 가량 절감할 수 있다. 이 솔루션은 딥 러닝 추론 작업부하의 처리에 있어 최대 처리량, 최고의 효율성 및 최저수준의 지연성이 결합되어 있다.

또한 딥 러닝 프레임워크의 종류에 관계 없이 데이터센터 내 엔비디아 DGX시스템에서 딥 뉴럴 네트워크를 트레이닝할 수 있으며, 로봇부터 자율주행 차량에 이르기까지 모든 종류의 디바이스에 배포해 엣지에서의 실시간 추론을 실현할 수 있다.

엔비디아의 창립자 겸 CEO인 젠슨 황(Jensen Huang)은 “엔비디아 텐서RT는 세계 최초의 프로그래밍이 가능한 추론 가속기이다. CUDA의 프로그래밍 기능과 더불어 텐서RT는 증가 추세에 있는 딥 뉴럴 네트워크의 다양성과 복잡성을 가속화할 수 있다. 또한 텐서RT의 놀라운 속도 향상으로 인해 서비스 공급업체들은 연산 집중적인 인공지능 작업부하를 효율적으로 배포할 수 있다”고 말했다.

이향선기자 hslee@nextdaily.co.kr

상단영역

본문영역

데이터센터에 AI 추론 성능 강화하는 엔비디아 텐서RT 3

관련기사

개의 댓글

댓글 정렬

내 댓글 모음