엔비디아, 추론 모델 대응 본격화…딥시크 모델로 '엠엘퍼프' 차기 기준 미리 선봬
(지디넷코리아=조이환 기자)엔비디아가 복잡한 사고력 기반 AI 모델 확대에 맞춰 새로운 추론 성능 전략을 공개한다. 점점 더 많은 연산을 요구하는 AI 모델 등장에 따른 글로벌 평가 기준 변화에 선제 대응하려는 조치다.
3일 업계에 따르면 엔비디아는 지난 1일 정오 온라인으로 진행한 프리브리핑에서 AI 성능 벤치마크인 '엠엘퍼프(MLPerf)' 추론 AI 부문의 변화에 대응하기 위한 기술 전략을 공개했다. 이번 행사는 국제 컨소시엄 엠엘커먼스(MLCommons)가 '사고 기반 AI'인 추론 모델을 평가 항목에 포함하려는 움직임에 초점을 맞췄다.
엠엘퍼프는 AI 모델의 훈련(training)과 추론(inference) 성능을 하드웨어·소프트웨어 통합 기준으로 측정하는 글로벌 표준 벤치마크다. 엠엘커먼스가 주도하는 이 평가 항목은 업계 기술 흐름에 따라 주기적으로 갱신된다. 최근에는 단순 예측을 넘어 복잡한 추론과 의사결정을 요구하는 리즈닝 모델이 AI 기술의 중심으로 떠오르면서 해당 항목의 공식 도입 논의가 본격화되고 있다.
엔비디아 '엠엘퍼프 벤치마크' (사진=엔비디아 홈페이지 캡처)
엔비디아는 아직 리즈닝 모델 항목이 공식 도입되지는 않았지만 차기 엠엘퍼프 버전에서는 채택 가능성이 높다고 판단하고 있다. 이를 선제적으로 대비하기 위해 회사는 중국의 AI 스타트업인 딥시크가 개발한 생성형 AI 모델을 활용해 복잡한 사고 기반 작업에서의 추론 성능을 시연했다.
이처럼 복잡한 추론 모델이 확산되면서 AI 추론 환경 전반에도 근본적인 변화가 일고 있다. 추론 연산량이 전례 없이 폭증하고 있는 상황에서 과거에는 단일 그래픽처리장치(GPU)나 단일 노드에서 충분했던 작업들이 이제는 다수 GPU를 동시 투입하는 복잡한 병렬 연산 없이는 처리할 수 없다는 것이 엔비디아의 분석이다.
이에 더해 추론 모델의 확산은 AI 개발의 모든 단계에서 연산 자원의 수요를 급격히 증가시키고 있다. 엔비디아는 모델 재학습(retraining), 도메인 맞춤화(post-training), 테스트 시점 확장(test-time scaling) 등에서 연산량이 기하급수적으로 늘고 있다고 분석했다. 특히 테스트 단계에서도 추론 정확도를 높이기 위한 병렬 연산 수요가 계속해서 증가하고 있다는 점을 강조했다.
젠슨 황 엔비디아 CEO (사진=엔비디아)
이에 이날 엔비디아는 고성능 시스템 예시로 'GB200 MBL'을 제시했다. 해당 시스템은 총 72개의 GPU를 동시 연동하며 복잡한 추론을 빠르게 처리할 수 있도록 설계됐다. 회사는 이러한 대규모 병렬 환경이 향후 추론 표준이 될 것으로 보고 있다.
엠엘커먼스 역시 추론 모델을 엠엘퍼프의 공식 평가 항목에 포함하기 위한 논의를 본격적으로 시작한 상황이다. 현재 다양한 기술 커뮤니티와 협업을 통해 평가 기준과 워크로드 확장을 준비하고 있다. 공식 도입 시점은 아직 정해지지 않았으나 실증 사례와 모델 테스트가 계속 이어지고 있어 연내 도입이 확정될 가능성도 있다.
엔비디아 관계자는 "모델의 크기와 지능이 커짐에 따라 연산량이 모든 단계에서 폭증하고 있다"며 "재학습, 도메인 최적화, 테스트 시점 스케일링 모두 고성능 GPU를 요구한다"고 설명했다. 이어 "72개의 GPU처럼 다수의 칩을 동시에 작동시켜야 하는 이유가 바로 이 때문"이라고 덧붙였다.
조이환 기자(ianyhcho@zdnet.co.kr)
Copyright © 지디넷코리아. 무단전재 및 재배포 금지.