当前位置:首页 > 科技 > 正文

NVIDIAHopperH200GPU在最新的MLPerf4.0结果中继续占据主导地位

发布时间:2024-03-28 15:42:20 编辑:文蓉妹 来源:

导读 NVIDIA凭借其强大的TensorRT-LLM套件继续推动AI极限,在最新的MLPerfv4.0结果中将H200GPU提升到新的高度。Blackwell已经到来,但NVIDIA继续...

NVIDIA凭借其强大的TensorRT-LLM套件继续推动AI极限,在最新的MLPerfv4.0结果中将H200GPU提升到新的高度。

Blackwell已经到来,但NVIDIA继续通过新的TensorRT-LLM优化推动HopperH100和H200AIGPU,在MLPerfv4.0中实现高达3倍的增益

生成式人工智能(GenAI)是一个新兴市场,所有硬件制造商都在努力分一杯羹。尽管他们尽了最大努力,但到目前为止,NVIDIA仍占据了大部分份额,而且这家绿色巨人无法阻止,因为它在MLPerfv4.0推理结果中展示了一些非常强大的基准和记录。

自去年发布AI软件套件以来,TensorRT-LLM的微调一直在持续进行。我们看到之前的MLPerfv3.1结果和现在的MLPerfv4.0性能有了显着提高,NVIDIA正在增强Hopper的性能。推理之所以重要,是因为它占数据中心收入(去年产生)的40%。推理工作负载范围包括LLM(大型语言模型)、视觉内容和推荐器。随着这些模型尺寸的增加,复杂性也随之增加,并且需要强大的硬件和软件。

这就是为什么TensorRT-LLM成为与NVIDIAGPU架构共同设计的最先进的推理编译器。TensorRT-LLM的一些功能包括:

运行中序列批处理(优化GPU利用率)

KV缓存管理(更高的GPU内存利用率)

广义注意力(XQA内核)

多GPU多节点(张量和管道并行)

FP8量化(更高性能并适合更大型号)

使用最新的TensorRT-LLM优化,NVIDIA成功地将MLPerfv4.0中的HopperGPU(例如H100)的性能比MLPerfv3.1提高了2.9倍。在今天的基准测试结果中,NVIDIA在MLPerfLlama2(700亿)中创造了新的性能记录,H200(预览版)每秒生成高达31,712个令牌,H100每秒生成21,806个令牌。

值得一提的是,H200GPU大约一个月前进行了基准测试,这就是为什么在预览状态中提到它,但NVIDIA表示他们已经向客户提供GPU样品,并将在第二季度发货。

凭借141GBHBM3E的更高内存配置和高达4.8TB/s的更快带宽,NVIDIAH200GPU使Llama2的性能比H100GPU额外提高了45%。与此同时,H200是英特尔Gaudi2的庞然大物,Gaudi2是在MLPerfv4.0基准测试中提交的唯一其他竞争对手解决方案,而H100也获得了2.7倍的巨大增益。

除此之外,8GPUNVIDIAHGXH200GPU系统打破了StableDiffusionXL基准,在服务器和离线场景中分别实现了13.8个查询/秒和13.7个样本/秒。

不仅如此,虽然H200与H100平台直接兼容,但H200的定制热设计变体还以MGX平台(GPU+CPU+DPU)的形式存在,可将TDP提升至1000W与标准风冷型号相比,性能提高了14%。定制解决方案可从华擎Rack、华硕、技嘉、和硕、QCT和Supermicro等OEM厂商处获得。此外,H200AIGPU预计也将从NVIDIA的众多CSP和OEM合作伙伴处获得。

NVIDIA的HopperH200GPU具有700W的基本TDP和高达1000W的定制设计。BlackwellGPU有700W(B100)和1000/1200W(B200)配置。谈到BlackwellGPU,NVIDIA确认只有B100GPU能够与Hopper系统直接兼容,而B200GPU将需要完全不同的机箱和系统设计。第一个Blackwell系统将于今年晚些时候上市,因此我们可以期待未来提交的MLPerf系统的结果。


免责声明:本文由用户上传,如有侵权请联系删除!

上一篇:暗黑之门救赎UE5暗黑之门伦敦的续作已公布但细节尚不明确

下一篇:最后一页