AMD宣布将使用120万GPU的AI超级计算机与Nvidia竞争GPU数量是全球最快超级计算机的30倍
发布时间:2024-07-29 11:23:33 编辑:甘婵涛 来源:
数据中心对更多计算能力的需求正在以惊人的速度增长,AMD透露,它已经收到了关于构建包含120万个或更多GPU的单个AI集群
的认真询问。AMD的承认来自TheNextPlatform与AMD执行副总裁兼数据中心解决方案事业部总经理ForrestNorrod就AMD在数据中心的未来进行的长时间讨论。最令人大开眼界的回应之一是有人正在认真考虑最大的AI训练集群。
当被问及该公司是否已经收到关于120万个GPU的集群的询问时,Forrest回答说,这个评估几乎是正确的。
Morgan:有人认真考虑过的最大的AI训练集群是什么——你不必说出名字。有人来找你,说MI500需要120万个GPU之类的吗?
ForrestNorrod:是这个范围吗?是的。Morgan
:你不能只说“是这个范围”。最大的实际数字是多少?
ForrestNorrod:我是认真的,是这个范围。Morgan
:一台机器。Forrest
Norrod:是的,我说的是一台机器。Morgan
:这有点让人难以置信,你知道吗?
120万个GPU是一个荒谬的数字(令人难以置信,Forest在采访中后来打趣道)。AI训练集群通常由几千个GPU组成,这些GPU通过高速互连连接在几个或更少的服务器机架上。相比之下,创建一个拥有120万个GPU的AI集群似乎几乎是不可能的。
我们只能想象有人需要克服哪些陷阱才能尝试构建一个拥有超过一百万个GPU的AI集群,但延迟、功率和硬件故障的必然性是立即想到的几个因素。AI
工作负载对延迟极为敏感,尤其是尾部延迟和异常值,其中某些数据传输比其他数据传输花费的时间长得多,并会中断工作负载。此外,当今的超级计算机必须缓解GPU或其他硬件故障,这些故障在它们的规模下每隔几个小时就会发生一次。当扩展到当今已知最大集群的30倍时,这些问题将变得更加明显。这还没有涉及到实现如此大胆的目标所需的核电站规模的电力输送。
即使是世界上最强大的超级计算机也无法扩展到数百万个GPU。例如,目前运行速度最快的超级计算机Frontier“仅”拥有37,888个GPU。
百万GPU集群的目标表明了塑造2020年代的AI竞赛的严肃性。如果这是可能的,那么有人会尝试这样做,因为这意味着更大的AI处理能力。Forest没有说哪个组织正在考虑构建这种规模的系统,但确实提到“非常清醒的人”正在考虑在AI训练集群上花费数百到数千亿美元(这就是考虑数百万GPU集群的原因)。
上一篇:高通旗舰产品骁龙XElite在PassMark测试中未能击败苹果M3
下一篇:最后一页