AMD发布Instinct MI350系列GPU首批MLPerf 5.1测试成绩

AMD Instinct MI350系列(包括MI355X和MI350X GPU)首次被公开进行AI训练基准测试,结果在可扩展性、效率和计算性能方面展现出明显进步,AMD Instinct MI350系列正在加速下一代生成式AI模型的开发。

AMD Instinct MI350系列GPU实现了突破性的代际性能提升,相比AMD Instinct MI300X,训练速度提升高达2.8倍,比Instinct MI325X平台快2.1倍。

在最新MLPerf 5.1训练轮次中,基于Llama 2-70B LoRA (FP8) 基准测试,AMD Instinct MI355X GPU显著加快了模型收敛速度——将MI300X上近28分钟的训练时间缩短至仅10分钟出头。即便与MI325X GPU相比,训练时间也缩短了近一半。

这些性能提升得益于架构改进、HBM3E内存带宽领先优势以及AMD ROCm 7.1软件优化的综合作用,这些优化增强了内核性能和通信效率。

在MLPerf 5.1训练轮次中,与所有使用FP8数据类型的NVIDIA合作伙伴提交的B200和B300 GPU结果的平均值相比,AMD Instinct MI355X平台在领先的生成式AI工作负载中展现出极具竞争力的训练性能。

在Llama 2-70B LoRA (FP8) 基准测试中,MI355X完成训练用时10.18分钟,与NVIDIA B200和B300系统的平均表现相当接近,后者分别完成于9.85分钟和9.59分钟。在Llama 3.1-8B (FP8) 预训练中,MI355X完成时间为99.7分钟,相比之下,基于NVIDIA GPU的平均结果为93.69分钟和95.10分钟。

NVIDIA发布的最新FP8训练数据来自上一轮的MLPerf训练v5.0,其中8颗GB200 GPU在Llama 2-70B LoRA上达到了11.15分钟的训练时间(提交ID 5.0-0076)。在本轮中,AMD Instinct MI355X(提交ID 5.1-0018)完成相同工作负载用时10.18分钟——FP8训练性能提升近10%。

总计有9家关键合作伙伴在AMD Instinct硬件上提交了训练结果,包括华硕、思科、戴尔、Giga Computing、Krai、MangoBoost、MiTAC、QCT和Supermicro。每家合作伙伴的提交都代表了他们首次在新的MI355X平台上提交,但所有结果与AMD自己在相同基准测试上的提交相差不到1%。

这凸显了ROCm软件栈的成熟度与一致性,以及AMD Instinct硬件在多样化合作伙伴配置中即时部署的准备就绪,证明AMD Instinct MI355X GPU系统可在各种真实训练场景中复现高性能结果。

AMD ROCm 7.1是支撑所有基于AMD Instinct GPU的MLPerf 5.1训练提交的软件引擎,实现了所有AMD提交结果所展现出的高性能、可扩展性和效率。这一最新ROCm版本在整个栈中提供端到端的提升——从内核与编译器优化到通信效率和框架集成——旨在加速真实工作负载并提升多节点系统的可扩展性。

AMD Instinct MI355X合作伙伴提交结果所实现的一致性与性能,均可追溯至AMD ROCm软件。

凭借相比上一代高达2.8倍的训练性能、与NVIDIA最新基于FP8的提交结果近乎持平的成绩,以及合作伙伴结果与官方AMD提交相差不到1%的表现,AMD Instinct MI355X平台在真实AI训练工作负载中展现了领导力与一致性双重优势。

Powered by 必赢视频 RSS地图 HTML地图

Copyright Powered by365站群 © 2013-2024

必赢视频