AMD MI300X:在 LLM 推理 AI 基准测试中表现卓越,性价比凸显
AMD MI300X:在 LLM 推理 AI 基准测试中表现卓越,性价比凸显
2024年12月8日修改
在当今科技飞速发展的时代,人工智能领域的竞争愈发激烈。近日,AMD 的 MI300X 在 LLM 推理 AI 基准测试中展现出了惊人的实力,其性能相较于 NVIDIA H100 有了显著的提升,同时还具有极具竞争力的价格。
Tensorwave 作为 AI 云服务提供商,对 AMD 的 MI300 加速器在 AI LLM 推理基准测试中的表现进行了详细的评估,并将其与 NVIDIA H100 进行了对比。结果显示,AMD 在性能和价值方面都展现出了明显的优势。
在测试中,Tensorwave 使用了 Mixtral 8x7B 模型,并分别在 AMD 和 NVIDIA 的硬件上进行了在线和离线测试。AMD 的测试设置包括 8 个 MI300X 加速器,每个加速器配备 192GB 内存池,以及 2 个 AMD EPYC CPU 处理器(192 核心)和 2.3TB 的 DDR5 RAM。该设置运行的是最新的 ROCm 6.12 驱动套件,搭配 MK1 推理引擎和 ROCm AI 针对 vLLM v0.4.0 的优化。而 NVIDIA 的测试设置则包括 8 个 H100 SXM5 加速器,每个加速器配备 80GB 内存池,以及 160 个 CPU 核心和 1.2TB 的 DDR5 RAM。NVIDIA 的设置运行的是 CUDA 12.2 驱动堆栈和 vLLM v4.3 推理堆栈。
从性能方面来看,在离线性能测试中,AMD MI300X AI 加速器相较于 NVIDIA H100,在批处理大小从 1 到 1024 的范围内,展现出了 22%至 194%(几乎 3 倍)的性能提升。MI300X 加速器在所有批处理大小下都比 H100 更快。在在线性能测试中,Tensorwave 设计了一系列在线测试来模拟真实的典型聊天应用。结果显示,AMD MI300X 加速器每秒能够处理的请求数量比两个 NVIDIA H100 GPU 多 33%,同时平均延迟为 5 秒。MI300X 加速器还提供了比 H100 更高的吞吐量,能够在高流量情况下更快地生成文本。
值得注意的是,NVIDIA 的 Hopper H100 GPU 在测试中运行的是 vLLM 套件,而不是 TensorRT-LLM 优化,并且使用的是去年的较旧 CUDA 堆栈。尽管如此,AMD 的 MI300X 仍然表现出了卓越的性能。
除了性能优势外,AMD MI300X 还具有极具竞争力的价格和良好的硬件可用性。这使得 MI300X 与 MK1 软件成为企业扩展其 AI 推理能力的绝佳选择。Tensorwave 对 AMD MI300X 加速器的高性能和极具竞争力的价格表示赞赏,其 CEO 也强调了 MI300X 相较于 H100 的优越性。此外,MI300X 的供货情况也比 H100 更为良好。
总的来说,AMD MI300X 在 LLM 推理 AI 基准测试中的出色表现,为人工智能领域的发展带来了新的活力。它不仅在性能上超越了 NVIDIA H100,还在价格和可用性方面具有优势,为企业提供了更具性价比的选择。相信在未来,AMD MI300X 将在人工智能领域发挥更加重要的作用,推动行业的不断发展和进步。