share_log

AMD MI300X AI芯片存在软件缺陷,CEO苏姿丰回应

Tencent Stocks ·  Dec 28, 2024 12:00

AMD在AI芯片市场中面临来自NVIDIA的激烈竞争,而MI300X芯片因软件缺陷未能充分发挥硬件性能,引发了广泛关注。近日,芯片顾问机构Semianalysis的报告称,花了五个月时间才弄清AMD的AI芯片 MI300X ,理论上,MI300X 在规格和总拥有成本 (TCO) 方面应该比 Nvidia 的 H100 和 H200 具有巨大优势,然而,实际情况是,该芯片的实际性能未达预期。

SemiAnalysis指出,尽管MI300X在硬件配置上具有显著优势,如高达1307 TeraFLOPS的FP16精度算力和192GB的HBM3内存,但其软件层面的问题却使其难以发挥应有的性能。这些软件缺陷包括但不限于AI模型训练的复杂调试需求、开箱即用体验差以及环境变量的复杂性。

在开箱问题上,MI300X的开箱即用体验非常糟糕,用户需要投入大量时间和精力进行手动调试才能正常使用。相比之下,NVIDIA的CUDA技术提供了更高的稳定性和易用性,用户可以轻松上手并开展工作。

即便在硬件规格上优于竞争对手,如英伟达的H100和H200,MI300X的实际性能却未能达到市场预期。SemiAnalysis通过多项基准测试发现,MI300X在实际应用中表现不如理论值,特别是在AI模型训练过程中,性能受限于软件问题。

SemiAnalysis指出,MI300X难以突破NVIDIA的“CUDA护城河”,这使得其在与NVIDIA的竞争中处于不利地位。

MI300X需要大量调试才能使用,SemiAnalysis的研究表明,MI300X在未经大量调试的情况下几乎无法进行AI模型训练。这一问题导致用户在实际使用中面临诸多困难,进一步限制了其市场竞争力。

SemiAnalysis对AMD MI300X的性能缺陷进行了全面分析,指出其软件层面的问题是主要瓶颈。尽管硬件配置强大,但软件生态的不足使得MI300X难以在AI芯片市场中与NVIDIA竞争。

SemiAnalysis建议AMD增加对软件开发和测试的投入,特别是通过自动化测试和优化默认设置来简化环境变量,提升用户体验。此外,AMD需要学习NVIDIA的做法,持续推出新功能和工具库以巩固市场地位。

对此,AMD CEO苏姿丰表示,AMD非常感谢Semianalysis等机构提供的建设性反馈,并承认公司在软件开发和测试方面确实存在不足。为了改善这一状况,AMD已经投入大量资源进行优化,包括配置数千颗MI300X芯片进行全面的自动化测试,以简化复杂的环境变量并实现“开箱即用”的便捷性。

苏姿丰与Semianalysis首席分析师Dylan Patel进行了长达1.5小时的深入讨论,探讨了AMD在软件领域的不足及未来的改进方向。她坦言,尽管AMD在硬件性能上取得了显著进步,但在软件层面的优化和稳定性仍需加强。

苏姿丰表示,“感谢Dylan与我进行了具有建设性的对话。即便是批评性的反馈,也是一份宝贵的礼物。”她还提到,2025年AMD将推出多项涉及AI领域的重大计划,显示出公司对未来发展的信心和决心。

尽管AMD在硬件方面具有一定的优势,但软件生态系统的不完善仍然是制约其市场竞争力的关键因素。业界普遍认为,AI芯片不仅需要强大的硬件支持,更需要高质量的软件配合。只有通过改善软件体验,AMD才能在竞争激烈的AI芯片市场中崭露头角。

内容来源于电子工程专辑

The above content is for informational or educational purposes only and does not constitute any investment advice related to Futu. Although we strive to ensure the truthfulness, accuracy, and originality of all such content, we cannot guarantee it.
    Write a comment