中文摘要在本文中,我们对大规模语言模型(LLMs)训练的人工智能(AI)计算系统进行了全面综述。近年来,LLMs 的快速发展,以及 BERT、ChatGPT 和 DeepSeek 等算法和应用的广泛采用,引发了该领域的广泛关注。我们将 LLMs 归类为仅编码器(encoder-only)模型、编码器-解码器(encoder-decoder)模型和仅解码器(decoder-only)模型,并简要分析其训练和推理过程,以突出其对计算资源的巨大需求。LLMs 的训练和推理高度依赖于 GPU(图形处理单元)、TPU(张量处理单元)和 MLU(机器学习单元)等 AI 专用加速器。然而,随着 LLMs 复杂度的不断提高,与现有计算加速器能力之间的差距逐步扩大,因此必须采用针对分布式环境优化的异构计算系统,以满足 LLMs 不断增长的计算和内存需求。本文深入探讨了 LLM 算法的执行和调度,强调了分布式计算策略的关键作用,以及内存管理优化和计算效率提升的重要性。此外,本文阐明了算法设计、硬件基础设施和软件优化之间的复杂关系,提供了对支撑 LLMs 训练的软件和硬件架构的深入理解,并为未来 LLMs ...