逸翎清晗🌈
PROGRAML: A Graph-based Program Representation for Data Flow Analysis  and Compiler Optimizations
2021 ICML
Pass简介——indvars
归纳变量简化
GCC依赖库分析
GCC安装所需依赖分析
Mac安装GCC
Mac安装GCC的步骤(废弃)
如何制作一个完美的PPT
How to create a wonderful PPT?
Accurate Disassembly of Complex Binaries Without Use of Compiler Metadata
2023-ASPLOS
AI Computing Systems for Large Language Models Training
中文摘要在本文中,我们对大规模语言模型(LLMs)训练的人工智能(AI)计算系统进行了全面综述。近年来,LLMs 的快速发展,以及 BERT、ChatGPT 和 DeepSeek 等算法和应用的广泛采用,引发了该领域的广泛关注。我们将 LLMs 归类为仅编码器(encoder-only)模型、编码器-解码器(encoder-decoder)模型和仅解码器(decoder-only)模型,并简要分析其训练和推理过程,以突出其对计算资源的巨大需求。LLMs 的训练和推理高度依赖于 GPU(图形处理单元)、TPU(张量处理单元)和 MLU(机器学习单元)等 AI 专用加速器。然而,随着 LLMs 复杂度的不断提高,与现有计算加速器能力之间的差距逐步扩大,因此必须采用针对分布式环境优化的异构计算系统,以满足 LLMs 不断增长的计算和内存需求。本文深入探讨了 LLM 算法的执行和调度,强调了分布式计算策略的关键作用,以及内存管理优化和计算效率提升的重要性。此外,本文阐明了算法设计、硬件基础设施和软件优化之间的复杂关系,提供了对支撑 LLMs 训练的软件和硬件架构的深入理解,并为未来 LLMs ...
栈回溯技术
唯一推荐参考:[1]linux 栈回溯(x86_64 )其他:[2]冬之焱: 谈谈Linux内核的栈回溯与妙用[3]RBP 寄存器栈帧回溯
ASLR技术
地址空间随机化技术
Pass简介——jump-threading
Pass简介——sroa
Scalar Replacement of Aggregates
Pass简介——sccp
avatar
💦非常忙碌!
逸翎清晗🌈
Talk is cheap, show me the code.💎
GitHub
公告栏
--- 主域名 ---
www.yangzi.world | yangzi.world
--- 备用域名 ---
academic-yang-zis-projects.vercel.app
--- 安卓APP ---
🍧点此下载🍧

最新文章
公开数据
文章数目 :
106
本站总字数 :
20.3w
本站访客数 :
本站总访问量 :
最后更新时间 :
空降评论复制本文地址
随便逛逛昼夜切换关于博客美化设置切换全屏打印页面