- 5月 AGI技术月报 下篇
- NVIDIA AI 芯片演进解读与推演
- LLM推理芯片之long context
- 昇腾大模型 | 训推一体,LLaMA3-8B/70B昇腾首发
- 国产云端AI芯片破局,路在何方?
- 万卡 GPU 集群实战:探索 LLM 预训练的挑战
- NVIDIA TensorRT 10.0升级-可用性、性能和AI模型支持
- 3纳米256核Arm芯片,Amprere更新路线路
- 浅析GPU分布式通信技术-PCle、NVLink、NVSwitch
- NVidia GPU指令集架构-浮点运算
- 全面探究英伟达GPU SM内CUDA core-Tensor core能否同时计算?(上篇)
- GPU深度学习性能的三驾马车:Tensor Core、内存带宽与内存层次结构
- 多核之后,CPU 的发展方向是什么?
- 全面探究GPU SM内CUDA core-Tensor core能否同时计算?(下篇)
- GPU 利用率低常见原因分析及优化
- sys(1): 内存墙与LLM 计算
- CUDA模式讲座资料
- 半导体真空零部件
- MediaPipe与TensorFlow Lite实现大型语言模型的设备端运行
- 大模型训练数据白皮书
- 编程能力微调相关数据 WizardCoder, OctoPack, XCodeEval, CodeFeedback
- 利用英特尔 Gaudi 2 和至强 CPU 构建经济高效的企业级 RAG 应用
- 腿足机器人深度强化学习笔记
- ICRA 2024:「具身智能」热度飙升,「学习」成机器人行业共识
- 陪伴机器人:未来家庭新成员
- 高能力全透明双语大语言模型MAP-Neo完全开源
- 如何高效实现矩阵乘?
- 大模型训练优化:论反向传播中序列并行和张量并行的通信计算重叠方法
- 我们的AI语音代理论题
- Pytorch 显存管理机制与显存占用分析方法
- 源码分析系列 —— llm.c layernorm cuda解析
- Llama2 FLOPs 分析
- LLM 可以从简单数据中学习吗?
- 掌握RAG:如何选择重排序模型
- RoPE的底数设计原则
5月 AGI技术月报 下篇
5月 AGI技术月报 下篇
2024年9月10日修改
NVIDIA AI 芯片演进解读与推演
NVIDIA 的 GB200 超级芯片采用双 Die 设计,具备 20 PFLOPS 的 FP4 算力,与前代 H100 相比,晶体管数量增加了一倍,算力提升了 5 倍。GB200 通过 NVLink、InfiniBand 和 Ethernet 三种网络技术实现互联,其中 NVLink 作为专有技术,演进速度最快,适用于 GPU 直连互联。GB200 NVL72 系统采用背板电缆互联,实现了高效的算力扩展,但面临高功耗和散热挑战。未来 AI 芯片发展可能面临的挑战包括算力提升受限于工艺演进、存储技术的发展与 GPU 演进同步问题,以及机框间互联技术成本和功耗的挑战。SuperPOD 超级节点的商业化需要降低 Rack-to-Rack 互联成本。NVLink、InfiniBand 和 Ethernet 三种网络技术在未来不太可能融合,各自在特定应用场景中具有不同的优势和发展方向。
附件不支持打印
加载失败,