- 4月 AGI技术月报 上篇
- 芯片
- 知名压缩软件 xz 被发现有后门,影响有多大?如何应对?
- 如何通过指令级并行隐藏GPU Share Memory Bank Conflict
- 搞懂 CUDA Shared Memory 上的 bank conflicts 和向量化指令(LDS.128 / float4)的访存特点
- CUTLASS 3.x 异构编程随感
- 利用 🤗 Optimum Intel 和 fastRAG 在 CPU 上优化文本嵌入
- 揭示GPU上的批处理策略
- Intermediate Representations for GPUs: LLVM Does Not Cut it
- GPU 经济学:算力背后的成本与未来
- 当计算撞上内存墙:Attention!注意力机制及其优化算法浅析
- 加速GPU上的扩散模型
- 现代GPU体系结构Cache Operators行为研究
- MegaScale字节万卡集群搭建的实践,提升模型算力利用率
- Quanto: PyTorch 量化工具包
- 算力平台:Nvidia H20 的实用价值
- 多GPU训练在tinygrad中的实现解析
- 多GPU分布式推理技术细节解析
- 一文读懂nsight system与cuda kernel的时间线分析与可视化
- 英伟达 AI技术路线的解读与推演
- GB200的性能成本定量分析
- Nvidia Blackwell系列GPU性能及总成本分析:B100 vs B200 vs GB200
- SoC 101(六):Memory
- 如何判断候选人有没有千卡GPU集群的训练经验?
- LLM推理的极限速度
- AI 集群基础设施 InfiniBand 详解
- 实战 8卡环境微调Grok-1
- 模型
- Mamba Explained
- 扩散蒸馏的悖论
- Diffusion学习笔记(十六)——扩散桥,更高级的条件控制
- 扩散模型是个可证明的鲁棒分类器
- 结合源码探究多模态模型的结构
- 生成扩散模型漫谈(二十二):信噪比与大图生成
- 从DDPM到Consistency Models(笔记)
4月 AGI技术月报 上篇
4月 AGI技术月报 上篇
2024年9月10日修改
芯片
知名压缩软件 xz 被发现有后门,影响有多大?如何应对?
如何通过指令级并行隐藏GPU Share Memory Bank Conflict
搞懂 CUDA Shared Memory 上的 bank conflicts 和向量化指令(LDS.128 / float4)的访存特点
CUTLASS 3.x 异构编程随感
利用 🤗 Optimum Intel 和 fastRAG 在 CPU 上优化文本嵌入
揭示GPU上的批处理策略
Intermediate Representations for GPUs: LLVM Does Not Cut it
GPU 经济学:算力背后的成本与未来
当计算撞上内存墙:Attention!注意力机制及其优化算法浅析