4月 AGI技术月报 上篇

2024年9月10日修改
芯片
知名压缩软件 xz 被发现有后门,影响有多大?如何应对?
如何通过指令级并行隐藏GPU Share Memory Bank Conflict
搞懂 CUDA Shared Memory 上的 bank conflicts 和向量化指令(LDS.128 / float4)的访存特点
CUTLASS 3.x 异构编程随感
利用 🤗 Optimum Intel 和 fastRAG 在 CPU 上优化文本嵌入
揭示GPU上的批处理策略
Intermediate Representations for GPUs: LLVM Does Not Cut it
GPU 经济学:算力背后的成本与未来
当计算撞上内存墙:Attention!注意力机制及其优化算法浅析