📖 关于这个项目
这是 Ibin! 在日常工作与学习过程中积累的技术文档集合,以交互式 HTML 可视化的形式呈现, 力求让复杂的 GPU 架构与 AI 算法变得直观易懂。
内容涵盖从理论推导到工程实践,从数学原理到 CUDA kernel 实现, 是深入理解大模型推理系统的第一手参考资料。
-
🧠MLA 注意力机制 — 多头潜在注意力的原理、矩阵吸收、GEMM 优化与推理指南
-
⚙️Decode Attention 优化 — Flash Decoding、CuTe 算子、RoPE 对比实现
-
📈可视化优先 — 所有文档均以交互式 HTML 呈现,支持直接在浏览器中阅读
MLA_DSA — 多头潜在注意力与 DSA
📄
DeepSeek-V4 技术报告深度解读 — 迈向高效百万 Token 上下文智能
🏆
MLA 最优算子设计
探讨 MLA 注意力计算中最优算子的选择策略,分析不同实现方案的性能权衡。
📘
MLA DSA 推理指南
完整的 MLA DSA 推理流程指南,涵盖从模型加载到高效推理的全链路优化方案。
📊
MLA GEMM 可视化分析
通过交互式可视化展示 MLA 中 GEMM 操作的矩阵变换过程,直观理解计算流程。
📄
MLA 数学公式推导 — 从 MHA 到 Absorbed MQA 的等价变换
🔗
MLA 矩阵吸收原理
深入解析 MLA 的矩阵吸收技术,理解其如何减少 KV Cache 显存占用。
⚡
MLA Prefix Cache & Chunked Prefill
MLA 场景下 Prefix Cache 与 Chunked Prefill 的结合应用,提升长序列推理吞吐量。
🗺️
MLA 简化架构图解
以简化的架构图形式呈现 MLA 的整体结构,适合快速建立直觉认知。
🔄
RoPE 位置编码变体对比
系统比较 RoPE 各变体在长序列外推上的表现与适用场景。
De_Attn — Decode Attention 优化
📄
Fused Rotary Position Encoding 全方位解析
📄
RoPE 全景详解:标准 RoPE × YaRN × MLA 解耦 RoPE × 主流模型对比
🔨
CuTe 分块操作详解(v1)
CuTe 库中分块操作的原理与实现,版本一:基础概念与核心 API 介绍。
🔧
CuTe 分块操作详解(v2)
CuTe 分块操作进阶篇,版本二:深入 Tiling 策略与实战 kernel 示例。
📄
CuTe Swizzle 学习手册
💥
Flash Decoding 推理优化指南
Flash Decoding 算法详解,揭示其如何通过并行化 KV 维度大幅提升解码吞吐。
📄
CuTe · Hopper · Blackwell — GPU 编程学习手册
📐
RoPE 实现对比指南
对比不同 RoPE 实现方案在解码场景下的精度、性能与工程可用性。
📄
RoPE Kernel 可视化解析
📄
Flash Attention v2 的核心优化原理与工程实现
🔍 没有找到匹配的文档,请尝试其他关键词。