🔍

🚀 持续更新中

Ibin! 的技术笔记库

这里汇集了 Ibin! 在 AI 推理引擎、GPU 优化与大模型加速领域的工作笔记。涵盖 MLA 注意力机制、RoPE 位置编码、Block Attention、Flash Decoding 以及 CUDA/CuTe 底层优化等核心技术的深度解析与可视化文档。

21 技术文档

3 技术领域

∞ 持续学习

📖 关于这个项目

这是 Ibin! 在日常工作与学习过程中积累的技术文档集合，以交互式 HTML 可视化的形式呈现，力求让复杂的 GPU 架构与 AI 算法变得直观易懂。

内容涵盖从理论推导到工程实践，从数学原理到 CUDA kernel 实现，是深入理解大模型推理系统的第一手参考资料。

🧠
MLA 注意力机制 — 多头潜在注意力的原理、矩阵吸收、GEMM 优化与推理指南
⚙️
Decode Attention 优化 — Flash Decoding、CuTe 算子、RoPE 对比实现
📈
可视化优先 — 所有文档均以交互式 HTML 呈现，支持直接在浏览器中阅读

🧠

MLA_DSA — 多头潜在注意力与 DSA

9 篇文档

DeepSeek-V4 技术报告深度解读 — 迈向高效百万 Token 上下文智能

MLA 最优算子设计

探讨 MLA 注意力计算中最优算子的选择策略，分析不同实现方案的性能权衡。

MLA · Operators →

MLA DSA 推理指南

完整的 MLA DSA 推理流程指南，涵盖从模型加载到高效推理的全链路优化方案。

MLA · Inference →

MLA GEMM 可视化分析

通过交互式可视化展示 MLA 中 GEMM 操作的矩阵变换过程，直观理解计算流程。

MLA · GEMM →

MLA 数学公式推导 — 从 MHA 到 Absorbed MQA 的等价变换

MLA 矩阵吸收原理

深入解析 MLA 的矩阵吸收技术，理解其如何减少 KV Cache 显存占用。

MLA · KV Cache →

MLA Prefix Cache & Chunked Prefill

MLA 场景下 Prefix Cache 与 Chunked Prefill 的结合应用，提升长序列推理吞吐量。

MLA · Prefill →

MLA 简化架构图解

以简化的架构图形式呈现 MLA 的整体结构，适合快速建立直觉认知。

MLA · Architecture →

RoPE 位置编码变体对比

系统比较 RoPE 各变体在长序列外推上的表现与适用场景。

RoPE · Variants →

⚙️

De_Attn — Decode Attention 优化

10 篇文档

Fused Rotary Position Encoding 全方位解析

RoPE 全景详解：标准 RoPE × YaRN × MLA 解耦 RoPE × 主流模型对比

CuTe 分块操作详解（v1）

CuTe 库中分块操作的原理与实现，版本一：基础概念与核心 API 介绍。

CuTe · Divide →

CuTe 分块操作详解（v2）

CuTe 分块操作进阶篇，版本二：深入 Tiling 策略与实战 kernel 示例。

CuTe · Advanced →

CuTe Swizzle 学习手册

Flash Decoding 推理优化指南

Flash Decoding 算法详解，揭示其如何通过并行化 KV 维度大幅提升解码吞吐。

Flash Decoding →

CuTe · Hopper · Blackwell — GPU 编程学习手册

RoPE 实现对比指南

对比不同 RoPE 实现方案在解码场景下的精度、性能与工程可用性。

RoPE · Decode →

RoPE Kernel 可视化解析

Flash Attention v2 的核心优化原理与工程实现

📁

Research

2 篇文档

SGLang 与 vLLM 对 DeepSeek 和 GLM-5 模型的最新优化研究

SGLang 模型推理部署与二次开发全景指南

🔍 没有找到匹配的文档，请尝试其他关键词。