GitHub ↗
🚀 持续更新中

Ibin! 的技术笔记库

这里汇集了 Ibin! 在 AI 推理引擎、GPU 优化与大模型加速领域的工作笔记。 涵盖 MLA 注意力机制、RoPE 位置编码、Block Attention、Flash Decoding 以及 CUDA/CuTe 底层优化等核心技术的深度解析与可视化文档。

21 技术文档
3 技术领域
持续学习
📅 最近更新:2026-05-25  —  本仓库不定期更新,持续记录 AI 推理与 GPU 优化领域的技术探索。

📖 关于这个项目

这是 Ibin! 在日常工作与学习过程中积累的技术文档集合,以交互式 HTML 可视化的形式呈现, 力求让复杂的 GPU 架构与 AI 算法变得直观易懂。

内容涵盖从理论推导到工程实践,从数学原理到 CUDA kernel 实现, 是深入理解大模型推理系统的第一手参考资料。

🧠
MLA_DSA — 多头潜在注意力与 DSA
⚙️
De_Attn — Decode Attention 优化
📁
Research
🔍 没有找到匹配的文档,请尝试其他关键词。