QuACK：用纯 Python 把 H100 推到“光速”

吴脑的键客

于 2025-07-14 06:42:35 发布

阅读量541

点赞数 1

CC 4.0 BY-SA版权

分类专栏：人工智能文章标签： python 开发语言 gpu算力

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41446370/article/details/149321621

人工智能专栏收录该内容

642 篇文章

订阅专栏

Flash Attention 的共同作者 Tri Dao 与普林斯顿大学的两位博士生最近联合推出了一个名为 QuACK 的新内核库。这一创新的内核库引起了广泛关注，尤其是在高性能计算领域。

在这里插入图片描述

QuACK 的开发背景

QuACK 的开发完全基于 Python 和 CuTe-DSL，令人瞩目的是，它不涉及任何 CUDA C++ 代码。这一设计理念打破了传统的编程框架，使得开发者能够在更友好的环境中进行高效的 GPU 编程。

性能优势

在强大的 H100 显卡上，QuACK 实现了比 PyTorch 中的 torch.compile 和 Liger 等库快 33%-50% 的速度提升。Tri Dao 强调，内存密集型内核的高效运作并不是一个难以实现的“秘密”，而是依赖于对一些关键细节的精准处理。他指出，理解现代加速器的线程与内存层级结构是至关重要的。

在这里插入图片描述

🧩 为什么这么快？

Tri Dao 的总结：

“让内存密集内核达到光速并不神秘，只要把 bank-conflict-free shared-memory layout、pipeline 延迟隐藏、L2 预取这几个细节做对即可。”

CuTe-DSL 把上述硬件级技巧抽象成 Python 表达式，开发者无需写 PTX / CUDA 也能榨干 GPU。

🔧 上手示例

from quack import layer_norm

y = layer_norm(x, weight=gamma, bias=beta, eps=1e-5)

一行 Python，背后自动生成 TMA + Hopper WGMMA 指令流。

📦 资源与路线图

开源地址：https://github.com/Dao-AILab/quack

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。