摘要: 摘要:我开发了一个 Triton 的多层级 runner 工具,支持 ttir、ttgir、llir、ptx、cubin 等多个编译阶段的运行和调试。相比直接维护 Triton 的 Python 源码,这个工具更关注稳定的中间产物(IR 和二进制),让 Triton 的kernel内核调试、部署和研 阅读全文
posted @ 2025-07-12 17:46 暴力都不会的蒟蒻 阅读(41) 评论(0) 推荐(0)
摘要: 项目地址:OpenMLIR/triton-spirv 本项目于2025.7.6在NVIDIA显卡上使用OpenCL跑通了矩阵乘matrix-multiplication.py,并对上了答案。 一、前言 1、项目进展 本项目于上个月(2025.6.7)在NVIDIA显卡上使用OpenCL跑通了向量加, 阅读全文
posted @ 2025-07-06 19:54 暴力都不会的蒟蒻 阅读(10) 评论(0) 推荐(0)
摘要: 深度剖析 Triton编译器 MatMul优化(二)—— MMA 我们介绍了很容易就拿到性能的tl.dot操作,生成的是tcgen05.mma.cta_group::1.kind::tf32和cp.async.cg.shared.global指令,这次我们来看TMA,生成的是cp.async.bul 阅读全文
posted @ 2025-07-01 07:07 暴力都不会的蒟蒻 阅读(56) 评论(0) 推荐(1)
摘要: 本博客原文地址:https://www.cnblogs.com/BobHuang/p/18324040,原文阅读体验更佳。 上一篇文章介绍了MLIR及其Pass的添加,受到了很多朋友的点赞支持,非常感谢。 Triton作者关于其设计的论文发表在MAPL2019,当前项目下首次commit为6d7cf 阅读全文
posted @ 2024-07-25 20:01 暴力都不会的蒟蒻 阅读(4935) 评论(5) 推荐(0)
摘要: 本博客原文地址:https://www.cnblogs.com/BobHuang/p/18249482 笔者在去年写了一篇LLVM Pass的教程,之后从事MLIR的开发近1年了,写点教程回馈下社区。 MLIR(Multi-Level Intermediate Representation,多层中间 阅读全文
posted @ 2024-07-06 10:02 暴力都不会的蒟蒻 阅读(3238) 评论(2) 推荐(1)
摘要: 现在AI框架主要用Pytorch,包括一些常用的库对Pytorch支持都较好,国产AI芯片很多也对AI框架Pytorch进行了支持 一、华为昇腾npu 能够跟上Pytorch的更新,直接和Pytorch兼容,而且有较多人来维护,代码风格不错,之前是通过注入Pytorch预留的的xla搞的接入,Pyt 阅读全文
posted @ 2023-12-06 12:31 暴力都不会的蒟蒻 阅读(1958) 评论(1) 推荐(0)
摘要: MLIR(Multi-Level Intermediate Representation)包含了更多的信息,抽象层级更高。笔者在2023.8开始从事MLIR编译器的开发,当时学习资料不多,自己搜集了些开源项目并在2023.11发表在我的博客里,现在整理下挪到知乎来。 对MLIR不了解可以看下我的这篇 阅读全文
posted @ 2023-11-02 08:34 暴力都不会的蒟蒻 阅读(2567) 评论(2) 推荐(0)
摘要: 摘要:复用了Triton的cache和JIT机制,多层级runner支持Python源码输入了,方便调试。另外参照TritonBench添加了2个BenchMark,现在对Bench更友好了。 项目地址:https://github.com/OpenMLIR/triton_runner,项目已从tr 阅读全文
posted @ 2025-07-21 19:38 暴力都不会的蒟蒻 阅读(8) 评论(0) 推荐(0)
摘要: 摘要:很简单的一个黑魔法,只要在你的函数名前加上cutlass_,假装是CUTLASS库,有可能获得一定的性能提升。 我发现这个问题来源于Triton这笔commitade3d49 这不是在开玩笑,代码里真有。在FP8提升了 150 TFLOPS 那我们根据这个commit去build Triton 阅读全文
posted @ 2025-07-10 22:25 暴力都不会的蒟蒻 阅读(14) 评论(0) 推荐(0)
摘要: 摘要:绕过Triton Pass pipeline 来运行 cubin 二进制程序 项目地址:OpenMLIR/Triton-ML-Runner 你是否也在为Triton只能从Python到cubin再执行而苦恼,你是否修改了其中的IR但需要修改Triton的源码而丧气,你是否拿到了高版本Trito 阅读全文
posted @ 2025-07-08 07:01 暴力都不会的蒟蒻 阅读(12) 评论(0) 推荐(0)
摘要: 深度剖析 Triton编译器 MatMul优化(一) 我们介绍了native矩阵乘的优化,本章来分析很容易就拿到性能的tl.dot操作。 上来首先性能对比,Triton native kernel vs Triton with dot kernel。这个加速比是3.68x,相较native的CUDA 阅读全文
posted @ 2025-06-29 13:57 暴力都不会的蒟蒻 阅读(41) 评论(0) 推荐(0)
摘要: 本文分析了native(不做分块)的Triton Matmul矩阵乘在 NVIDIA B200的编译流程,从Python->TTIR->TTGIR->LLVM IR->PTX。最近会出一个系列分析Triton对于矩阵乘的优化以及Blackwell新特性的支持情况。首先先看性能,用上autotune相 阅读全文
posted @ 2025-06-27 06:50 暴力都不会的蒟蒻 阅读(61) 评论(0) 推荐(0)
摘要: 我最近3个月都在研究Python DSL,在此记录下我的一些想法。目前还在学习中,若理解有偏差,烦请指正。 DSL 即 Domain Specific Language,是指为特定领域(domain)设计的专用语言,广为人知的包含 HTML、SQL和正则表达式。本文讨论的内容更准确的名词是eDSL, 阅读全文
posted @ 2025-06-20 22:31 暴力都不会的蒟蒻 阅读(206) 评论(0) 推荐(0)
摘要: CuTe DSL 是以CuTe抽象为中心的Python DSL,Triton DSL是以BLOCK tile为中心的Python DSL。CuTe DSL写起来更像CUDA,Triton DSL要更Pythonic,上层的接口也很Python。英伟达会推出 cuTile 来和 Triton竞争。 一 阅读全文
posted @ 2025-06-19 05:19 暴力都不会的蒟蒻 阅读(128) 评论(3) 推荐(0)
摘要: 这个Bug为IR在transform(转换)过程中出现了tt.fp_to_fp,然后在lower(降级)时报错Unsupported conversion from f16 to f16,具体issue在Unsupported conversion from f16 to f16 #6698。这个B 阅读全文
posted @ 2025-06-13 06:07 暴力都不会的蒟蒻 阅读(66) 评论(0) 推荐(0)
摘要: 本博客原文地址:https://www.cnblogs.com/BobHuang/p/18917000,原文体验更佳 项目地址:OpenMLIR/triton-spirv 本项目于2025.6.7在NVIDIA显卡上使用OpenCL跑通了向量加vector-add.py,并对上了答案。 一、前言 1 阅读全文
posted @ 2025-06-07 19:55 暴力都不会的蒟蒻 阅读(52) 评论(1) 推荐(0)
摘要: 本博客原文地址:https://www.cnblogs.com/BobHuang/p/18916737,原文体验更佳 项目地址:OpenMLIR/triton-spirv 上一篇Triton SPIR-V 后端开发:新增Pass 我们新增了TritonToLinalg的Pass,Triton是Pyt 阅读全文
posted @ 2025-06-07 15:37 暴力都不会的蒟蒻 阅读(10) 评论(0) 推荐(0)
摘要: 本博客原文地址:https://www.cnblogs.com/BobHuang/p/18916629,原文体验更佳 关于MLIR的介绍和Pass的书写我在从零开始教你写一个MLIR Pass 中写得更充实和详细,本文做为OpenMLIR/triton-spirv的开发文档,目的是方便新手上手。 本 阅读全文
posted @ 2025-06-07 13:43 暴力都不会的蒟蒻 阅读(42) 评论(0) 推荐(0)
摘要: 本博客原文地址:https://www.cnblogs.com/BobHuang/p/18890009 Chris Lattner最近AI民主化的文章写得很爽,并在Modular’s bet to break out of the Matrix 强烈推荐了他在做的MOJO🔥。 学习MOJO可以看官 阅读全文
posted @ 2025-05-22 05:48 暴力都不会的蒟蒻 阅读(116) 评论(0) 推荐(0)
摘要: 5.18更 项目改为基于upstreammain分支开发。原来为了稳定在release/3.3.x分支开发,但是fork项目主页还是会和main对比的,目前改动还不多,直接切过来了。 本博客原文地址:https://www.cnblogs.com/BobHuang/p/18881029,原文体验更佳 阅读全文
posted @ 2025-05-17 10:34 暴力都不会的蒟蒻 阅读(71) 评论(0) 推荐(0)
摘要: 5.20更 终于搞定了Triton的tma kernel,当时还怀疑是卡坏了,自己没好好读文档的问题。建立了LeetGPU Github仓库,看代码更方便。 本博客原文地址:https://www.cnblogs.com/BobHuang/p/18755313,原文体验更佳 工作中写过一点点算子,现 阅读全文
posted @ 2025-03-06 15:38 暴力都不会的蒟蒻 阅读(1103) 评论(0) 推荐(0)
摘要: 我平时习惯用VSCode的 ssh插件远程连接服务器开发,今天突然连不上了,查看日志waiting for server log往前翻提示Missing GLIBC >= 2.28!,这是VSCode自动升级到 1.86 造成的,VSCode升级连带着ssh插件升级了。可是服务器用的是centos7 阅读全文
posted @ 2024-02-05 10:57 暴力都不会的蒟蒻 阅读(1349) 评论(1) 推荐(0)