工作坊: Triton 语言与 vLLM

规约类算子的 triton kernel 优化模式

Speakers

陈飞宇

Date / Time

2024-10-17

17:30

Presentation Slides

Presentation Video

YouTube

Triton 语言提供了面向数据块的线程块级别的编程模式，在对硬件的细粒度控制和心智负担之间取得了较好的平衡，使得非 gpu 编程专家也可以在较短时间内写出性能不错的 kernel. 但使用 triton 来编写一般用途的算子库时，还需要根据不同情况，比如形状和数据排布等，选择合适的算法和任务划分方案来取得更好的性能。本报告将以 softmax 算子的优化为例，分享 reduce 类算子的优化技巧和常用模式：persistent reduction, online softmax normalizer, split-reduction, outer reduction 的任务划分方案等.