工作坊: Triton 语言与 vLLM
规约类算子的 triton kernel 优化模式
Speakers
Presentation Slides
Presentation Video
Triton 语言提供了面向数据块的线程块级别的编程模式,在对硬件的细粒度控制和心智负担之间取得了较好的平衡,使得非 gpu 编程专家也可以在较短时间内写出性能不错的 kernel. 但使用 triton 来编写一般用途的算子库时,还需要根据不同情况,比如形状和数据排布等,选择合适的算法和任务划分方案来取得更好的性能。本报告将以 softmax 算子的优化为例,分享 reduce 类算子的优化技巧和常用模式:persistent reduction, online softmax normalizer, split-reduction, outer reduction 的任务划分方案等.