Papers·1주 전

Tsinghua KernelBench-X — LLM Triton 커널 생성, 72% Fusion 태스크 실패, 정확성과 효율성 괴리

Tsinghua 대학이 LLM 기반 Triton 커널 생성의 한계를 체계적으로 분석한 벤치마크 KernelBench-X를 공개했습니다. 176개 태스크를 15개 카테고리로 분류해 5가지 방법을 비교한 결과, 태스크 구조가 방법 설계보다 정확성에 더 큰 영향을 미치며(카테고리가 방법보다 3배 높은 분산 설명), Fusion 태스크의 72%가 모든 방법에서 실패했습니다. 반복적 정제(iterative refinement)는 컴파일률을 52.3%에서 68.8%로 높였지만 평균 speedup은 1.58배에서 1.44배로 오히려 감소했고, 올바른 커널 중 46.6%가 PyTorch eager baseline보다 느렸습니다. 특히 양자화 태스크는 0/30 성공으로, 수치 정밀도에 대한 체계적 이해 부족이 드러났습니다. 코드는 공개되었습니다.

#kernel-generation
#triton
#llm
#benchmark
#tsinghua

Tsinghua University

원문 보기 →

Tsinghua KernelBench-X — LLM Triton 커널 생성, 72% Fusion 태스크 실패, 정확성과 효율성 괴리

Comments