Papers·1개월 전

HeavySkill: 병렬 추론-요약 내재화로 복잡 추론 강화 — BoN 대비 일관된 우위

LongCat 팀이 제안한 HeavySkill은 에이전틱 오케스트레이션 없이 모델 파라미터에 내재화된 '무거운 사고(heavy thinking)' 스킬로, 병렬 추론 후 요약하는 2단계 파이프라인을 통해 복잡 추론 태스크에서 Best-of-N(BoN) 전략을 일관되게 능가합니다. 특히 강한 LLM에서는 Pass@N 수준에 근접하며, 강화학습으로 depth/width를 확장 가능해 brittle한 오케스트레이션 레이어 없이도 자기 진화하는 LLM으로의 길을 제시합니다. 다만 실험은 특정 벤치마크와 모델군에 국한되어 일반화 검증이 필요합니다.

#reasoning
#reinforcement-learning
#llm
#agent

LongCat

원문 보기 →

HeavySkill: 병렬 추론-요약 내재화로 복잡 추론 강화 — BoN 대비 일관된 우위

Comments