Papers·2주 전
Harvard, 양방향 진화 탐색(BES)으로 LLM 자기 개선 — 후방 목표 분해로 탐색 효율 향상

Harvard 연구팀이 LLM 자기 개선을 위한 Bidirectional Evolutionary Search (BES)를 제안했습니다. 전방 탐색에서 진화 연산자로 부분 궤적을 재조합해 생성 다양성을 높이고, 후방 탐색에서 태스크를 점검 가능한 하위 목표로 분해해 밀집 피드백을 제공합니다. 실험 결과, 기존 post-training 알고리즘이 실패하는 과제에서도 일관된 성능 향상을 보였고, 세 가지 오픈 도메인 추론 벤치마크에서 평균 및 최고 성능 모두 기존 오픈소스 프레임워크를 능가했습니다. 코드와 모델은 공개되었습니다.
Harvard 연구팀이 LLM 자기 개선을 위한 양방향 진화 탐색(BES) 프레임워크를 공개했습니다.
핵심 결론
- 성능 — 기존 post-training 알고리즘이 개선하지 못하는 과제에서도 BES가 일관된 성능 향상을 달성했습니다.
- 추론 — 세 가지 오픈 도메인 추론 벤치마크에서 평균 및 최고 성능 모두 기존 오픈소스 프레임워크를 능가했습니다.
방법
- 전방 탐색 — 표준 확장(autoregressive)에 진화 연산자를 추가해 부분 궤적을 재조합, 단일 모델 rollout으로 얻기 어려운 후보를 생성합니다.
- 후방 탐색 — 원래 태스크를 점검 가능한 하위 목표로 재귀적으로 분해해 밀집 중간 피드백을 제공합니다.
- 이론적 동기 — 확장 전용 탐색은 좁은 엔트로피 셸에 갇히지만 진화 연산자는 이를 탈출 가능하며, 후방 탐색은 정답에 필요한 샘플 수를 지수적으로 줄일 수 있음을 증명했습니다.
한계·조건
- 코드 — GitHub에 코드와 학습된 모델이 공개되었습니다.
- 환경 — 벤치마크 세부 조건은 논문을 참조해야 하지만, 일반적인 LLM 추론 환경에서 동작합니다.
편집자 한 줄
탐색 공간을 넓히는 진화 연산자와 목표 분해를 결합한 점이 인상적이네요. 특히 기존 post-training이 실패하는 경우에도 효과를 보인 점이 흥미롭습니다.
- #llm
- #search
- #self-improvement
- #harvard
Harvard University