Papers·1개월 전

SIA: 언어모델이 스스로 도구와 가중치를 모두 업데이트하는 자기 개선 루프

SIA는 언어모델 에이전트(Feedback-Agent)가 태스크 에이전트의 harness(도구, 프롬프트, 검색 절차)와 가중치를 동시에 업데이트하는 자기 개선 루프입니다. 중국 법률 분류(LawBench 56.6% 향상), GPU 커널 최적화(런타임 91.9% 감소), 단일세포 RNA denoising(502% 향상)에서 harness만 반복하거나 가중치만 업데이트하는 기존 방식보다 뛰어났습니다. harness 업데이트는 에이전트의 행동 방식을, 가중치 업데이트는 도메인 직관을 보강하는 상호 보완적 효과를 냅니다.

AI 개선의 병목은 인간입니다. SIA는 언어모델 에이전트가 자신의 harness와 가중치를 모두 스스로 업데이트하는 자기 개선 루프를 제안합니다.

핵심 결론

태스크 — 중국 법률 분류, GPU 커널 최적화, 단일세포 RNA denoising 세 영역에서 평가.
개선폭 — LawBench 56.6%, GPU 커널 런타임 91.9% 감소, denoising 502% 향상 (초기 대비).
비교 — harness만 반복하거나 가중치만 업데이트하는 기존 방식보다 모두 우월.

방법

구조 — Feedback-Agent가 태스크 에이전트의 harness(도구, 프롬프트, 검색 절차)와 가중치를 모두 업데이트.
두 축 — harness 업데이트는 에이전트의 행동 방식(agentic)을, 가중치 업데이트는 도메인 직관을 보강.
분리 극복 — 기존 harness-update와 test-time training을 통합한 첫 시도.

한계·조건

비용 — Feedback-Agent 자체가 고비용 LLM을 사용하므로, 전체 비용이 초기 태스크 에이전트보다 높을 수 있음.
일반화 — 세 가지 도메인에서 검증되었으나, 모든 태스크에 적용 가능한지는 추가 연구 필요.
코드 — 공개 여부는 명시되지 않음.

편집자 한 줄

harness와 weight를 동시에 업데이트하는 발상은 단순하지만, 두 연구 줄기를 연결한 점에서 의미가 있습니다. 다만 Feedback-Agent의 비용이 실용성에 걸림돌이 될 수 있겠네요.

#self-improvement
#llm-agent
#meta-learning
#harness-update
#test-time-training

Hexo AI

원문 보기 →

SIA: 언어모델이 스스로 도구와 가중치를 모두 업데이트하는 자기 개선 루프

핵심 결론

방법

한계·조건

Comments