Papers·1개월 전

LLM 에이전트가 직접 설계한 14개 아키텍처 — 1B 스케일에서 Llama 3.2 대비 최대 3.8% 정확도 향상

AIRA 프레임워크는 LLM 에이전트가 Transformer를 넘어선 기초 모델 아키텍처를 자율적으로 탐색·설계합니다. AIRA-Compose는 11개 에이전트가 24시간 내에 14개 아키텍처를 발견했고, 1B 스케일 사전학습 결과 AIRAhybrid-D가 Llama 3.2 대비 정확도 3.8% 향상, AIRAformer-C는 스케일링 효율이 54% 더 빠릅니다. AIRA-Design은 20개 에이전트가 새로운 attention 메커니즘을 작성해 Long Range Arena에서 인간 SOTA에 2.3% 이내로 접근했습니다. 다만 350M~3B 스케일로 제한되었고, 더 큰 스케일에서의 일반화는 검증되지 않았습니다.

#llm-agents
#architecture-search
#self-improvement
#aira
#attention

Alberto Pepe

원문 보기 →

LLM 에이전트가 직접 설계한 14개 아키텍처 — 1B 스케일에서 Llama 3.2 대비 최대 3.8% 정확도 향상

Comments