Papers·1개월 전

에이전트 검색에서 관측 마스킹의 비대칭 역U자 효과 — 4B~284B 모델 실험

McAuley-Lab 팀이 장기 에이전트 검색에서 컨텍스트 예산을 절약하기 위해 오래된 관측을 마스킹하는 전략을 체계적으로 분석했습니다. 4B~284B 파라미터 모델과 세 가지 리트리버 조합에서 마스킹의 정확도 향상이 비대칭 역U자 형태를 보인다는 점을 발견했는데, 약한 리트리버에서는 효과가 미미하고, 강한 리트리버와 중간 용량 모델 조합에서 최대 효과를 보이다가 모델이 포화되면 오히려 성능이 붕괴합니다. 이는 리트리버 재현율과 모델의 암시적 필터링 능력 간 상호작용 때문이며, 마스킹이 모델이 더 이상 주목하지 않는 관측을 제거하고 추가 턴을 제공하지만, 필요한 증거를 제거할 경우 실패할 수 있습니다. 코드와 궤적은 GitHub에 공개되었습니다.

McAuley-Lab이 장기 에이전트 검색에서 오래된 관측을 마스킹하는 전략이 어떤 조건에서 도움이 되는지 체계적으로 분석했습니다.

핵심 결론

패턴 — 관측 마스킹의 정확도 향상은 비대칭 역U자 형태: 약한 리트리버에서는 효과 미미, 강한 리트리버+중간 용량 모델에서 최대, 모델 포화 시 붕괴.
벤치 — 오프라인 및 라이브 웹 에이전틱 검색 벤치마크에서 4B~284B 모델과 세 가지 리트리버로 실험.

방법

마스킹 — 에이전트 궤적이 진행됨에 따라 오래된 관측(검색 결과, 도구 호출 등)을 컨텍스트에서 제거하는 최소한의 개입.
메커니즘 — 마스킹은 모델이 더 이상 주목하지 않는 관측을 제거하고 거의 다시 열지 않는 페이지를 대체하여 추가 턴을 제공합니다. 추가 턴은 실패를 성공으로 바꿀 때 도움이 되지만, 필요한 증거를 제거하면 실패합니다.

한계·조건

의존성 — 효과는 리트리버 재현율과 모델의 암시적 필터링 능력 간 상호작용에 의존하며, 단일 요소만으로 설명되지 않습니다.
코드 — GitHub에 스캐폴드와 궤적이 공개되어 재현 가능합니다.

편집자 한 줄

컨텍스트 관리가 단순히 '항상 좋다'가 아니라 모델-리트리버 조합에 따라 오히려 해가 될 수 있다는 점을 실험적으로 보여준 점이 흥미롭습니다.

#agentic-search
#context-management
#observation-masking
#mcallab

McAuley-Lab

원문 보기 →

에이전트 검색에서 관측 마스킹의 비대칭 역U자 효과 — 4B~284B 모델 실험

핵심 결론

방법

한계·조건

Comments