← Back to feed
Papers·1주 전

DR-DCI: 검색기-조종 문서 직접 조작으로 대규모 말뭉치 에이전트 검색 정확도 71.2%

DR-DCI: 검색기-조종 문서 직접 조작으로 대규모 말뭉치 에이전트 검색 정확도 71.2%

SKY Lab 팀이 대규모 말뭉치에서 에이전트가 문서를 직접 조작(DCI)할 수 있게 하되, 검색기(retriever)로 작업 공간을 확장하는 DR-DCI 프레임워크를 제안했습니다. Browsecomp-Plus에서 정확도 71.2%로 기존 DCI 대비 최대 8.3포인트 향상, 도구 사용량과 비용도 줄였습니다. 100K~10M 문서 규모에서도 안정적으로 동작하며, Wiki-18 QA 20M 규모에서 평균 63.0 점수로 검색 기반 및 학습된 검색 에이전트를 능가했습니다. 다만, ranked preview와 inter-document DCI가 성능에 핵심적이며, 이들 없이는 성능이 크게 떨어집니다.

SKY Lab이 검색기로 작업 공간을 확장하며 문서 직접 조작(DCI)을 가능케 하는 DR-DCI를 공개했습니다.

핵심 결론

  • Browsecomp-Plus정확도 71.2%로 raw DCI 대비 8.3포인트 향상, 도구 사용량·wall time·비용 모두 감소.
  • 확장성100K~10M 문서에서 안정적, raw DCI는 불안정해지고 BM25는 성능 저하.
  • Wiki-18 QA20M 규모에서 평균 63.0 점수로 검색 기반 및 학습된 에이전트 대비 우위.

방법

  • 핵심 아이디어에이전트가 전체 말뭉치에 DCI를 직접 수행하지 않고, 검색기를 호출해 관련 문서를 로컬 작업 공간으로 가져온 뒤 그 안에서 DCI 연산을 수행합니다.
  • 구조검색기는 확장성(scalability)을, DCI는 정밀한 증거 확인(precision)을 담당하는 하이브리드 설계입니다.
  • 작업 공간을 유지하며 컨텍스트 리셋을 하면 정확도가 73.3%로 추가 향상됩니다.

한계·조건

  • 핵심 요소Ranked preview와 inter-document DCI가 없으면 성능이 크게 떨어지므로, 이 두 기능이 필수적입니다.
  • 재현성코드 공개 여부는 명시되지 않았으며, 실험은 Browsecomp-Plus와 Wiki-18 QA 등 특정 벤치마크에 국한됩니다.
  • DR-DCI는 검색기 성능에 의존하므로, 검색기 recall이 낮은 도메인에서는 효과가 제한될 수 있습니다.

편집자 한 줄

검색기와 DCI의 역할 분담이 깔끔하게 설계된 점이 인상적입니다. 다만 ranked preview의 구체적인 구현 방식이 결과에 큰 영향을 미칠 것으로 보여, 해당 부분의 ablation 결과를 더 살펴볼 필요가 있습니다.

  • #agentic-search
  • #retrieval
  • #dci
  • #skylab
SKY Lab
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —