Papers·2주 전
Xetrieval: 임베딩 수준에서 dense retrieval 의사결정을 설명하는 메커니즘

Beihang University 팀이 dense retriever의 opaque 고차원 임베딩을 해석하는 프레임워크 Xetrieval을 제안했습니다. 경량 reasoning internalizer로 단일 forward pass에 Chain-of-Thought 추론을 임베딩 공간에 내재화한 뒤, sparse 해석 가능한 feature로 분해하여 각 feature에 자연어 설명을 붙입니다. 다양한 retriever와 벤치마크에서 해석 가능한 feature를 발견했고, pair-level 개입 효과와 task-level feature steering이 가능함을 보였습니다. 단, 실험은 주로 MS MARCO, BEIR 등 특정 QA/검색 벤치마크에 국한되어 일반화 검증이 더 필요합니다.
Dense retrieval의 opaque 임베딩을 해석하는 메커니즘 프레임워크 Xetrieval이 공개되었습니다.
핵심 결론
- 태스크 — Dense retriever의 relevance score 결정을 임베딩 수준에서 설명.
- 성능 — 기존 post-hoc textual rationale 대비 pair-level 개입 효과가 더 강력함을 확인.
- 적용 — Task-level feature steering이 가능해, 검색 행동을 feature 단위로 조정할 수 있습니다.
방법
- Reasoning internalizer — 경량 모듈로 CoT 추론을 임베딩 공간에 단일 forward pass로 내재화, autoregressive 생성 없이 reasoning 정보를 주입합니다.
- Feature decomposition — Reasoning-enhanced embedding을 sparse interpretable feature로 분해, 각 feature에 자연어 설명을 할당합니다.
- 집계 — 문서 측 여러 view에서 sparse feature overlap을 집계하여 개별 retrieval 결정을 설명합니다.
한계·조건
- 벤치마크 — MS MARCO, BEIR 등 QA/검색 벤치마크에 주로 검증, 다른 도메인(의료, 법률)에서의 일반화는 추가 실험 필요.
- 코드 — 프로젝트 페이지와 소스 코드가 공개되어 재현 가능합니다.
편집자 한 줄
임베딩 수준 해석은 기존 attention 기반 설명보다 더 근본적인 통찰을 줄 수 있다는 점에서 흥미롭습니다. 다만 feature steering의 실용성은 downstream task에서의 ablation이 더 필요해 보입니다.
- #dense-retrieval
- #interpretability
- #mechanistic-interpretability
- #embedding
- #beihang
Beihang University