Papers·1개월 전

DiffRetriever: 확산 언어 모델로 다중 토큰 검색 — BEIR-7에서 최고 성능

호주 The Information Engineering Lab이 확산 언어 모델(diffusion LM)을 활용해 다중 대표 토큰(multi-token) 검색을 효율적으로 수행하는 DiffRetriever를 제안했습니다. 기존 autoregressive 모델은 토큰을 순차 생성해야 해 다중 토큰 방식이 비효율적이었으나, DiffRetriever는 프롬프트에 K개의 마스크 위치를 추가하고 단일 양방향 패스로 모든 토큰을 읽어 latency가 K에 비례하지 않습니다. In-domain 및 out-of-domain 평가에서 모든 확산 백본에서 단일 토큰 대비 성능이 크게 향상되었으며, supervised fine-tuning 후 Dream 백본으로 BEIR-7에서 PromptReps, DiffEmbed, RepLLaMA를 능가했습니다. 한계로는 고정 예산에서 오라클이 contrastive fine-tuning을 능가해 적응형 예산 선택이 향후 과제로 남았습니다. 코드는 공개되었습니다.

#diffusion-lm
#retrieval
#multi-token
#beir
#ielab

The Information Engineering Lab

원문 보기 →

DiffRetriever: 확산 언어 모델로 다중 토큰 검색 — BEIR-7에서 최고 성능

Comments