Papers·어제
NUS, 잠재 메모리로 RAG 토큰 소비 3~10배 절감 — 단일 latent token 으로 멀티모달 QA

National University of Singapore 팀이 기존 RAG 의 raw text/image 대신 latent space 의 단일 고차원 토큰으로 메모리를 대체하는 Latent Memory 를 제안했습니다. 7개 text QA 와 멀티모달 QA 벤치마크에서 기존 RAG 대비 generator token 소비를 3~10배 줄이면서도 경쟁력 있는 성능을 유지했고, WebQA 에서 최고 이미지 QA 성능을 기록했습니다. 단, 작은 compressor LLM/VLM 을 추가로 학습해야 하므로 end-to-end 학습 비용이 듭니다.
NUS 가 RAG 의 토큰 병목을 latent space 로 해결한 Latent Memory 를 공개했습니다.
핵심 결론
- 태스크 — text QA (HotpotQA 등 7개) 와 멀티모달 QA (WebQA 등) 에서 평가.
- 개선폭 — 기존 RAG 대비 generator token 소비 3~10배 감소, 성능은 유사하거나 우수.
- 최고 성능 — WebQA 이미지 QA 에서 SOTA 달성.
방법
- latent token — 각 raw evidence 를 작은 compressor LLM/VLM 으로 단일 고차원 latent token 으로 압축.
- 통합 공간 — query 도 같은 latent space 로 임베딩하여 retrieval 후, latent token 을 직접 generator 에 prompt.
- 학습 목표 — reconstruction, contrastive, distillation loss 를 end-to-end 로 결합해 token 이 retrieval·generation·재구성에 모두 유용하도록 설계.
한계·조건
- 추가 비용 — compressor 학습이 필요하며, end-to-end training 이므로 사전학습된 generator 를 그대로 쓰지 못함.
- 재현성 — 코드는 GitHub (zz1358m/Latent-Memory-Master) 에 공개.
편집자 한 줄
latent space 에서의 retrieval 이 raw text retrieval 보다 정보 손실이 적다는 게 흥미로운 포인트네요.
- #rag
- #latent-memory
- #multimodal
- #nus
- #qa
National University of Singapore