Papers·1개월 전

NUS, 잠재 메모리로 RAG 토큰 소비 3~10배 절감 — 단일 latent token 으로 멀티모달 QA

National University of Singapore 팀이 기존 RAG 의 raw text/image 대신 latent space 의 단일 고차원 토큰으로 메모리를 대체하는 Latent Memory 를 제안했습니다. 7개 text QA 와 멀티모달 QA 벤치마크에서 기존 RAG 대비 generator token 소비를 3~10배 줄이면서도 경쟁력 있는 성능을 유지했고, WebQA 에서 최고 이미지 QA 성능을 기록했습니다. 단, 작은 compressor LLM/VLM 을 추가로 학습해야 하므로 end-to-end 학습 비용이 듭니다.

NUS 가 RAG 의 토큰 병목을 latent space 로 해결한 Latent Memory 를 공개했습니다.

핵심 결론

태스크 — text QA (HotpotQA 등 7개) 와 멀티모달 QA (WebQA 등) 에서 평가.
개선폭 — 기존 RAG 대비 generator token 소비 3~10배 감소, 성능은 유사하거나 우수.
최고 성능 — WebQA 이미지 QA 에서 SOTA 달성.

방법

latent token — 각 raw evidence 를 작은 compressor LLM/VLM 으로 단일 고차원 latent token 으로 압축.
통합 공간 — query 도 같은 latent space 로 임베딩하여 retrieval 후, latent token 을 직접 generator 에 prompt.
학습 목표 — reconstruction, contrastive, distillation loss 를 end-to-end 로 결합해 token 이 retrieval·generation·재구성에 모두 유용하도록 설계.

한계·조건

추가 비용 — compressor 학습이 필요하며, end-to-end training 이므로 사전학습된 generator 를 그대로 쓰지 못함.
재현성 — 코드는 GitHub (zz1358m/Latent-Memory-Master) 에 공개.

편집자 한 줄

latent space 에서의 retrieval 이 raw text retrieval 보다 정보 손실이 적다는 게 흥미로운 포인트네요.

#rag
#latent-memory
#multimodal
#nus
#qa

National University of Singapore

원문 보기 →

NUS, 잠재 메모리로 RAG 토큰 소비 3~10배 절감 — 단일 latent token 으로 멀티모달 QA

핵심 결론

방법

한계·조건

Comments