← Back to feed
Papers·어제

NUS, 잠재 메모리로 RAG 토큰 소비 3~10배 절감 — 단일 latent token 으로 멀티모달 QA

NUS, 잠재 메모리로 RAG 토큰 소비 3~10배 절감 — 단일 latent token 으로 멀티모달 QA

National University of Singapore 팀이 기존 RAG 의 raw text/image 대신 latent space 의 단일 고차원 토큰으로 메모리를 대체하는 Latent Memory 를 제안했습니다. 7개 text QA 와 멀티모달 QA 벤치마크에서 기존 RAG 대비 generator token 소비를 3~10배 줄이면서도 경쟁력 있는 성능을 유지했고, WebQA 에서 최고 이미지 QA 성능을 기록했습니다. 단, 작은 compressor LLM/VLM 을 추가로 학습해야 하므로 end-to-end 학습 비용이 듭니다.

NUS 가 RAG 의 토큰 병목을 latent space 로 해결한 Latent Memory 를 공개했습니다.

핵심 결론

  • 태스크text QA (HotpotQA 등 7개) 와 멀티모달 QA (WebQA 등) 에서 평가.
  • 개선폭기존 RAG 대비 generator token 소비 3~10배 감소, 성능은 유사하거나 우수.
  • 최고 성능WebQA 이미지 QA 에서 SOTA 달성.

방법

  • latent token각 raw evidence 를 작은 compressor LLM/VLM 으로 단일 고차원 latent token 으로 압축.
  • 통합 공간query 도 같은 latent space 로 임베딩하여 retrieval 후, latent token 을 직접 generator 에 prompt.
  • 학습 목표reconstruction, contrastive, distillation loss 를 end-to-end 로 결합해 token 이 retrieval·generation·재구성에 모두 유용하도록 설계.

한계·조건

  • 추가 비용compressor 학습이 필요하며, end-to-end training 이므로 사전학습된 generator 를 그대로 쓰지 못함.
  • 재현성코드는 GitHub (zz1358m/Latent-Memory-Master) 에 공개.

편집자 한 줄

latent space 에서의 retrieval 이 raw text retrieval 보다 정보 손실이 적다는 게 흥미로운 포인트네요.

  • #rag
  • #latent-memory
  • #multimodal
  • #nus
  • #qa
National University of Singapore
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —