← Back to feed
Papers·2주 전

KAIST OmniRetrieval: 이종 지식 소스 통합 검색 — 13개 데이터셋에서 단일 소스 대비 우위

KAIST OmniRetrieval: 이종 지식 소스 통합 검색 — 13개 데이터셋에서 단일 소스 대비 우위

KAIST 팀이 텍스트, 관계형 테이블, 지식 그래프, 속성 그래프 등 구조적으로 다른 지식 소스를 하나의 자연어 질의로 검색할 수 있는 프레임워크 OmniRetrieval을 공개했습니다. 각 소스의 고유한 구조적 표현(스키마, 온톨로지, 연산자)을 유지한 채 소스별 네이티브 쿼리로 변환해 실행하는 방식으로, 13개 데이터셋·309개 지식 베이스 벤치마크에서 단일 소스 검색기를 능가했습니다. 다만 각 소스에 맞는 쿼리 변환 엔진과 실행기가 필요해 시스템 복잡도는 높아진 셈입니다.

KAIST 팀이 텍스트·테이블·그래프 등 이종 지식 소스를 통합 검색하는 OmniRetrieval 프레임워크를 공개했습니다.

핵심 결론

  • 벤치13개 데이터셋, 309개 지식 베이스에서 단일 소스 검색기 대비 평균 recall 5~12% 향상.
  • 적용자연어 질의 하나로 텍스트 문서, SQL 테이블, SPARQL 그래프, Cypher 속성 그래프를 동시에 검색 가능.

방법

  • 라우터질의를 분석해 적합한 소스를 식별하고, 각 소스의 네이티브 쿼리 언어(예: SQL, SPARQL, Cypher)로 변환하는 라우터 모듈이 핵심.
  • 소스별 구조를 유지하기 때문에, 기존 검색기가 제공하는 스키마·조인·추론 기능을 그대로 활용할 수 있다는 장점이 있습니다.

한계·조건

  • 복잡도소스별 쿼리 변환 엔진과 실행기가 필요해 시스템 구축 비용이 단일 소스 대비 높습니다.
  • 코드현재 논문과 벤치마크만 공개, 코드는 추후 공개 예정.

편집자 한 줄

이종 소스 통합 자체는 새로운 아이디어가 아니지만, 각 소스의 구조를 유지한 채 라우팅하는 설계는 실용성 면에서 괜찮아 보입니다.

  • #retrieval
  • #knowledge-graph
  • #multi-source
  • #kaist
KAIST AI
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —