Papers·2주 전
KAIST OmniRetrieval: 이종 지식 소스 통합 검색 — 13개 데이터셋에서 단일 소스 대비 우위

KAIST 팀이 텍스트, 관계형 테이블, 지식 그래프, 속성 그래프 등 구조적으로 다른 지식 소스를 하나의 자연어 질의로 검색할 수 있는 프레임워크 OmniRetrieval을 공개했습니다. 각 소스의 고유한 구조적 표현(스키마, 온톨로지, 연산자)을 유지한 채 소스별 네이티브 쿼리로 변환해 실행하는 방식으로, 13개 데이터셋·309개 지식 베이스 벤치마크에서 단일 소스 검색기를 능가했습니다. 다만 각 소스에 맞는 쿼리 변환 엔진과 실행기가 필요해 시스템 복잡도는 높아진 셈입니다.
KAIST 팀이 텍스트·테이블·그래프 등 이종 지식 소스를 통합 검색하는 OmniRetrieval 프레임워크를 공개했습니다.
핵심 결론
- 벤치 — 13개 데이터셋, 309개 지식 베이스에서 단일 소스 검색기 대비 평균 recall 5~12% 향상.
- 적용 — 자연어 질의 하나로 텍스트 문서, SQL 테이블, SPARQL 그래프, Cypher 속성 그래프를 동시에 검색 가능.
방법
- 라우터 — 질의를 분석해 적합한 소스를 식별하고, 각 소스의 네이티브 쿼리 언어(예: SQL, SPARQL, Cypher)로 변환하는 라우터 모듈이 핵심.
- 소스별 구조를 유지하기 때문에, 기존 검색기가 제공하는 스키마·조인·추론 기능을 그대로 활용할 수 있다는 장점이 있습니다.
한계·조건
- 복잡도 — 소스별 쿼리 변환 엔진과 실행기가 필요해 시스템 구축 비용이 단일 소스 대비 높습니다.
- 코드 — 현재 논문과 벤치마크만 공개, 코드는 추후 공개 예정.
편집자 한 줄
이종 소스 통합 자체는 새로운 아이디어가 아니지만, 각 소스의 구조를 유지한 채 라우팅하는 설계는 실용성 면에서 괜찮아 보입니다.
- #retrieval
- #knowledge-graph
- #multi-source
- #kaist
KAIST AI