Papers·2개월 전

KAIST OmniRetrieval: 이종 지식 소스 통합 검색 — 13개 데이터셋에서 단일 소스 대비 우위

KAIST 팀이 텍스트, 관계형 테이블, 지식 그래프, 속성 그래프 등 구조적으로 다른 지식 소스를 하나의 자연어 질의로 검색할 수 있는 프레임워크 OmniRetrieval을 공개했습니다. 각 소스의 고유한 구조적 표현(스키마, 온톨로지, 연산자)을 유지한 채 소스별 네이티브 쿼리로 변환해 실행하는 방식으로, 13개 데이터셋·309개 지식 베이스 벤치마크에서 단일 소스 검색기를 능가했습니다. 다만 각 소스에 맞는 쿼리 변환 엔진과 실행기가 필요해 시스템 복잡도는 높아진 셈입니다.

KAIST 팀이 텍스트·테이블·그래프 등 이종 지식 소스를 통합 검색하는 OmniRetrieval 프레임워크를 공개했습니다.

핵심 결론

벤치 — 13개 데이터셋, 309개 지식 베이스에서 단일 소스 검색기 대비 평균 recall 5~12% 향상.
적용 — 자연어 질의 하나로 텍스트 문서, SQL 테이블, SPARQL 그래프, Cypher 속성 그래프를 동시에 검색 가능.

방법

라우터 — 질의를 분석해 적합한 소스를 식별하고, 각 소스의 네이티브 쿼리 언어(예: SQL, SPARQL, Cypher)로 변환하는 라우터 모듈이 핵심.
소스별 구조를 유지하기 때문에, 기존 검색기가 제공하는 스키마·조인·추론 기능을 그대로 활용할 수 있다는 장점이 있습니다.

한계·조건

복잡도 — 소스별 쿼리 변환 엔진과 실행기가 필요해 시스템 구축 비용이 단일 소스 대비 높습니다.
코드 — 현재 논문과 벤치마크만 공개, 코드는 추후 공개 예정.

편집자 한 줄

이종 소스 통합 자체는 새로운 아이디어가 아니지만, 각 소스의 구조를 유지한 채 라우팅하는 설계는 실용성 면에서 괜찮아 보입니다.

#retrieval
#knowledge-graph
#multi-source
#kaist

KAIST AI

원문 보기 →

KAIST OmniRetrieval: 이종 지식 소스 통합 검색 — 13개 데이터셋에서 단일 소스 대비 우위

핵심 결론

방법

한계·조건

Comments