Papers·2일 전
PIPE-Cypher: 엔터프라이즈 속성 그래프용 Text2Cypher 벤치마크 자동 생성 파이프라인

UCSD 팀이 엔터프라이즈 속성 그래프에 특화된 Text2Cypher 벤치마크를 자동 생성하는 파이프라인 PIPE-Cypher를 공개했습니다. 스키마 프로파일링, 역쿼리 기반 grounding, 제약 조건 생성, 실행 검증, 다양성 제어, 로컬 LLM 판정(Qwen3.5-9B)을 결합해 3,000개의 FinBench/SNB 예제를 생성했으며, zero-shot 전이 성능이 낮고 few-shot 예제가 모델 계열에 따라 도움이 되는 등 변별력 있는 벤치마크임을 확인했습니다. 단, 생성된 벤치마크는 특정 그래프에 종속적이어서 일반화에는 한계가 있습니다.
UCSD 팀이 엔터프라이즈 속성 그래프용 Text2Cypher 벤치마크를 자동 생성하는 파이프라인 PIPE-Cypher를 공개했습니다.
핵심 결론
- 벤치마크 — 3,000개의 FinBench/SNB 예제를 생성, zero-shot 전이 성능이 낮고 few-shot 예제가 모델 계열에 따라 도움이 되는 변별력 있는 벤치마크입니다.
- 평가 — 11개 로컬 다운스트림 모델을 평가, Qwen3.5-9B 기반 생성 및 판정을 사용했습니다.
방법
- 파이프라인 — 스키마 프로파일링, 역쿼리 기반 grounding, 제약 조건 생성, 실행 검증, 다양성 제어, 로컬 LLM 판정을 결합합니다.
- 생성 — 고객 질문, 분석 로그, 에이전트 툴 호출 등에서 시드 쿼리를 추출해 균형 잡힌 NL-to-Cypher 쌍을 생성합니다.
- 판정 — 로컬 Qwen3.5-9B 모델로 생성과 판정을 모두 수행, 인간 레이블로 보정했습니다.
한계·조건
- 일반화 — 벤치마크는 특정 그래프에 종속적이어서 다른 그래프에는 재사용이 어렵습니다.
- 리소스 — 파이프라인 실행에는 로컬 LLM 추론이 필요하며, 대규모 그래프에서는 시간이 소요될 수 있습니다.
- 코드 — GitHub에 공개 예정입니다.
편집자 한 줄
엔터프라이즈 환경에서 Text2Cypher 벤치마크를 반복 가능하게 만든 점이 실용적입니다. 다만 생성된 벤치마크의 일반화 가능성은 제한적이어서, 각 그래프마다 파이프라인을 다시 돌려야 한다는 점이 번거로울 수 있겠네요.
- #text2cypher
- #benchmark
- #property-graph
- #ucsd
University of California at San Diego