Papers·5일 전
코딩 에이전트에 저장소 시각화를 섞으면 토큰 26% 절약 — SJTU 연구

상하이 자오퉁 대학 연구팀이 LLM 기반 코딩 에이전트에 저장소 구조 시각화(폴더 계층, 의존성 그래프)를 보조 입력으로 제공하면, 순수 텍스트 기반 대비 입력 토큰을 최대 26% 줄이면서도 이슈 해결 정확도를 유지 또는 개선할 수 있음을 실증했습니다. 시각 정보는 특히 결함 위치 추정(fault localization)과 에이전트가 탐색 깊이를 자율 제어할 때 효과적이었습니다. 단, 시각만으로는 기호 정보 부족으로 오히려 성능이 떨어지므로, 텍스트와 시각의 하이브리드 설계가 실용적이라는 결론입니다.
코딩 에이전트가 저장소를 텍스트로만 보는 건 인간 개발자와 다릅니다. SJTU 연구팀이 시각 구조를 섞으면 토큰을 아끼면서도 정확도는 유지된다는 첫 체계적 실험 결과를 내놨습니다.
핵심 결론
- 태스크 — 저장소 수준 이슈 해결(repository-level issue resolution)에서 네 가지 최신 MLLM 평가.
- 효과 — 시각 그래프를 텍스트에 보조로 추가 시 입력 토큰 26% 감소, 정확도 유지 또는 향상.
- 순수 시각 — 시각만으로는 기호 정보 부족으로 정확도 하락 및 토큰 비용 증가 — 반복적 시각 질의 발생.
방법
- 시각 표현 — 폴더 계층 트리, 의존성 그래프 등 저장소 구조를 이미지로 변환해 MLLM에 입력.
- 하이브리드 — 텍스트(코드, 문서)와 시각 그래프를 함께 제공하는 방식이 가장 효과적.
- 자율 탐색 — 에이전트가 탐색 깊이를 스스로 제어할 때 시각 정보의 효용이 특히 높음.
한계·조건
- 모델 — GPT-4V, Gemini Pro Vision 등 네 가지 MLLM만 평가 — 오픈소스 모델 미포함.
- 태스크 — 이슈 해결 벤치마크(SWE-bench 등)에 국한, 다른 소프트웨어 공학 태스크는 미검증.
- 재현성 — 코드 공개 여부는 논문에 명시되지 않음.
편집자 한 줄
시각 정보를 '대체'가 아닌 '보조'로 쓰는 설계 포인트가 실용적입니다. 토큰 절감 효과가 커서 실제 에이전트 파이프라인에 적용해볼 만합니다.
- #coding-agent
- #multimodal
- #repository-visualization
- #llm
- #sjtu
Shanghai Jiao Tong University