← Back to feed
Papers·2일 전

ZJUNLP TokenPilot — LLM 에이전트 컨텍스트 비용 61~87% 절감하는 이중 관리

ZJUNLP TokenPilot — LLM 에이전트 컨텍스트 비용 61~87% 절감하는 이중 관리

ZJUNLP 팀이 LLM 에이전트의 장기 세션에서 컨텍스트 비용을 61~87% 절감하는 TokenPilot 프레임워크를 공개했습니다. 전역적으로는 프롬프트 프리픽스를 안정화하는 Ingestion-Aware Compaction, 지역적으로는 태스크 관련성이 만료된 세그먼트만 제거하는 Lifecycle-Aware Eviction을 결합해 캐시 무효화 문제를 피한 점이 핵심입니다. PinchBench와 Claw-Eval에서 경쟁 성능을 유지했으며, LightMem2에 통합되어 GitHub에 공개되었습니다.

ZJUNLP 팀이 LLM 에이전트의 장기 세션에서 컨텍스트 비용을 61~87% 절감하는 TokenPilot 프레임워크를 공개했습니다.

핵심 결론

  • 비용 절감PinchBench와 Claw-Eval에서 각각 61%와 87%까지 비용 절감 (continuous mode).
  • 성능 유지기존 시스템 대비 경쟁력 있는 성능을 유지하며, 캐시 무효화 문제를 해결.

방법

  • 이중 관리전역적으로 프롬프트 프리픽스를 안정화하는 Ingestion-Aware Compaction과 지역적으로 태스크 관련성이 만료된 세그먼트만 제거하는 Lifecycle-Aware Eviction을 결합.
  • 기존 접근법(text pruning, dynamic eviction)은 프리픽스 불일치와 캐시 무효화를 유발했지만, TokenPilot은 시퀀스 변형을 최소화하여 이 문제를 해결합니다.

한계·조건

  • 벤치마크PinchBench와 Claw-Eval 두 벤치마크에서만 평가되었으며, 더 다양한 도메인에서의 검증이 필요합니다.
  • 코드LightMem2에 통합되어 GitHub에 공개되었습니다 (https://github.com/zjunlp/LightMem2).

편집자 한 줄

캐시 무효화 문제를 실용적으로 해결한 점이 인상적이며, 특히 기존 방법과의 호환성을 고려한 설계가 눈에 띕니다.

  • #llm-agents
  • #context-management
  • #token-efficiency
  • #zjunlp
ZJUNLP
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —