Papers·1개월 전

ZJUNLP TokenPilot — LLM 에이전트 컨텍스트 비용 61~87% 절감하는 이중 관리

ZJUNLP 팀이 LLM 에이전트의 장기 세션에서 컨텍스트 비용을 61~87% 절감하는 TokenPilot 프레임워크를 공개했습니다. 전역적으로는 프롬프트 프리픽스를 안정화하는 Ingestion-Aware Compaction, 지역적으로는 태스크 관련성이 만료된 세그먼트만 제거하는 Lifecycle-Aware Eviction을 결합해 캐시 무효화 문제를 피한 점이 핵심입니다. PinchBench와 Claw-Eval에서 경쟁 성능을 유지했으며, LightMem2에 통합되어 GitHub에 공개되었습니다.

ZJUNLP 팀이 LLM 에이전트의 장기 세션에서 컨텍스트 비용을 61~87% 절감하는 TokenPilot 프레임워크를 공개했습니다.

핵심 결론

비용 절감 — PinchBench와 Claw-Eval에서 각각 61%와 87%까지 비용 절감 (continuous mode).
성능 유지 — 기존 시스템 대비 경쟁력 있는 성능을 유지하며, 캐시 무효화 문제를 해결.

방법

이중 관리 — 전역적으로 프롬프트 프리픽스를 안정화하는 Ingestion-Aware Compaction과 지역적으로 태스크 관련성이 만료된 세그먼트만 제거하는 Lifecycle-Aware Eviction을 결합.
기존 접근법(text pruning, dynamic eviction)은 프리픽스 불일치와 캐시 무효화를 유발했지만, TokenPilot은 시퀀스 변형을 최소화하여 이 문제를 해결합니다.

한계·조건

벤치마크 — PinchBench와 Claw-Eval 두 벤치마크에서만 평가되었으며, 더 다양한 도메인에서의 검증이 필요합니다.
코드 — LightMem2에 통합되어 GitHub에 공개되었습니다 (https://github.com/zjunlp/LightMem2).

편집자 한 줄

캐시 무효화 문제를 실용적으로 해결한 점이 인상적이며, 특히 기존 방법과의 호환성을 고려한 설계가 눈에 띕니다.

#llm-agents
#context-management
#token-efficiency
#zjunlp

ZJUNLP

원문 보기 →

ZJUNLP TokenPilot — LLM 에이전트 컨텍스트 비용 61~87% 절감하는 이중 관리

핵심 결론

방법

한계·조건

Comments