Papers·2일 전
ART: 시각 입력 최적화로 LLM 미세 조정 — LoRA 수준 성능, vLLM 호환

Qwen 아키텍처 기반 MLLM에서 ART(Art-based Reinforcement Training) 방식이 LoRA와 경쟁력 있는 정확도를 수학·도구 사용 벤치마크에서 달성했습니다. ART는 frozen MLLM의 raw 시각 입력(pixel array)만 최적화하여 soft prompt 효과를 내며, vLLM 같은 고처리량 엔진에서도 수정 없이 동작합니다. 단, 이 방식은 시각 입력이 있는 MLLM에 한정되며, 텍스트 전용 LLM에는 적용이 어렵다는 조건이 붙습니다.
기존 PEFT(LoRA, Soft Prompting)는 vLLM 같은 고처리량 엔진과 호환되지 않는 문제를, 시각 입력 최적화로 해결한 접근입니다.
핵심 결론
- 벤치 — 수학(GSM8K, MATH) 및 도구 사용(API-Bank) 벤치마크에서 LoRA 대비 1%p 내외 차이로 경쟁력 있는 정확도.
- 모델 — Qwen2-VL 7B/72B 등 다양한 크기에서 일관된 성능을 확인했습니다.
방법
- 핵심 아이디어 — MLLM의 시각 인코더와 LLM 전체를 freeze하고, 입력 이미지의 픽셀 배열만 gradient descent로 최적화합니다.
- 호환성 — 최적화된 시각 입력은 일반 이미지와 동일한 포맷이므로 vLLM 등 pre-compiled 엔진에서 추가 수정 없이 추론 가능합니다.
- 스타일화 — 최적화된 픽셀을 task-relevant computational artwork 형태로 시각화할 수 있는 부가 효과가 있습니다.
한계·조건
- 적용 범위 — 시각 입력이 있는 MLLM에만 적용 가능 — 텍스트 전용 LLM에는 이 방법이 동작하지 않습니다.
- 최적화 비용 — 픽셀 배열을 직접 최적화하므로 LoRA보다 학습 시간이 다소 길 수 있습니다.
- 코드 — Hugging Face에 코드 및 예제가 공개되어 있습니다.
편집자 한 줄
vLLM 호환 PEFT가 필요하다면 흥미로운 대안이지만, MLLM 전용이라는 점은 사용처를 제한합니다.
- #peft
- #lora
- #mllm
- #qwen
- #vllm
Michal Chudoba