Papers·1주 전
Stability AI, RL로 레이어 분해 개선 — VLM 보상으로 비지도 파인튜닝

Stability AI 팀이 VLM 피드백만으로 레이어 분해 모델을 강화학습(Flow-GRPO + LoRA)으로 파인튜닝하는 Stable-Layers 프레임워크를 공개했습니다. 핵심은 VLM이 개별 샘플을 평가할 때 점수가 좁은 범위에 몰리는 문제를 해결하기 위해, 5개 편집 중심 기준의 구조화된 평가와 그리드 기반 보정을 도입한 2단계 평가 파이프라인입니다. Crello 데이터셋에서 레이어 분리도가 향상되고 빈 레이어·아티팩트가 줄었으며, 재구성 오차도 낮아졌습니다.
Stability AI가 VLM 보상만으로 레이어 분해 모델을 강화학습으로 개선한 Stable-Layers를 발표했습니다.
핵심 결론
- 태스크 — 레이어 분해 — 이미지를 의미 있는 레이어(전경, 배경, 효과 등)로 분리.
- 개선 — Crello 데이터셋에서 레이어 분리도 향상, 빈 레이어·아티팩트 감소, 재구성 오차 감소.
- 방식 — VLM 피드백만으로 파인튜닝, paired supervision 불필요.
방법
- 기반 모델 — Qwen-Image-Layered를 출발점으로 Flow-GRPO + LoRA 적용.
- 보상 설계 — VLM이 개별 샘플을 평가하면 점수 분산이 작아 GRPO 학습이 어려움 → 2단계 평가 파이프라인 도입.
- 1단계 — 5개 편집 중심 기준(레이어 분리도, 아티팩트 없음 등)으로 구조화된 per-sample scoring.
- 2단계 — 그리드 기반 보정: 모든 후보를 나란히 배치해 VLM이 재평가, 상대적 순위로 보상 신호 강화.
한계·조건
- 데이터셋 — Crello 데이터셋 기준 평가, 다른 도메인 일반화는 미확인.
- 리소스 — VLM 추론 비용이 추가로 들며, GRPO 샘플링 수에 따라 계산량 증가.
- 코드 — Hugging Face에 모델 가중치 공개 예정 (현재 abstract만 확인 가능).
편집자 한 줄
VLM 자체를 보상 모델로 활용하는 접근은 RLHF와 유사하지만, paired data 없이도 가능하다는 점이 흥미롭습니다. 다만 VLM의 판단 편향이 학습에 어떤 영향을 줄지 후속 분석이 필요해 보입니다.
- #reinforcement-learning
- #layer-decomposition
- #vlm
- #stability-ai
- #flow-grpo
Stability AI