Papers·3일 전
PhotoFlow: LLM 기반 가상 사진 에이전트 — 3D 장면에서 언어 조건으로 촬영 성공률 1위

Visionary-Laboratory가 공개한 PhotoFlow는 Director-Reviewer-Reflector 세 모듈로 구성된 폐루프 카메라 탐색 에이전트로, 47개 Blender 장면과 141개 언어 조건 촬영 임무로 구성된 VPhotoBench에서 기존 방법 대비 외부 품질-정렬 복합 점수와 성공률에서 가장 높은 성능을 기록했습니다. 핵심은 Director가 부드러운 사진 청사진을 생성해 다양한 후보 카메라를 제안하고, Reviewer가 규칙 검사, 시각적 비평, 쌍별 선택을 결합하며, Reflector가 실패를 지역 메모리와 사각지대 억제로 전환해 재탐색하는 구조입니다. 다만 6회 렌더링 예산 내에서 실험되었고, 임의의 Blender 장면을 대상으로 한 첫 접근이므로 일반화 가능성은 추가 검증이 필요합니다.
- #virtual-photography
- #spatial-agent
- #llm
- #blender
- #vision-language
Visionary-Laboratoary