Papers·2개월 전

Tencent Hunyuan GenClaw — 코드 기반 에이전트 이미지 생성, 사람처럼 구상→스케치→채색

Tencent Hunyuan 팀이 GenClaw를 공개했습니다. 기존 이미지 생성 에이전트가 블랙박스 모델에 의존해 프롬프트 재작성만 반복하는 한계를 넘어, 코드(SVG, HTML, Three.js)를 중간 캔버스로 활용해 구상→스케치→채색의 3단계로 이미지를 생성합니다. 코드 기반이라 수정과 제어가 용이하며, 최종적으로 텍스처와 사실감을 생성 모델로 보강합니다. 단, 현재는 개념 증명 수준으로 다양한 도메인에서의 일반화 성능은 추가 검증이 필요합니다.

Tencent Hunyuan이 제안한 GenClaw는 코드를 중간 표현으로 삼아 이미지 생성을 구상·스케치·채색 단계로 분해하는 에이전트 패러다임입니다.

핵심 결론

패러다임 — 기존 text-to-image 의 프롬프트 재작성 루프 대신, LLM이 코드를 직접 조작해 이미지를 구성합니다.
단계 — 구상(검색+추론) → 스케치(코드 렌더링) → 채색(생성 모델로 텍스처 보강)의 3단계로 동작합니다.

방법

코드 캔버스 — SVG, HTML, Three.js 같은 코드 포맷을 중간 표현으로 사용해, LLM이 직접 픽셀을 제어할 수 있습니다.
에이전트 워크플로 — 먼저 검색과 추론으로 개념적 지식을 구성하고, 코드로 스케치를 생성한 뒤, 생성 모델로 사실감을 추가합니다.
코드 기반이므로 사람이 중간 결과를 수정하거나 특정 부분만 재생성할 수 있어 제어성이 높습니다.

한계·조건

평가 — 논문은 주로 개념 증명과 일부 예시를 제시하며, 정량적 벤치마크나 사용자 연구는 아직 공개되지 않았습니다.
범위 — 코드로 표현 가능한 구조(도형, 레이아웃)에 적합하지만, 복잡한 텍스처나 디테일은 생성 모델에 의존합니다.
코드 — 현재 코드 공개 여부는 불확실합니다.

편집자 한 줄

코드를 매개로 한 생성은 제어성 측면에서 흥미로운 방향이지만, 실제 사용성은 코드 생성 능력과 생성 모델의 품질에 크게 좌우될 듯합니다.

#image-generation
#agent
#code-driven
#tencent
#svg

Tencent Hunyuan

원문 보기 →

Tencent Hunyuan GenClaw — 코드 기반 에이전트 이미지 생성, 사람처럼 구상→스케치→채색

핵심 결론

방법

한계·조건

Comments