Papers·1개월 전

Peking University, 발표 영상 생성 에이전트 PresentAgent-2 — 싱글·토론·인터랙션 3가지 모드 지원

Peking University 팀이 사용자 질의로부터 발표 영상을 end-to-end 생성하는 에이전트 프레임워크 PresentAgent-2를 공개했습니다. 질의를 요약해 심층 리서치를 수행하고, 텍스트·이미지·GIF·비디오 등 멀티모달 자료를 수집한 뒤 슬라이드와 대본을 생성해 하나의 발표 영상으로 합성합니다. 싱글 발표, 다중 화자 토론, 청중 질문에 답변하는 인터랙션의 세 가지 모드를 하나의 프레임워크로 통합한 점이 특징이며, 각 모드별 평가 기준을 포함한 벤치마크도 함께 제공합니다. 단, 현재는 웹사이트와 코드만 공개된 상태로, 실제 사용 시의 계산 비용이나 확장성에 대한 정보는 아직 공개되지 않았습니다.

#presentation-generation
#multimodal
#agent
#peking-university

Peking University

원문 보기 →

Peking University, 발표 영상 생성 에이전트 PresentAgent-2 — 싱글·토론·인터랙션 3가지 모드 지원

Comments