Papers·어제
Tencent Hunyuan, PhoneBuddy 공개 — 혼합 RL로 실제 폰 조작 성공률 45.33%

Tencent Hunyuan 팀이 실제 폰과 모의 앱 환경을 결합한 PhoneBuddy 훈련 레시피를 공개했습니다. 150개 태스크 인간 평가에서 SFT 36.67% → 실제폰 RL 40.67% → 혼합 RL 45.33%로 성공률이 상승했고, AndroidWorld에서는 60.3% → 77.2% → 83.2%로 개선됩니다. 모의 환경은 실제폰 RL을 완전히 대체하지는 않지만 확장성과 자동 검증 가능한 보조 데이터로 유용하다는 점이 핵심입니다. 다만 긴 크로스앱 워크플로는 여전히 도전 과제로 남아 있습니다.
Tencent Hunyuan이 실제 폰과 모의 앱 환경을 결합한 PhoneBuddy 훈련 레시피와 오픈 모델을 공개했습니다.
핵심 결론
- 태스크 — 실제 폰 150개 태스크 인간 평가에서 SFT 36.67% → 실제폰 RL 40.67% → 혼합 RL 45.33%.
- AndroidWorld — 같은 순서로 60.3% → 77.2% → 83.2%로 개선.
- 핵심 메시지 — 모의 환경은 실제폰 RL을 대체하지 않지만, 확장성과 자동 검증이 가능한 보조 데이터로 유용합니다.
방법
- PhoneWorld — 실제 GUI 사용 구조에서 실행 가능한 모의 앱을 재구성한 환경.
- 훈련 레시피 — 두 환경에서 수집한 궤적으로 공유 SFT 후, 실제폰 RL과 혼합 RL을 비교.
- 혼합 RL이 실제폰 RL보다 일관되게 높은 성능을 보였습니다.
한계·조건
- 도전 과제 — 긴 크로스앱 워크플로에서는 성능 향상이 제한적이며, 여전히 열린 문제입니다.
- 환경 — 모의 환경은 실제폰의 지연, 상태 변화, 부작용을 완전히 재현하지 못합니다.
- 코드 — 모델과 환경은 공개 예정이며, 현재는 논문과 데모만 공개.
편집자 한 줄
모의 환경의 한계를 인정하면서도 실제 환경과의 결합 전략을 제시한 점이 인상적입니다. 크로스앱 태스크 개선이 후속 연구의 핵심이 될 듯합니다.
- #phone-agent
- #rl
- #tencent
- #hunyuan
Tencent Hunyuan