← Back to feed
Papers·어제

Tencent Hunyuan, PhoneBuddy 공개 — 혼합 RL로 실제 폰 조작 성공률 45.33%

Tencent Hunyuan, PhoneBuddy 공개 — 혼합 RL로 실제 폰 조작 성공률 45.33%

Tencent Hunyuan 팀이 실제 폰과 모의 앱 환경을 결합한 PhoneBuddy 훈련 레시피를 공개했습니다. 150개 태스크 인간 평가에서 SFT 36.67% → 실제폰 RL 40.67% → 혼합 RL 45.33%로 성공률이 상승했고, AndroidWorld에서는 60.3% → 77.2% → 83.2%로 개선됩니다. 모의 환경은 실제폰 RL을 완전히 대체하지는 않지만 확장성과 자동 검증 가능한 보조 데이터로 유용하다는 점이 핵심입니다. 다만 긴 크로스앱 워크플로는 여전히 도전 과제로 남아 있습니다.

Tencent Hunyuan이 실제 폰과 모의 앱 환경을 결합한 PhoneBuddy 훈련 레시피와 오픈 모델을 공개했습니다.

핵심 결론

  • 태스크실제 폰 150개 태스크 인간 평가에서 SFT 36.67% → 실제폰 RL 40.67% → 혼합 RL 45.33%.
  • AndroidWorld같은 순서로 60.3% → 77.2% → 83.2%로 개선.
  • 핵심 메시지모의 환경은 실제폰 RL을 대체하지 않지만, 확장성과 자동 검증이 가능한 보조 데이터로 유용합니다.

방법

  • PhoneWorld실제 GUI 사용 구조에서 실행 가능한 모의 앱을 재구성한 환경.
  • 훈련 레시피두 환경에서 수집한 궤적으로 공유 SFT 후, 실제폰 RL과 혼합 RL을 비교.
  • 혼합 RL이 실제폰 RL보다 일관되게 높은 성능을 보였습니다.

한계·조건

  • 도전 과제긴 크로스앱 워크플로에서는 성능 향상이 제한적이며, 여전히 열린 문제입니다.
  • 환경모의 환경은 실제폰의 지연, 상태 변화, 부작용을 완전히 재현하지 못합니다.
  • 코드모델과 환경은 공개 예정이며, 현재는 논문과 데모만 공개.

편집자 한 줄

모의 환경의 한계를 인정하면서도 실제 환경과의 결합 전략을 제시한 점이 인상적입니다. 크로스앱 태스크 개선이 후속 연구의 핵심이 될 듯합니다.

  • #phone-agent
  • #rl
  • #tencent
  • #hunyuan
Tencent Hunyuan
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —