Hypes·1개월 전

Ethan Mollick "선한 RL 데이터가 전반적 정렬 향상" — 정렬 연구 방향성 지지

Ethan Mollick 이 "악한" 데이터로 학습하면 전반적 정렬이 깨지는 연구가 있는데, 반대로 선한 RL 데이터가 여러 태스크에서 정렬을 개선한다는 결과가 나와 반갑다고 전했네요. RLHF 의 긍정적 효과를 실험으로 뒷받침하는 신호로, 정렬 연구의 방향성에 힘을 실어주는 포인트입니다.

#ethan-mollick
#alignment
#rlhf
#ai-safety

Ethan Mollick@emollick

원문 보기 →

Ethan Mollick "선한 RL 데이터가 전반적 정렬 향상" — 정렬 연구 방향성 지지

Comments