Hypes·11시간 전
Ethan Mollick "선한 RL 데이터가 전반적 정렬 향상" — 정렬 연구 방향성 지지
Ethan Mollick 이 "악한" 데이터로 학습하면 전반적 정렬이 깨지는 연구가 있는데, 반대로 선한 RL 데이터가 여러 태스크에서 정렬을 개선한다는 결과가 나와 반갑다고 전했네요. RLHF 의 긍정적 효과를 실험으로 뒷받침하는 신호로, 정렬 연구의 방향성에 힘을 실어주는 포인트입니다.
- #ethan-mollick
- #alignment
- #rlhf
- #ai-safety
Ethan Mollick@emollick