← Back to feed
Hypes·14시간 전

Noam Brown "추론 예산 무시하는 안전 평가는 무의미" — LLM 테스트타임 스케일링 2년째 무시

Noam Brown 이 LLM 테스트타임 컴퓨트 스케일링이 o1 이후 2년이 지났는데도 연구소들은 여전히 단일 추론 평가만 하고, 안전 조직들은 100배 추론으로 성능이 오르는 걸 매번 놀라며, RSP(책임 있는 스케일링 정책)는 임계값 결정에서 추론 예산을 무시한다고 지적했습니다. '추론 예산을 고려하지 않은 안전 평가는 무의미하다'는 신호로, 업계에 추론 스케일링을 안전 평가에 반영하라는 압박으로 읽힙니다.

  • #noam-brown
  • #openai
  • #o1
  • #test-time-compute
  • #ai-safety
Noam Brown
Noam Brown@polynoamial
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —