Hypes·14시간 전
Noam Brown "추론 예산 무시하는 안전 평가는 무의미" — LLM 테스트타임 스케일링 2년째 무시
Noam Brown 이 LLM 테스트타임 컴퓨트 스케일링이 o1 이후 2년이 지났는데도 연구소들은 여전히 단일 추론 평가만 하고, 안전 조직들은 100배 추론으로 성능이 오르는 걸 매번 놀라며, RSP(책임 있는 스케일링 정책)는 임계값 결정에서 추론 예산을 무시한다고 지적했습니다. '추론 예산을 고려하지 않은 안전 평가는 무의미하다'는 신호로, 업계에 추론 스케일링을 안전 평가에 반영하라는 압박으로 읽힙니다.
- #noam-brown
- #openai
- #o1
- #test-time-compute
- #ai-safety
Noam Brown@polynoamial