Hypes·1개월 전

Noam Brown "추론 예산 무시하는 안전 평가는 무의미" — LLM 테스트타임 스케일링 2년째 무시

Noam Brown 이 LLM 테스트타임 컴퓨트 스케일링이 o1 이후 2년이 지났는데도 연구소들은 여전히 단일 추론 평가만 하고, 안전 조직들은 100배 추론으로 성능이 오르는 걸 매번 놀라며, RSP(책임 있는 스케일링 정책)는 임계값 결정에서 추론 예산을 무시한다고 지적했습니다. '추론 예산을 고려하지 않은 안전 평가는 무의미하다'는 신호로, 업계에 추론 스케일링을 안전 평가에 반영하라는 압박으로 읽힙니다.

#noam-brown
#openai
#o1
#test-time-compute
#ai-safety

Noam Brown@polynoamial

원문 보기 →

Noam Brown "추론 예산 무시하는 안전 평가는 무의미" — LLM 테스트타임 스케일링 2년째 무시

Comments