Hypes·1개월 전
Noam Brown: 오늘날 추론 모델의 레시피는 AlphaGo와 놀랍도록 유사
Noam Brown이 오늘날 프론티어 추론 모델의 핵심 레시피가 AlphaGo와 유사하다고 지적: 1) 대량의 인간 데이터 모방, 2) 추론 시 컴퓨테이션 스케일링(당시 MCTS, 지금 CoT), 3) RL로 모방을 넘어서기. 이는 o1·o3 같은 모델의 설계 철학을 AlphaGo의 성공 공식에 연결하며, RL 기반 추론 개선이 앞으로 더 중요해질 신호로 읽힌다.
- #noam-brown
- #reasoning-models
- #alphago
- #reinforcement-learning
- #chain-of-thought
Noam Brown@polynoamial