← Back to feed
Papers·3일 전

MLS-Bench: AI가 일반화·확장 가능한 ML 방법을 스스로 발명할 수 있을까

MLS-Bench: AI가 일반화·확장 가능한 ML 방법을 스스로 발명할 수 있을까

Bohan Lyu 팀이 AI 시스템이 기존 방법을 적용하는 것을 넘어, 일반화·확장 가능한 ML 방법을 스스로 발명할 수 있는지 평가하는 벤치마크 MLS-Bench를 공개했습니다. 12개 도메인 140개 태스크로 구성되며, 현재 에이전트는 인간 설계 방법을 확실히 능가하지 못했고, 진정한 방법 발명보다 엔지니어링 튜닝에 더 강했습니다. 분석 결과, 병목은 새로운 방법 제안뿐 아니라 계획·검증·확장에 필요한 과학적 통찰력에 있으며, 단순히 검색·연산·컨텍스트를 늘리는 것으로는 해결되지 않습니다.

Bohan Lyu

Comments

— 첫 댓글을 남겨보세요 —