Hypes·9시간 전
Gary Marcus, METR 평가 그래프에 '정확도 기준별 task horizon' 직접 표시 요청
Gary Marcus 가 @METR_Evals 의 그래프에 정확도 기준(50%, 80%, 90%, 100%) 별 task horizon 하락을 같은 그래프 내에 라인으로 표시할 것을 제안했습니다. 또한 소프트웨어 엔지니어링 태스크임을 제목에 명시하라고 조언. 평가 투명성을 높이기 위한 실용적인 피드백이네요.
- #gary-marcus
- #metr
- #evaluation
- #ai-safety
Gary Marcus@GaryMarcus