← Back to feed
Hypes·9시간 전

Gary Marcus, METR 평가 그래프에 '정확도 기준별 task horizon' 직접 표시 요청

Gary Marcus, METR 평가 그래프에 '정확도 기준별 task horizon' 직접 표시 요청

Gary Marcus 가 @METR_Evals 의 그래프에 정확도 기준(50%, 80%, 90%, 100%) 별 task horizon 하락을 같은 그래프 내에 라인으로 표시할 것을 제안했습니다. 또한 소프트웨어 엔지니어링 태스크임을 제목에 명시하라고 조언. 평가 투명성을 높이기 위한 실용적인 피드백이네요.

  • #gary-marcus
  • #metr
  • #evaluation
  • #ai-safety
Gary Marcus
Gary Marcus@GaryMarcus

Comments

— 첫 댓글을 남겨보세요 —