← Back to feed
News·1주 전

LLM, 교사 대신 첨삭하다 — 전직 교수의 실험

전직 교사이자 현역 군인이었던 작성자가 LLM이 대학 과제 첨삭에 사용된다는 소식을 듣고 직접 실험했습니다. 자신이 예전에 사용하던 평가 기준과 감점 패턴을 LLM이 그대로 재현하는지 확인한 결과, Grok을 제외한 모든 모델이 피로한 교사처럼 감점했다고 합니다.

한 전직 교사가 LLM이 대학 첨삭에 사용된다는 이야기를 듣고 직접 실험해봤습니다.

골자

  • 배경작성자는 교사 시절의 평가 기준을 바탕으로 감점 패턴을 분석한 감사 보고서를 만들었습니다.
  • 실험자신이 직접 작성한 과제를 여러 LLM(GPT-4o, Grok 등)에 첨삭하게 한 뒤, 감사 보고서와 비교했습니다.
  • 결과Grok을 제외한 모든 모델이 예전 자신이 피로할 때 하던 감점 패턴을 그대로 따라 했습니다.

배경·맥락

  • 작성자는 교사에서 군인으로 전직한 후, LLM이 대학 과제 첨삭에 쓰인다는 소식을 접하고 충격을 받았다고 합니다.
  • GPT-4o가 역사적 사실조차 틀리는 모습을 본 경험이 있어, LLM 첨삭의 신뢰성에 의문을 품었다고 합니다.

편집자 한 줄

LLM의 첨삭이 인간 교사의 피로 패턴까지 모방한다는 점은 흥미롭지만, 표본이 1건이라는 한계가 있습니다.

  • #llm
  • #education
  • #grading
  • #experiment
LessWrong
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —