News·4시간 전
모델 스펙에 어떤 항목을 넣을지 결정하는 체크리스트 — LessWrong
LessWrong 에서 AI 회사가 모델 스펙에 특정 품질(규칙, 미덕, 태도 등)을 포함할 때 고려할 네 가지 기준 범주를 제안했습니다. 행동적 유용성, 책임성과 평가 가능성, 조정과 공통 지식, 훈련 가능성과 LLM 심리학으로 나뉘며, 각각의 하위 기준을 체크리스트 형태로 정리했습니다. 이는 모델 스펙을 지지하는 사람들 사이의 목적 차이(conflationary alliance)를 인식하고, 각 항목의 포함 여부를 체계적으로 검토하기 위한 도구입니다.
AI 회사가 모델 스펙에 특정 품질을 포함할 때 고려할 네 가지 기준 범주와 하위 체크리스트를 LessWrong 에서 제안했습니다.
골자
- 목적 — 모델 스펙에 어떤 항목을 넣을지 결정할 때 검토할 체크리스트를 제시합니다.
- 배경 — 모델 스펙을 지지하는 사람들 사이에 사용 목적이 서로 달라 이상적인 스펙이 다를 수 있다는 점(conflationary alliance)을 인식하고, 이를 조율하기 위한 도구입니다.
- 범주 — 네 가지 기준: 행동적 유용성, 책임성과 평가 가능성, 조정과 공통 지식, 훈련 가능성과 LLM 심리학.
배경·맥락
- LessWrong 커뮤니티는 AI 정렬과 안전에 깊은 관심을 가지며, 모델 스펙은 LLM 의 행동을 명시적으로 규정하는 문서입니다.
- 이 글은 특정 품질(예: 친사회적 동기, 내부고발, 산타에 대한 정직함 등)을 예시로 들어 각 기준을 설명합니다.
네 가지 기준
- 행동적 유용성 — 해당 행동이 현재와 미래의 LLM 을 사용자나 대중에게 더 유용하게 만드는가?
- 책임성과 평가 가능성 — 공개적으로 명시함으로써 제3자가 LLM 과 회사를 평가하기 쉬워지는가?
- 조정과 공통 지식 — 공개 명시가 사회가 AI 행동에 대한 바람직한 표준을 수렴하거나 강제하는 데 도움이 되는가?
- 훈련 가능성과 LLM 심리학 — 해당 행동을 LLM 이 잘 수행하도록 만들 수 있고, 부작용이 없는가? 모델 심리학과 훈련 관행에 기반해 판단.
편집자 한 줄
체크리스트 자체는 중립적이지만, 실제로 어떤 항목이 포함될지는 회사의 가치 판단과 외부 압력에 크게 좌우될 것입니다.
- #model-spec
- #ai-safety
- #llm
- #alignment
- #lesswrong
LessWrong