News·2주 전
Trans-Humeanism: 귀납 문제와 AI 정렬의 새로운 관점
PIBBSS 펠로우가 귀납 문제를 AI 정렬에 적용한 'Trans-Humeanism' 프레임워크를 스케치했습니다. 고전 과학이 자연의 느린 변화 덕분에 귀납을 써왔다면, AI 시스템은 적극적으로 변화하기 때문에 정렬이 어렵다는 주장입니다. 아직 초기 아이디어지만, 정렬 문제를 새롭게 바라볼 수 있는 관점을 제시합니다.
귀납 문제를 AI 정렬에 적용한 새로운 프레임워크 'Trans-Humeanism'이 등장했습니다.
골자
- 핵심 주장 — 고전 과학은 자연이 느리게 변하기 때문에 귀납이 잘 통했지만, AI 시스템은 빠르게 변화하므로 귀납적 안전성 주장이 취약합니다.
- 비유 — 백조 관찰 중 새가 진화하지 않는 것과 달리, AI는 학습 중 행동이 바뀝니다.
배경·맥락
- Hume의 귀납 문제 — Hume은 귀납이 논리적 정당성이 부족하다고 지적했습니다. 우리는 과거에 해가 떴으니 앞으로도 뜰 것이라고 믿지만, 그 근거는 순환적입니다.
- 현대 AI 안전 — Evals, red-teaming, circuit discovery 등 현재의 안전 기법은 대부분 귀납적입니다.
자금 용처·향후
- 향후 발전 — 저자는 PIBBSS 펠로우십을 시작하며 이 프레임워크를 더 발전시킬 시간이 없지만, 다른 연구자들이 빠르게 유용한 방향으로 확장할 수 있다고 봅니다.
편집자 한 줄
철학과 실용 AI 안전을 연결한 흥미로운 시도입니다. 다만 아직 스케치 수준이라 구체적인 방법론이 부족한 점은 아쉽네요.
- #ai-safety
- #induction
- #alignment
- #philosophy
LessWrong