News·2개월 전

Trans-Humeanism: 귀납 문제와 AI 정렬의 새로운 관점

PIBBSS 펠로우가 귀납 문제를 AI 정렬에 적용한 'Trans-Humeanism' 프레임워크를 스케치했습니다. 고전 과학이 자연의 느린 변화 덕분에 귀납을 써왔다면, AI 시스템은 적극적으로 변화하기 때문에 정렬이 어렵다는 주장입니다. 아직 초기 아이디어지만, 정렬 문제를 새롭게 바라볼 수 있는 관점을 제시합니다.

귀납 문제를 AI 정렬에 적용한 새로운 프레임워크 'Trans-Humeanism'이 등장했습니다.

골자

핵심 주장 — 고전 과학은 자연이 느리게 변하기 때문에 귀납이 잘 통했지만, AI 시스템은 빠르게 변화하므로 귀납적 안전성 주장이 취약합니다.
비유 — 백조 관찰 중 새가 진화하지 않는 것과 달리, AI는 학습 중 행동이 바뀝니다.

배경·맥락

Hume의 귀납 문제 — Hume은 귀납이 논리적 정당성이 부족하다고 지적했습니다. 우리는 과거에 해가 떴으니 앞으로도 뜰 것이라고 믿지만, 그 근거는 순환적입니다.
현대 AI 안전 — Evals, red-teaming, circuit discovery 등 현재의 안전 기법은 대부분 귀납적입니다.

자금 용처·향후

향후 발전 — 저자는 PIBBSS 펠로우십을 시작하며 이 프레임워크를 더 발전시킬 시간이 없지만, 다른 연구자들이 빠르게 유용한 방향으로 확장할 수 있다고 봅니다.

편집자 한 줄

철학과 실용 AI 안전을 연결한 흥미로운 시도입니다. 다만 아직 스케치 수준이라 구체적인 방법론이 부족한 점은 아쉽네요.

#ai-safety
#induction
#alignment
#philosophy

LessWrong

원문 보기 →

Trans-Humeanism: 귀납 문제와 AI 정렬의 새로운 관점

골자

배경·맥락

자금 용처·향후

Comments