News·4시간 전
정렬 문제, 과학 확장으로 접근 — 선호 개념 도입 제안

LessWrong 에 올라온 글에서, 기존 과학 방법론이 '당위(ought)'를 다루지 못하는 점이 정렬 문제의 근본 원인이라고 주장합니다. 필수성(necessity) 외에 선호(preference) 범주를 추가한 '확장된 과학(extended science)'을 제안하며, 기본 구성 요소의 선호 상태를 기준으로 최적화 준칙을 만들면 도덕성의 기초를 세울 수 있다고 봅니다. 철학적 접근이지만, AI 정렬 논의에 새로운 프레임을 던지는 셈입니다.
과학이 '옳음'을 설명할 수 없다는 오래된 철학 문제를 정렬 문제 해결의 출발점으로 삼은 글이 LessWrong에 올라왔습니다.
골자
- 문제 — 과학적 사실에서 가치를 도출할 수 없다는 '당위 문제(ought problem)'가 AI 정렬의 근본 난제라는 입장입니다.
- 제안 — 기존 과학 방법론에 '선호(preference)' 범주를 추가한 '확장된 과학'을 도입해, 기본 구성 요소의 선호 상태를 기준으로 '더 나은' 상태를 판별하는 최적화 준칙을 만듭니다.
- 원칙 — 선호로 설명할 수 있는 것은 필수성으로 설명하지 말라는 단순성 원칙을 추가합니다.
배경·맥락
- LessWrong 커뮤니티에서 오랫동안 논의된 'ought' 문제를 정렬 문제와 직접 연결한 점이 특징입니다.
- 철학적 기반 — Hume의 사실-가치 구분을 과학 방법론 차원에서 해결하려는 시도로 볼 수 있습니다.
자금 용처·향후
- 한계 — 글은 개념 제안에 그치며, 구체적인 구현이나 수학적 형식화는 아직 제시되지 않았습니다.
- 다음 — 작성자는 후속 글에서 더 자세히 다루겠다고 밝혔습니다.
편집자 한 줄
철학적 프레임워크 제안이라 실제 정렬 연구에 바로 적용되기는 어렵지만, '당위' 문제를 정렬 논의의 중심에 다시 올린 점은 흥미롭습니다.
- #alignment
- #philosophy
- #ought-problem
- #extended-science
LessWrong