News·1개월 전

CLR, SPI 비호환 행동·추론 평가 워크플로우 상세 가이드 공개

CLR(Collective Learning Research)이 안전한 파레토 개선(SPI) 의제의 일환으로, 모델의 SPI 비호환 행동과 추론을 평가하기 위한 상세 워크플로우를 공개했습니다. 초기 워크플로우, 지금까지 시도한 것의 다음 단계, 명백히 나쁜 'SPI 비호환성'의 기준을 제시합니다. 협력자를 찾고 있으며, 관심 있는 사람은 연락을 요청합니다.

CLR 이 SPI 비호환 행동·추론 평가를 위한 구체적인 실행 가이드를 공개했습니다.

골자

목적 — 모델이 SPI(안전한 파레토 개선)와 비호환되는 행동이나 추론을 하는지 평가하는 워크플로우를 제시.
구성 — 초기 워크플로우, 다음 단계, SPI 비호환성의 명확한 기준 세 가지로 나뉩니다.
협력 — 관심 있는 연구자는 연락을 통해 비공개 git 저장소에 초대받을 수 있습니다.

배경·맥락

이는 CLR 의 SPI 의제 Part I 에서 제시한 고수준 전략을 구체화한 후속 작업입니다.
SPI — 안전한 파레토 개선은 AI 시스템이 인간의 선호를 무시하지 않으면서도 효율성을 높이는 방향을 연구하는 프레임워크입니다.

자금 용처·향후

다음 단계 — 지금까지 시도한 평가 방법을 바탕으로 더 정교한 워크플로우를 개발할 계획입니다.
참여 — 외부 협력자를 적극 모집 중이며, 초기 단계부터 함께 논의할 수 있습니다.

편집자 한 줄

SPI 평가는 AI 안전성 연구에서 덜 알려진 접근이지만, CLR 은 이 프레임워크를 실제 평가 도구로 구체화하려는 시도를 하고 있습니다.

#clr
#spi
#evaluation
#ai-safety

LessWrong

원문 보기 →

CLR, SPI 비호환 행동·추론 평가 워크플로우 상세 가이드 공개

골자

배경·맥락

자금 용처·향후

Comments