News·1개월 전

AI 안전 연구팀 창설 4개월의 교훈 — Arcadia Impact, UK AISI와 협력

Arcadia Impact 산하 정렬 연구팀이 4개월간의 운영 경험을 공유했습니다. 8인 팀으로 UK AISI 정렬팀과 협력 중이며, 모델 동기 이해·확장 가능한 감독·자동화 정렬 연구 등 세 가지 프로젝트를 진행 중입니다. AISI 정렬 프로젝트 펀딩과 Coefficient Giving의 컴퓨트 지원을 받아 시작했습니다.

Arcadia Impact 산하 정렬 연구팀이 4개월간 팀을 구축하며 얻은 교훈을 정리했습니다.

골자

팀 규모 — 런던 기반 8인 팀, UK AISI 정렬팀과 긴밀히 협업 중.
주요 프로젝트 — 모델 동기 이해(행동 기반 문서 생성, 정렬 훈련 분석), 확장 가능한 감독(토론 프로토콜 검증), 자동화 정렬 연구 파이프라인 구축.
자금 — AISI 정렬 프로젝트 펀딩과 Coefficient Giving의 컴퓨트 지원으로 시작.

배경·맥락

Arcadia Impact는 이미 LASR Labs와 ASET을 통해 AISI와 협력해왔습니다.
연구 리드 — Andrew Draganov(PhD in CS/ML)가 LASR 참여 중 합류, 업무 확장에 따라 역할이 넓어졌습니다.

자금 용처·향후

채용 — 현재 두 포지션을 채용 중입니다.

편집자 한 줄

AI 안전 연구가 점점 창업적 성격을 띠는 흐름 속에서, 실무 팀 구축 경험을 공유한 점이 인상적입니다.

#ai-safety
#alignment
#arcadia-impact
#aisi
#research-team

LessWrong

원문 보기 →

AI 안전 연구팀 창설 4개월의 교훈 — Arcadia Impact, UK AISI와 협력

골자

배경·맥락

자금 용처·향후

Comments