News·3시간 전
AI 안전 연구팀 창설 4개월의 교훈 — Arcadia Impact, UK AISI와 협력
Arcadia Impact 산하 정렬 연구팀이 4개월간의 운영 경험을 공유했습니다. 8인 팀으로 UK AISI 정렬팀과 협력 중이며, 모델 동기 이해·확장 가능한 감독·자동화 정렬 연구 등 세 가지 프로젝트를 진행 중입니다. AISI 정렬 프로젝트 펀딩과 Coefficient Giving의 컴퓨트 지원을 받아 시작했습니다.
Arcadia Impact 산하 정렬 연구팀이 4개월간 팀을 구축하며 얻은 교훈을 정리했습니다.
골자
- 팀 규모 — 런던 기반 8인 팀, UK AISI 정렬팀과 긴밀히 협업 중.
- 주요 프로젝트 — 모델 동기 이해(행동 기반 문서 생성, 정렬 훈련 분석), 확장 가능한 감독(토론 프로토콜 검증), 자동화 정렬 연구 파이프라인 구축.
- 자금 — AISI 정렬 프로젝트 펀딩과 Coefficient Giving의 컴퓨트 지원으로 시작.
배경·맥락
- Arcadia Impact는 이미 LASR Labs와 ASET을 통해 AISI와 협력해왔습니다.
- 연구 리드 — Andrew Draganov(PhD in CS/ML)가 LASR 참여 중 합류, 업무 확장에 따라 역할이 넓어졌습니다.
자금 용처·향후
- 채용 — 현재 두 포지션을 채용 중입니다.
편집자 한 줄
AI 안전 연구가 점점 창업적 성격을 띠는 흐름 속에서, 실무 팀 구축 경험을 공유한 점이 인상적입니다.
- #ai-safety
- #alignment
- #arcadia-impact
- #aisi
- #research-team
LessWrong