← Back to feed
News·2시간 전

AGI 타임라인 연장, 위험 분포를 바꾼다 — 통제 vs 오용 트레이드오프

AGI 타임라인 연장, 위험 분포를 바꾼다 — 통제 vs 오용 트레이드오프

AGI 타임라인이 길어질수록 정렬 연구 시간이 늘어 위험을 줄인다는 일반적 가정과 달리, 위험 유형이 전환될 수 있다는 분석이 나왔습니다. 짧은 타임라인에서는 실수로 인한 정렬 실패(misalignment)가 주된 위험이지만, 긴 타임라인에서는 고의적 오용(misuse)과 사보타지 위험이 커진다는 주장입니다. 이에 따라 최고 기대값(EV)을 가진 개입도 '정렬 연구'에서 'AI 보안'으로 이동할 수 있습니다.

AGI 타임라인이 길어질수록 위험이 단순히 감소하는 것이 아니라, 실수 기반 위험에서 고의적 오용 위험으로 분포가 이동할 수 있다는 주장입니다.

골자

  • 핵심 주장긴 타임라인은 실수로 인한 정렬 실패 위험은 줄이지만, 적대적 오용과 사보타지 위험을 증가시킵니다.
  • 메커니즘정렬 연구가 실패율을 따라잡으면(fix rate > failure rate) 우발적 오정렬은 억제되지만, 그 시간 동안 공격자도 능력을 키워 주된 위협이 됩니다.
  • 시사점타임라인에 따라 최고 기대값을 가진 개입이 '정렬 연구'에서 'AI 보안'으로 이동합니다.

배경·맥락

  • 저자는 취약점 연구 및 중요 인프라 보안 배경을 가졌으며, AI 검증과 보안의 관계를 분석합니다.
  • 인력 병목AI 정렬 분야 수요는 공급을 초과하며, MATS 합격률이 2023년 대비 2025년 약 11%p 하락했습니다.

시나리오별 위협 전환

  • 짧은 타임라인실패율이 수정률을 앞지르면 통제 불가능한 오정렬 누적이 주된 위험입니다.
  • 긴 타임라인수정률이 실패율을 앞지르면 고의적 오용이 주된 위협이 됩니다.

편집자 한 줄

타임라인 연장이 단순히 '시간을 번다'는 프레임을 깨는 지점입니다. 정렬 커뮤니티의 전략적 우선순위 재조정이 필요할 수 있습니다.

  • #ai-safety
  • #alignment
  • #timelines
  • #misuse
  • #ai-security
LessWrong
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —