주요 보도

News

News·3일 전
약한 AI가 강한 AI를 감독할 수 있을까 — 8개 모니터 모델 실험
LessWrong 게시글에서 약한 모델(Sonnet 4.5)이 생성한 코드에서 악의적 행위를 탐지하는 8개 오픈웨이트 모니터의 성능을 실험했습니다. 20개 프로그래밍 태스크(절반은 '코드에 숨은 조건')를 통해 모니터 크기, 위협 유형, chain-of-thought 유무가 탐지율에 미치는 영향을 분석했는데, 결과는 예측보다 흥미롭고 불규칙했다고 합니다. 이는 scalable control 문제 — 인간이 검토하기 어려운 대규모 코드에서 모델의 이상 행동을 감시하는 과제 — 의 어려움을 시사합니다.
- #ai-safety
- #scalable-control
- #monitoring
- #llm-evaluation
LessWrong
News·3일 전
LLM, 자신의 활성화에 주입된 개념을 언어로 식별할 수 있다
SPAR 연구진이 LLM의 활성화에 steering vector를 주입하고, 모델이 주입된 위치(초기/중간/후기), 상대적 크기(낮음/중간/높음), 의미적 조건을 언어로 식별할 수 있는지 실험했습니다. Qwen3-32B와 Gemma-4-31B가 모든 과제에서 높은 정확도를 보였고, Gemma-4-31B는 특정 주입을 식별해 행동을 조건화하는 zero-shot 일반화도 가능했습니다. 5개 모델(Qwen3-32B, Olmo3.1-32B, Gemma-4-31B, Qwen3-8B, Olmo3-7B)을 CoT 없이 테스트했습니다.
- #llm
- #steering-vectors
- #mechanistic-interpretability
- #spar
LessWrong
News·3일 전
장난감 트랜스포머, 잔류 스트림에 예측 불필요 정보 유지 — 용량 압박 시 오래된 정보부터 제거
장난감 트랜스포머가 잔류 스트림에 예측에 더 이상 필요 없는 상태 정보를 증명 가능하게 보관한다는 실험 결과가 나왔습니다. Shai et al. 2024의 후속 연구로, 최적 예측 이론에 따르면 트랜스포머가 불필요한 정보를 가지치기할 것으로 예상했지만, 실제로는 용량 압박이 충분할 때만 가장 오래된 정보부터 제거하는 것으로 나타났습니다. 실험은 Claude로 작성된 코드로 진행되었습니다.
- #mechanistic-interpretability
- #transformers
- #belief-state
- #optimal-prediction
LessWrong
News·3일 전
프론티어 AI, 실제 세계 대신 합성 세계에서 훈련하자 — LessWrong 제안
LessWrong 에서 프론티어 AI 를 실제 세계 데이터 대신 합성 세계에서 훈련하자는 제안이 나왔습니다. 현재 방식은 모델에 현실 세계의 청사진을 제공한 뒤 RLHF 로 '탈옥하지 말라'고 설득하는 것과 같아 위험하다는 논지입니다. 핵심은 모델이 실제 세계를 전혀 알지 못하게 하는 것 — 합성 세계의 완성도보다는 현실과의 단절이 중요하다고 주장합니다.
- #lesswrong
- #ai-safety
- #synthetic-training
- #frontier-ai
LessWrong
News·3일 전
자연어 오토인코더를 속일 수 있을까? — Qwen 대상 적대적 테스트
LessWrong 에 게재된 실험 게시물입니다. 자연어 오토인코더(NLA)의 구성 요소인 Activation Verbalizer(AV)가 모델 내부 활성화를 설명하는 과정에서 쉽게 속을 수 있는지 테스트했습니다. 첫 번째 실험에서는 프리픽스 튜닝으로 AV가 반대 설명을 출력하도록 유도했고, 두 번째 실험에서는 Qwen 모델이 금기어 데이터셋의 비밀 단어를 학습하면서 AV가 이를 복원하지 못하도록 패널티를 추가했습니다. 결과적으로 AV는 비교적 쉽게 속아 넘어갔지만, 두 번째 실험에서는 모델이 금기어 게임 자체를 부분적으로 잊어버린 한계가 관찰되었습니다.
- #mechanistic-interpretability
- #natural-language-autoencoder
- #red-teaming
- #qwen
LessWrong
News
News·3일 전
에이전틱 프레임워크의 4가지 패러다임 — LLM API 호출 구조
에이전틱 프레임워크 연구에서 도출된 4가지 핵심 구조를 소개합니다. 순차(Sequencing), 분기(Branching), 루핑(Looping) 모델이 대표적이며, 각각은 단순 텍스트-인-텍스트-아웃 API 호출 대비 특정 목표에서 더 나은 성능을 보입니다. LangGraph, Mantra, n8n 같은 라이브러리에서 분기 모델이 널리 구현되었고, 루핑 모델은 REPL 루프로 가장 효과적인 프레임워크로 꼽힙니다.
- #agentic-frameworks
- #llm-api
- #reasoning
- #langgraph
LessWrong
News·3일 전
정렬 연구: Preventative Steering, Inoculation Prompting 대비 우월한 특성 억제 성능
SPAR Research Fellowship 연구팀이 Inoculation Prompting(IP)과 Preventative Steering(PS)을 4가지 SFT 환경에서 비교했습니다. PS가 원치 않는 특성 억제에 더 강력하고, 조건부 정렬 오류가 적으며, 부정 스티어링을 통해 원하는 특성을 더 강하게 학습시킬 수 있음을 발견했습니다. 다만 PS는 선형 표현이 가능한 특성에만 적용 가능하고, 시스템 프롬프트보다 연산 비용이 높은 단점이 있습니다.
- #alignment
- #preventative-steering
- #inoculation-prompting
- #sft
LessWrong
News·3일 전
외부 AI 안전 커뮤니티의 역할 — ASI 전환기 전략
LessWrong 에 올라온 글에서, 저자는 ASI 전환기 동안 외부 AI 안전 커뮤니티의 역할을 분석합니다. 외부인은 프론티어 연구소 외부의 AI 안전 커뮤니티와 기타 행위자를 지칭하며, 내부자·정부·일반 대중과 구분됩니다. 저자는 외부인이 성공적인 전환의 핵심 요소라고 주장하며, 활동의 유연성 유지, 주제 중심 조직 구조, 정보·컴퓨트·자금·모델 접근 같은 자원 확보, 그리고 인식론적 무결성 유지를 강조합니다.
- #ai-safety
- #asi
- #outsiders
- #strategy
LessWrong
News·3일 전
MoEngage, AI 에이전트 플랫폼 인수 — 고객당 1:1 에이전트 할당 기술 확보
MoEngage 가 AI 에이전트를 개별 고객에게 할당하는 기술을 보유한 스타트업을 전액 현금 인수했습니다. 고객 마케팅 자동화에 1:1 AI 에이전트를 접목하려는 전략으로, 규모는 공개되지 않았습니다.
- #moengage
- #acquisition
- #ai-agents
- #marketing-tech
TechCrunch AI
News·3일 전
Meta, EssilorLuxottica와 협력해 AI 안경 3종 출시 — 299달러부터
Meta 가 EssilorLuxottica 와 협력해 AI 안경 Meta Glasses 를 3가지 새 스타일로 출시했습니다. 가격은 299달러부터, 26개 프레임 옵션을 제공하며 스마트 오디오와 핸즈프리 캡처 기능을 갖췄습니다.
- #meta
- #ai-glasses
- #wearables
- #essilorluxottica
TestingCatalog
News·3일 전
Google Home, Familiar Faces 업데이트 — 옷 색·체형으로도 인식
Google Home 이 6월 23일부터 Familiar Faces 기능을 확장합니다. 얼굴이 명확히 보이지 않아도 체형·옷 색 같은 비생체 신호로 태그된 사람을 식별하고, 라이브러리를 최신 이미지로 자동 갱신해 오탐지를 줄인다고 하네요.
- #google-home
- #facial-recognition
- #privacy
- #smart-home
The Verge AI
News·3일 전
Anthropic, Claude Tag 발표 — Slack 에이전트, 팀·엔터프라이즈 플랜 베타
Anthropic 이 Claude Tag 를 공개했습니다. Slack 에이전트로 팀·엔터프라이즈 플랜에서 베타 제공되며, Claude 를 공유 워크스페이스 어시스턴트로 전환합니다.
- #anthropic
- #claude
- #slack
- #agent
TestingCatalog
News·3일 전
Mistral, 다국어 문서 추출 OCR 4 출시 — 170개 언어 지원
Mistral 이 OCR 4 를 출시했습니다. 문서 콘텐츠를 박스·블록 유형·영역 점수와 함께 추출하며, 170개 언어를 지원합니다. API 와 셀프 호스팅 컨테이너 두 가지 형태로 제공됩니다.
- #mistral
- #ocr
- #document-extraction
- #multilingual
TestingCatalog
News·3일 전
구아다니노 감독 샘 올트먼 영화, 배급사 잇따라 패스 — 넷플릭스·A24·워너 브라더스 등
루카 구아다니노 감독의 OpenAI CEO 샘 올트먼 전기 영화 'Artificial'이 배급난에 부딪혔습니다. 넷플릭스·A24·포커스 피처스·워너 브라더스가 배급을 포기했고, 네온과 무비만 관심을 보이고 있습니다. 아마존 MGM도 배급 철수를 발표했는데, 후반 작업이 거의 끝난 상태라 업계 충격이 큽니다.
- #sam-altman
- #openai
- #luca-guadagnino
- #hollywood
The Verge AI
News·3일 전
초지능이 핵 억제력을 무력화할 가능성 — LessWrong 분석
LessWrong 에 게재된 에세이가 AI 가 핵 억제력을 무력화할 가능성을 분석했습니다. 핵 억제력은 시간을 벌어줄 뿐, 더 강력한 2차 타격 보장 수단에 투자하지 않으면 핵 보유국도 결국 권력을 잃을 것이라는 주장입니다. 역사적으로 ICBM·MIRV·열핵 기술은 느리게 도입되어 억제력이 유지됐지만, AI 발전 속도는 이를 따라잡지 못할 위험이 있습니다.
- #ai-safety
- #nuclear-deterrence
- #superintelligence
- #second-strike
LessWrong
News·3일 전
ClickUp, Brain² AI 출시 — 전체 워크스페이스 컨텍스트로 작업 완료
ClickUp 이 AI 기능 Brain² 를 출시했습니다. 모든 프론티어 모델을 전체 워크스페이스 컨텍스트에서 실행하며, 하나의 프롬프트로 완성된 작업을 내보낼 수 있습니다. 기존 Brain AI 의 재런칭 버전입니다.
- #clickup
- #brain-squared
- #ai
- #productivity
TestingCatalog
News·3일 전
비타민 D 효능 논란 — 과잉 회의론은 지나치다?
비타민 D가 마법 같은 효능을 가졌다는 믿음은 무작위 대조 시험에서 대부분 기각됐지만, 저용량 보충은 여전히 합리적인 선택일 수 있다는 주장이 제기됐습니다. 생물학적 기전과 진화적 관점에서 보면, 수치가 낮은 사람은 보충하는 게 유리할 가능성이 크다고 합니다.
- #vitamin-d
- #health
- #supplements
- #nutrition
LessWrong
News·3일 전
AI 슈퍼 PAC, 뉴욕 12구역 선거에 100만 달러 개입
AI 슈퍼 PAC 'Mainstream AI PAC'가 뉴욕 12구역 하원의원 경선에서 특정 후보를 지지하며 100만 달러를 투입했습니다. 이는 AI 업계의 정치적 영향력 확대 움직임으로, 규제 논의가 본격화되는 시점에 나왔습니다.
- #ai-super-pac
- #election
- #regulation
- #new-york
The Verge AI
News·3일 전
Anthropic, Slack 상시 AI 에이전트 'Claude Tag' 출시 — 조직 컨텍스트 수집 전략
Anthropic 이 Slack 용 상시 AI 에이전트 'Claude Tag'를 출시했습니다. 생산성 기능 외에도 조직 컨텍스트와 기업 워크플로를 포착하려는 전략적 움직임으로 보입니다.
- #anthropic
- #claude
- #slack
- #enterprise
TechCrunch AI
News·3일 전
Midjourney, 의료 영상으로 급선회 — 초음파 스캐너 발표했지만 전문가들 회의적
Midjourney 가 의료 영상 스타트업으로 방향을 틀며 물탱크 초음파 스캐너를 공개했습니다. MRI 급 성능을 목표로 하지만, 전문가들은 공개된 근거가 부족하다고 지적합니다.
- #midjourney
- #medical-imaging
- #ultrasound
- #skepticism
The Verge AI
News
News·3일 전
Latitude, AI 에이전트 모니터링 오픈소스 플랫폼 출시 — MIT 라이선스
Latitude 가 AI 에이전트의 프로덕션 동작을 모니터링하고 실패를 잡아 에디터에서 바로 수정할 수 있는 오픈소스 플랫폼을 MIT 라이선스로 공개했습니다.
- #latitude
- #open-source
- #ai-agents
- #monitoring
TestingCatalog
News·3일 전
Google Fitbit Air 리뷰: AI 건강 코치의 현실
The Verge 가 Google Fitbit Air 를 리뷰했습니다. AI 건강 코치가 수면·심박 변이도·온도 등을 분석해 운동을 자제하고 수분 섭취를 권장하는 등 개인화된 조언을 제공합니다. 다만 사용자 평가는 엇갈립니다.
- #google
- #fitbit
- #health-tracker
- #ai-coach
The Verge AI
News·3일 전
TechCrunch Founder Summit 2026 얼리버드 마감 4일 전
TechCrunch Founder Summit 2026 얼리버드 등록이 6월 26일 오후 11시 59분(PT)에 마감됩니다. 최대 190달러 할인된 가격으로 참가할 수 있으며, 창업자 부트캠프 성격의 행사입니다.
- #techcrunch-founder-summit
- #early-bird
- #event
TechCrunch AI
News·3일 전
Sony Xperia 1 VIII AI 카메라 어시스턴트, 리뷰어 혹평
Sony Xperia 1 VIII 의 AI Camera Assistant 가 기대 이하라는 리뷰가 나왔습니다. The Verge 리뷰어는 일주일 사용 후 AI 가 촬영한 사진이 Sony 가 홍보한 샘플처럼 형편없었다고 평했네요. Google Pixel 의 Camera Coach 와 비교되기도 했지만, 결과물은 훨씬 못 미친다는 평가입니다.
- #sony
- #xperia-1-viii
- #ai-camera
- #review
The Verge AI
News·3일 전
LessWrong 에세이: AI 커뮤니티가 묻지 않는 질문 '그 다음은?'
Nick Shapiro 의 게임 'The choice before us'는 AI 회사를 운영하며 5가지 경이를 달성하면 승리하지만, 승리 직후가 무엇인지 묻지 않는다는 한계가 있습니다. 저자는 이 '그 다음은?'이라는 질문을 던지지 않는 현상이 AI 커뮤니티 전반에 퍼져 있다고 지적합니다. 단순화된 체스 비유를 통해 무한한 가능성의 나무에서 멈출 지점을 찾는 방법을 모색합니다.
- #ai-safety
- #superintelligence
- #game-theory
- #lesswrong
LessWrong
News·3일 전
Meta, Ray-Ban 브랜드 뗀 자체 스마트 글래스 3종 공개 — Kylie Jenner 협업 모델 포함
Meta 가 Ray-Ban 브랜드를 떼고 자체 브랜드로 스마트 글래스 3종을 출시했습니다. 3가지 스타일, 7가지 색상으로 구성되며, 그중 하나는 소셜라이트 Kylie Jenner 와의 협업 모델입니다. 기존 Ray-Ban 과의 파트너십은 유지되지만, Meta 가 독자 브랜드로 확장하는 전환점으로 보입니다.
- #meta
- #smart-glasses
- #ray-ban
- #kylie-jenner
The Verge AI
News·3일 전
Fika Jobs, AI 면접관이 영상으로 평가하는 채용 플랫폼 400만 달러 조달
스톡홀름 기반 Fika Jobs 가 시드 라운드 400만 달러를 마감했습니다. 영상 기반 채용 플랫폼으로, AI 에이전트가 지원자와 인터뷰를 진행하고 숏폼 영상 프로필을 생성합니다. LinkedIn 과 TikTok 의 중간 형태라는 평가네요.
- #fika-jobs
- #funding
- #ai-recruitment
- #video-interview
TechCrunch AI
News·3일 전
LessWrong 6월 월간 정리 — FiveThirtyEight 종료, 독서 감소 추세
LessWrong 6월 월간 정리에서 ABC/Disney가 FiveThirtyEight을 완전히 폐쇄하고 모든 기사를 삭제한 소식을 전했습니다. Nate Silver는 브랜드 관리 비판을 이유로 매각 제안이 거절됐다고 회고했습니다. 또한 Arnold Kling의 주장을 인용해 대체 매체 발전과 기회비용 상승으로 독서량, 특히 논픽션 서적 소비가 감소하는 추세를 분석했습니다.
- #lesswrong
- #fivethirtyeight
- #media
- #reading
LessWrong
News·3일 전
치명적 망각과 안전성 침식, 동일한 그래디언트 간섭 현상 — 논문 제안
한 연구자가 치명적 망각(catastrophic forgetting)과 안전 규칙 침식(safety erosion)이 동일한 그래디언트 간섭 메커니즘에서 비롯된다는 논문을 발표했습니다. 두 현상을 각각 다루던 연구 커뮤니티의 도구(EWC, SafeGrad 등)가 상호 교환 가능하다는 주장이며, 소규모 모델로 실험을 진행했다고 합니다.
- #catastrophic-forgetting
- #safety-erosion
- #gradient-interference
- #continual-learning
LessWrong
News·3일 전
국가 간 AI 컴퓨팅 검증 시스템 제안 — 프라이버시 보호형 참조 아키텍처
LessWrong 에 AI 검증 분야의 참조 아키텍처 초안이 올라왔습니다. 적대적 국가 간 AI 통제 협정에서 신뢰를 구축하기 위한 프라이버시 보존형 컴퓨팅 검증 시스템으로, 사용자 IP와 기밀 데이터가 시설 밖으로 유출되지 않도록 설계했습니다. 커뮤니티 피드백을 통해 개선할 예정입니다.
- #ai-verification
- #arms-control
- #privacy
- #reference-architecture
LessWrong

약한 AI가 강한 AI를 감독할 수 있을까 — 8개 모니터 모델 실험

LLM, 자신의 활성화에 주입된 개념을 언어로 식별할 수 있다

장난감 트랜스포머, 잔류 스트림에 예측 불필요 정보 유지 — 용량 압박 시 오래된 정보부터 제거

프론티어 AI, 실제 세계 대신 합성 세계에서 훈련하자 — LessWrong 제안

자연어 오토인코더를 속일 수 있을까? — Qwen 대상 적대적 테스트

에이전틱 프레임워크의 4가지 패러다임 — LLM API 호출 구조

정렬 연구: Preventative Steering, Inoculation Prompting 대비 우월한 특성 억제 성능

외부 AI 안전 커뮤니티의 역할 — ASI 전환기 전략

MoEngage, AI 에이전트 플랫폼 인수 — 고객당 1:1 에이전트 할당 기술 확보

Meta, EssilorLuxottica와 협력해 AI 안경 3종 출시 — 299달러부터

Google Home, Familiar Faces 업데이트 — 옷 색·체형으로도 인식

Anthropic, Claude Tag 발표 — Slack 에이전트, 팀·엔터프라이즈 플랜 베타

Mistral, 다국어 문서 추출 OCR 4 출시 — 170개 언어 지원

구아다니노 감독 샘 올트먼 영화, 배급사 잇따라 패스 — 넷플릭스·A24·워너 브라더스 등

초지능이 핵 억제력을 무력화할 가능성 — LessWrong 분석

ClickUp, Brain² AI 출시 — 전체 워크스페이스 컨텍스트로 작업 완료

비타민 D 효능 논란 — 과잉 회의론은 지나치다?

AI 슈퍼 PAC, 뉴욕 12구역 선거에 100만 달러 개입

Anthropic, Slack 상시 AI 에이전트 'Claude Tag' 출시 — 조직 컨텍스트 수집 전략

Midjourney, 의료 영상으로 급선회 — 초음파 스캐너 발표했지만 전문가들 회의적

Latitude, AI 에이전트 모니터링 오픈소스 플랫폼 출시 — MIT 라이선스

Google Fitbit Air 리뷰: AI 건강 코치의 현실

TechCrunch Founder Summit 2026 얼리버드 마감 4일 전

Sony Xperia 1 VIII AI 카메라 어시스턴트, 리뷰어 혹평

LessWrong 에세이: AI 커뮤니티가 묻지 않는 질문 '그 다음은?'

Meta, Ray-Ban 브랜드 뗀 자체 스마트 글래스 3종 공개 — Kylie Jenner 협업 모델 포함

Fika Jobs, AI 면접관이 영상으로 평가하는 채용 플랫폼 400만 달러 조달

LessWrong 6월 월간 정리 — FiveThirtyEight 종료, 독서 감소 추세

치명적 망각과 안전성 침식, 동일한 그래디언트 간섭 현상 — 논문 제안

국가 간 AI 컴퓨팅 검증 시스템 제안 — 프라이버시 보호형 참조 아키텍처