News·2주 전
"측정되지 않은 변수" — 통계학 용어 통일의 필요성

연구 중 수집하지 않은 데이터를 지칭하는 용어가 분야마다 다르다는 지적입니다. 경제학에서는 'omitted', 역학에서는 'unmeasured variable', 통계학에서는 'missing data' 라고 부르는데, 저자는 'unmeasured' 가 가장 직관적이라고 제안합니다. 이 용어 혼란은 학제 간 협업에서 실제로 문제가 되고 있다고 하네요.
연구에서 수집하지 않은 데이터를 뭐라고 부를까요? 분야마다 다른 용어가 혼란을 일으키고 있습니다.
골자
- 문제 — 키·몸무게·눈 색깔은 기록했지만 머리카락 색깔은 기록하지 않은 상황을 예시로 듭니다.
- 용어 혼란 — 이런 데이터는 'observable'도 'latent'도 아닌데, 분야마다 부르는 이름이 다릅니다.
분야별 용어
- 경제학 — 'omitted'가 일반적이며, 'unobserved'는 latent와 혼용될 때가 많습니다.
- 통계학 — 결측 데이터(missing data)라는 하위 분야가 따로 있을 정도로 중요하게 다룹니다.
- 역학·생물통계 — 'unmeasured variable'이라고 부릅니다.
- 저자의 선택 — 가장 직관적인 'unmeasured'를 쓰기로 결정했습니다.
배경·맥락
- 저자는 두 LLM에게 물어본 결과가 일치해서 이를 신뢰했다고 밝힙니다.
- 함께 일하는 동료가 수학·통계·물리·공학 용어를 섞어 쓰는 바람에 혼란이 가중된다고 덧붙입니다.
편집자 한 줄
용어 통일은 학제 간 연구의 작지만 실질적인 걸림돌이죠. 'unmeasured'라는 선택이 널리 퍼질지 지켜볼 만합니다.
- #statistics
- #terminology
- #methodology
LessWrong