Papers·3일 전
LOCUS — 미국 9,239개 지방 조례를 한데 모은 법률 AI 코퍼스 공개

Stanford 등 연구진이 미국 9,239개 시·군의 지방 조례를 수집한 LOCUS-v1 코퍼스를 공개했습니다. 기존 법률 AI 데이터셋이 연방·주 법률에 집중된 반면, 이번 작업은 주택·영업·공중보건 등 일상 규제를 다루는 지방 조례를 OCR로 디지털화한 점이 특징. 2,309개 카운티(미국 인구 대다수)를 커버하는 조화 레이어도 함께 제공하며, ModernBERT 기반 분류기로 조례의 불투명성·온정주의 등 척도를 분석할 수 있게 했습니다. 단, OCR 오류와 벤더별 포맷 차이는 여전히 한계로 남습니다.
미국 지방 조례 9,239개를 모은 LOCUS-v1 코퍼스가 공개되어 법률 AI 연구의 새로운 기준을 제시합니다.
핵심 결론
- 규모 — 9,239개 시·군의 조례 원문을 수집, 2,309개 카운티(미국 인구 대다수)용 조화 레이어 제공.
- 분석 — ModernBERT 기반 분류기로 불투명성·온정주의 등 6개 차원을 자동 평가 가능.
방법
- 수집 — Municode, American Legal Publishing 등 상용 벤더 사이트에서 크롤링, OCR로 PDF·HTML을 텍스트화.
- 조화 — 카운티 단위로 조례를 병합·정규화한 access layer를 별도 구축해 연구자가 바로 사용할 수 있게 함.
- 분류기 — ModernBERT fine-tune: 6개 dimension(불투명성, 온정주의, 규제 밀도 등)에 대해 0.8~0.9 F1 달성.
한계·조건
- OCR — 다양한 포맷에서 추출한 탓에 일부 조례에 OCR 오류가 포함되어 있음.
- 커버리지 — 모든 카운티를 포함하지 않으며, 특히 인구 희박 지역은 누락.
- 라이선스 — raw corpus는 연구 목적으로만 공개, 상업적 사용은 제한적.
편집자 한 줄
지방 법률의 기계 가독성을 획기적으로 높인 데이터셋이지만, OCR 품질과 커버리지 편차는 후속 연구에서 보완되어야 할 부분입니다.
- #legal-ai
- #corpus
- #modernbert
- #stanford
LOCUS