← Back to feed
Papers·3일 전

LOCUS — 미국 9,239개 지방 조례를 한데 모은 법률 AI 코퍼스 공개

LOCUS — 미국 9,239개 지방 조례를 한데 모은 법률 AI 코퍼스 공개

Stanford 등 연구진이 미국 9,239개 시·군의 지방 조례를 수집한 LOCUS-v1 코퍼스를 공개했습니다. 기존 법률 AI 데이터셋이 연방·주 법률에 집중된 반면, 이번 작업은 주택·영업·공중보건 등 일상 규제를 다루는 지방 조례를 OCR로 디지털화한 점이 특징. 2,309개 카운티(미국 인구 대다수)를 커버하는 조화 레이어도 함께 제공하며, ModernBERT 기반 분류기로 조례의 불투명성·온정주의 등 척도를 분석할 수 있게 했습니다. 단, OCR 오류와 벤더별 포맷 차이는 여전히 한계로 남습니다.

미국 지방 조례 9,239개를 모은 LOCUS-v1 코퍼스가 공개되어 법률 AI 연구의 새로운 기준을 제시합니다.

핵심 결론

  • 규모9,239개 시·군의 조례 원문을 수집, 2,309개 카운티(미국 인구 대다수)용 조화 레이어 제공.
  • 분석ModernBERT 기반 분류기로 불투명성·온정주의 등 6개 차원을 자동 평가 가능.

방법

  • 수집Municode, American Legal Publishing 등 상용 벤더 사이트에서 크롤링, OCR로 PDF·HTML을 텍스트화.
  • 조화카운티 단위로 조례를 병합·정규화한 access layer를 별도 구축해 연구자가 바로 사용할 수 있게 함.
  • 분류기ModernBERT fine-tune: 6개 dimension(불투명성, 온정주의, 규제 밀도 등)에 대해 0.8~0.9 F1 달성.

한계·조건

  • OCR다양한 포맷에서 추출한 탓에 일부 조례에 OCR 오류가 포함되어 있음.
  • 커버리지모든 카운티를 포함하지 않으며, 특히 인구 희박 지역은 누락.
  • 라이선스raw corpus는 연구 목적으로만 공개, 상업적 사용은 제한적.

편집자 한 줄

지방 법률의 기계 가독성을 획기적으로 높인 데이터셋이지만, OCR 품질과 커버리지 편차는 후속 연구에서 보완되어야 할 부분입니다.

  • #legal-ai
  • #corpus
  • #modernbert
  • #stanford
LOCUS
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —