Papers·6일 전
웹 규모 LLM 사전학습 코퍼스의 서사 구조 분석 — NarraBERT와 NarraDolma 공개

Culture, Language, & Systems Lab 팀이 3조 토큰 규모의 오픈 사전학습 코퍼스 Dolma에서 서사적 특성을 세밀하게 분석한 연구를 발표했습니다. 서사 이론에 기반해 행위주체성, 배경, 사건의 3개 요소를 11개 차원으로 정의하고, RoBERTa 기반 분류기 NarraBERT를 파인튜닝해 300만 개의 텍스트 구절에 적용했습니다. 그 결과 서사 구조가 이질적인 웹 데이터에서도 측정 가능하며, 현재의 데이터 선별 방식이 서사적 품질의 불균형을 고려하지 못하고 있음을 밝혔습니다. NarraDolma 데이터셋과 NarraBERT는 공개되었습니다.
3조 토큰 규모의 오픈 사전학습 코퍼스 Dolma에서 서사 구조를 체계적으로 분석한 첫 연구입니다.
핵심 결론
- 분석 규모 — Dolma 코퍼스 전체(3조 토큰)에서 300만 개 구절을 샘플링해 서사적 특성을 예측했습니다.
- 주요 발견 — 웹 텍스트는 연속적이고 다차원적인 서사 구조를 가지며, 서사적 품질이 데이터 소스와 주제에 따라 불균등하게 분포합니다.
- 의의 — 현재의 데이터 선별 방식은 서사적 품질을 측정하거나 반영하지 않아, 사전학습 데이터 구성이 서사 추론 능력에 미치는 영향을 연구할 기반을 제공합니다.
방법
- 서사 프레임워크 — 서사 이론에서 행위주체성(agency), 배경(setting), 사건(events)의 세 요소를 11개 해석 가능한 차원으로 정교화했습니다.
- 모델 학습 — 400개 구절을 수동 주석한 후 RoBERTa 기반의 NarraBERT를 파인튜닝해 미세한 서사 예측을 수행합니다.
- 데이터셋 — NarraBERT를 300만 구절에 적용해 생성한 NarraDolma 데이터셋을 공개했습니다.
한계·조건
- 주석 규모 — 수동 주석이 400개 구절로 제한되어, 모델의 일반화 가능성은 추가 검증이 필요합니다.
- 코퍼스 편향 — Dolma 자체가 특정 수집 방식(CommonCrawl 기반)에 의존하므로, 다른 코퍼스에서의 재현성은 확인되지 않았습니다.
- 공개 — NarraDolma와 NarraBERT는 공개되었으나, 전체 3조 토큰 중 300만 구절만 분석된 점은 유의해야 합니다.
편집자 한 줄
서사적 품질이 사전학습 데이터 선별에서 간과되는 요소라는 점을 실증적으로 보여준 연구네요. 다운스트림 태스크(예: 스토리 생성)와의 연관성은 아직 추론 수준이라 후속 연구가 기대됩니다.
- #llm
- #pretraining
- #narrative
- #dolma
- #narrabert
Culture, Language, & Systems Lab