Papers·2주 전
NSF-SciFy: 280만 개 과학 주장 데이터셋 — 제로샷 추출로 100% 이상 성능 향상

Delip Rao 팀이 NSF 보상 초록에서 추출한 280만 개 과학 주장 데이터셋 NSF-SciFy를 공개했습니다. 40만 개 초록, 전 학문 분야를 포괄하며, 제로샷 프롬프팅으로 주장과 연구 제안을 동시 추출하는 확장 가능한 방법을 제시합니다. 세 가지 하위 태스크(비기술적 초록 생성, 주장 추출, 연구 제안 추출)에서 파인튜닝 시 상대적 성능이 100% 이상 향상되었으나, 추출 재현율은 낮아 개선 여지가 있습니다.
NSF 보상 초록 40만 개에서 280만 개 과학 주장을 추출한 대규모 데이터셋 NSF-SciFy가 공개되었습니다.
핵심 결론
- 규모 — 280만 개 주장, 40만 개 초록, 전 학문 분야 포함 — 기존 과학 주장 검증 데이터셋보다 크기와 범위에서 큰 도약입니다.
- 하위 집합 — 재료과학 11.4만 건(NSF-SciFy-MatSci)과 5개 NSF 국별 13.5만 건(NSF-SciFy-20K)도 함께 제공됩니다.
- 성능 — 파인튜닝 시 주장 및 연구 제안 추출에서 상대적 성능 100% 이상 향상, 비기술적 초록 생성에서도 유의미한 개선.
방법
- 추출 방식 — 제로샷 프롬프팅을 사용해 과학 주장과 연구 제안을 동시에 추출하는 확장 가능한 파이프라인을 구축했습니다.
- 오류 분석 — 추출된 주장은 정밀도는 높지만 재현율이 낮아, 방법론적 개선이 필요함을 시사합니다.
한계·조건
- 재현율 — 추출 재현율이 낮아 주장의 일부만 포착 — 향후 recall 개선 방안이 필요합니다.
- 데이터 범위 — NSF 보상 초록만을 대상으로 하므로, 다른 연구비 기관이나 학술 논문으로의 일반화는 추가 검증이 필요합니다.
- 코드·데이터 — GitHub에 코드와 데이터가 공개되어 재현 가능합니다.
편집자 한 줄
과학 주장 검증 연구에 실용적인 규모의 데이터셋이지만, recall 문제를 해결하지 않으면 실제 검증 파이프라인에 통합하기엔 무리가 있어 보입니다.
- #scientific-claim-verification
- #dataset
- #nsf
- #zero-shot
Delip Rao