Papers·2일 전
데이터 엔지니어링을 소프트웨어 개발처럼 — OpenDataLab, 16개 분야에서 구조적 지식 기반·벤치마크·훈련 코퍼스 공개

OpenDataLab 팀이 텍스트에서 LLM으로 전문 지식을 안정적으로 전이하는 방법론 'Programming with Data'를 제안했습니다. 소스 코퍼스에서 추출한 구조적 지식 표현을 훈련 데이터와 평가의 공유 기반으로 삼아, 데이터 엔지니어링을 소프트웨어 개발 생애주기(데이터=코드, 훈련=컴파일, 벤치마크=단위 테스트, 데이터 수리=디버깅)에 대응시킨 것이 핵심입니다. 16개 분야(자연과학, 공학, 생의학, 사회과학)에 걸쳐 구조적 지식 베이스, 벤치마크 스위트, 훈련 코퍼스를 오픈소스로 공개했으며, 모델 규모와 아키텍처에 관계없이 일반 성능 저하 없이 일관된 개선을 보였다고 합니다. 단, 이 접근법은 구조화된 지식 표현을 추출할 수 있는 도메인에 한정된다는 점이 조건입니다.
- #data-engineering
- #llm
- #knowledge-transfer
- #opendatalab
OpenDataLab