Papers·6일 전
GENEB: 유전체 파운데이션 모델 40종을 100개 태스크로 진단한 통합 벤치마크

유전체 파운데이션 모델의 성능을 체계적으로 비교할 수 있는 대규모 진단 벤치마크 GENEB가 공개되었습니다. 40개 모델을 13개 기능 범주의 100개 태스크에서 평가한 결과, 모델 순위가 태스크 범주에 따라 크게 달라지고, 스케일 효과는 일관되지 않으며, 아키텍처와 사전학습 정렬이 파라미터 수보다 더 중요한 경우가 많다는 점을 밝혔습니다. 단, 평가가 probing 기반이라는 점과 태스크 간 trade-off가 존재한다는 한계가 있습니다.
유전체 파운데이션 모델의 성능 비교를 위한 통합 진단 벤치마크 GENEB가 공개되었습니다.
핵심 결론
- 범위 — 40개 유전체 파운데이션 모델을 13개 기능 범주의 100개 태스크에서 probing 기반으로 평가.
- 주요 발견 — 모델 순위는 태스크 범주에 따라 크게 달라지며, 스케일 효과는 미미하고 불일치합니다.
- 아키텍처와 사전학습 정렬이 파라미터 수보다 성능에 더 큰 영향을 주는 경우가 많습니다.
방법
- 프로토콜 — frozen representation에 linear probing을 적용하여 few-shot 및 full-shot 설정에서 평가.
- 태스크 — 유전체 기능 예측, 변이 효과, 조절 요소 등 13개 범주, 100개 태스크로 구성.
- 통제 변수로 모델 규모, 아키텍처, 토크나이저, 사전학습 데이터를 명시적으로 비교합니다.
한계·조건
- 평가 방식 — probing 기반 평가로, fine-tuning이나 전체 모델 비교와는 차이가 있을 수 있습니다.
- 태스크 커버리지 — 100개 태스크가 유전체 전체를 대표하지는 않으며, 특정 범주에 편향될 가능성이 있습니다.
- 코드와 데이터는 공개 예정이나 현재는 논문과 부록만 제공됩니다.
편집자 한 줄
유전체 AI 분야의 벤치마크 혼란을 해소하려는 시도 자체는 의미 있지만, probing 결과가 실제 downstream fine-tuning 성능과 얼마나 일치할지는 추가 검증이 필요해 보입니다.
- #genomic-foundation-models
- #benchmark
- #evaluation
- #probing
Daria Ledneva