Papers·1주 전
FINESSE-Bench: LLM 금융 역량 계층 평가 벤치마크 — 3,993문항, CFA·CMT 수준

FINESSE-Bench는 LLM의 금융 전문 역량을 계층적으로 평가하기 위해 8개 서브벤치마크, 총 3,993문항으로 구성된 평가 도구입니다. CFA L1~L3, CMT L2, CFTe L1 등 전문 자격증 수준의 문제와 트레이딩 태스크, 러시아어 올림피아드 문제를 포함해 난이도별 성능 저하와 계산 능력을 측정합니다. LLM-as-judge 자동 채점 방식을 도입했지만, 벤치마크가 영어와 러시아어에 한정되고 실제 금융 업무와의 괴리 가능성은 한계로 남습니다.
- #llm
- #finance
- #benchmark
- #evaluation
Dmitry Stanishevskii