Papers·1개월 전

Microsoft, 스프레드시트 사용자 행동 예측 벤치마크 공개 — 52개 시퀀스·12K 액션

Microsoft 연구진이 스프레드시트에서 사용자 행동을 예측하는 시스템을 평가하기 위한 벤치마크를 제안했습니다. 공개 코퍼스에 편집 이력이 없는 문제를 해결하기 위해 파라미터화된 휴리스틱과 LLM 정제로 52개 시퀀스(12K 액션)를 수동 큐레이션했고, 복잡한 액션 공간(공간·시간·복합)을 처리하기 위해 온라인 평가 방식을 도입했습니다. 제로샷 LLM, 파인튜닝된 SLM, 고전 모델 등 다양한 기준선을 비교했으며, 저장된 액션의 특성, 거짓 양성, 효율성, 사용자 프로필 영향 등을 분석했습니다.

Microsoft가 스프레드시트 사용자 행동 예측을 위한 첫 번째 벤치마크를 공개했습니다.

핵심 결론

벤치마크 — 52개 시퀀스, 12K 액션으로 구성된 수동 큐레이션 데이터셋.
평가 방식 — 각 사용자 액션 후 예측을 수행하고, 수락/거절 후 미래 액션을 갱신하는 온라인 평가.
기준선 — 제로샷 LLM, 파인튜닝 SLM, 고전 모델 등 다양한 예측기 비교.

방법

데이터 생성 — 공개 스프레드시트 코퍼스에서 편집 이력이 없으므로, 휴리스틱과 LLM으로 액션 시퀀스를 재현.
온라인 평가 — 예측이 수락되면 해당 액션을 적용하고, 거절되면 다음 액션을 기다리는 반복 과정.
액션 공간은 공간(셀 이동), 시간(순서), 복합(여러 셀 편집)을 포함합니다.

한계·조건

데이터 규모 — 52개 시퀀스는 비교적 작은 규모로, 일반화 가능성은 추가 검증 필요.
코드 공개 — 논문에서 데이터와 평가 코드 공개 여부는 명시되지 않았습니다.

편집자 한 줄

스프레드시트 자동 완성은 코드 자동 완성에 비해 연구가 부족한 분야인데, 이 벤치마크가 후속 연구를 자극할 만합니다.

#spreadsheet
#code-completion
#benchmark
#microsoft

Microsoft

원문 보기 →

Microsoft, 스프레드시트 사용자 행동 예측 벤치마크 공개 — 52개 시퀀스·12K 액션

핵심 결론

방법

한계·조건

Comments