Papers·3일 전
PianoKontext: 플로우 매칭으로 클래식 피아노 연주 표현 생성 — 가변 길이 렌더링

PianoKontext는 플로우 매칭 기반 오디오 편집 모델로, MIDI 악보를 데드팬 오디오로 합성한 후 Dynamic Time Warping(DTW)으로 정렬하여 가변 길이의 표현적 연주를 생성합니다. Music2Latent 잠재 공간에서 DiT 블록을 통해 악보와 연주 간 의존성을 학습하며, 기존 고정 길이 방식의 한계를 넘어섭니다. 데모 페이지에서 샘플을 청취할 수 있습니다.
PianoKontext는 MIDI 악보를 입력으로 받아 표현적이고 가변 길이의 클래식 피아노 연주를 생성하는 플로우 매칭 모델입니다.
핵심 결론
- 태스크 — Expressive Performance Rendering (EPR) — MIDI 악보로부터 자연스러운 연주 오디오 생성.
- 방식 — 플로우 매칭을 사용해 Music2Latent 잠재 공간에서 가변 길이 연주를 생성.
- 개선 — 기존 고정 길이 동기화 샘플 대신 DTW 정렬로 가변 템포와 표현 타이밍을 학습.
방법
- 데이터 구성 — MIDI 악보를 데드팬(무표정) 오디오로 합성하고, 실제 연주와 DTW로 정렬해 쌍을 만듭니다.
- 모델 구조 — 정렬된 임베딩을 DiT 블록에서 연결(concatenate)하여 악보와 연주 간 의존성을 간단히 학습.
- 잠재 공간 — 사전 학습된 Music2Latent 모델의 잠재 공간에서 작동하므로 오디오 품질과 효율을 확보.
한계·조건
- 도메인 — 클래식 피아노 전용 — 다른 악기나 장르로의 일반화는 검증되지 않음.
- 데이터 — DTW 정렬은 MIDI-오디오 쌍이 필요하며, 대규모 데이터셋 구축이 선행되어야 함.
- 공개 — 데모 페이지에서 오디오 샘플 제공, 코드와 모델 가중치 공개 여부는 미정.
편집자 한 줄
플로우 매칭을 EPR에 적용한 점이 신선하지만, DTW 정렬의 계산 비용과 도메인 제약이 실제 사용성을 제한할 수 있겠네요.
- #flow-matching
- #piano
- #music-generation
- #epr
- #audiomodeling
Dmitrii Gavrilev