← Back to feed
Papers·3일 전

PianoKontext: 플로우 매칭으로 클래식 피아노 연주 표현 생성 — 가변 길이 렌더링

PianoKontext: 플로우 매칭으로 클래식 피아노 연주 표현 생성 — 가변 길이 렌더링

PianoKontext는 플로우 매칭 기반 오디오 편집 모델로, MIDI 악보를 데드팬 오디오로 합성한 후 Dynamic Time Warping(DTW)으로 정렬하여 가변 길이의 표현적 연주를 생성합니다. Music2Latent 잠재 공간에서 DiT 블록을 통해 악보와 연주 간 의존성을 학습하며, 기존 고정 길이 방식의 한계를 넘어섭니다. 데모 페이지에서 샘플을 청취할 수 있습니다.

PianoKontext는 MIDI 악보를 입력으로 받아 표현적이고 가변 길이의 클래식 피아노 연주를 생성하는 플로우 매칭 모델입니다.

핵심 결론

  • 태스크Expressive Performance Rendering (EPR) — MIDI 악보로부터 자연스러운 연주 오디오 생성.
  • 방식플로우 매칭을 사용해 Music2Latent 잠재 공간에서 가변 길이 연주를 생성.
  • 개선기존 고정 길이 동기화 샘플 대신 DTW 정렬로 가변 템포와 표현 타이밍을 학습.

방법

  • 데이터 구성MIDI 악보를 데드팬(무표정) 오디오로 합성하고, 실제 연주와 DTW로 정렬해 쌍을 만듭니다.
  • 모델 구조정렬된 임베딩을 DiT 블록에서 연결(concatenate)하여 악보와 연주 간 의존성을 간단히 학습.
  • 잠재 공간사전 학습된 Music2Latent 모델의 잠재 공간에서 작동하므로 오디오 품질과 효율을 확보.

한계·조건

  • 도메인클래식 피아노 전용 — 다른 악기나 장르로의 일반화는 검증되지 않음.
  • 데이터DTW 정렬은 MIDI-오디오 쌍이 필요하며, 대규모 데이터셋 구축이 선행되어야 함.
  • 공개데모 페이지에서 오디오 샘플 제공, 코드와 모델 가중치 공개 여부는 미정.

편집자 한 줄

플로우 매칭을 EPR에 적용한 점이 신선하지만, DTW 정렬의 계산 비용과 도메인 제약이 실제 사용성을 제한할 수 있겠네요.

  • #flow-matching
  • #piano
  • #music-generation
  • #epr
  • #audiomodeling
Dmitrii Gavrilev
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —