Ships·4시간 전
Hugging Face, 오디오 LLM Borealis 공개 — Whisper3 + Qwen3 기반, 데이터·코드·가중치 전면 공개

VikhrModels 팀이 오디오 LLM Borealis(5B 파라미터)를 오픈소스로 공개했습니다. Whisper Large V3(고정)와 Qwen3-4B(LoRA 파인튜닝)를 어댑터로 연결한 구조로, 30초 오디오를 약 375 토큰으로 압축해 요약·질의·감정 추론을 수행합니다. 모든 학습 데이터셋과 재현 레시피가 함께 공개되어, 연구자가 그대로 복제하거나 커스터마이징할 수 있는 점이 강점입니다. 다만 러시아어·영어에 특화되어 있고, 추론 latency나 벤치마크 점수는 아직 보고되지 않았습니다.
- #huggingface
- #borealis
- #audio-llm
- #open-source
- #whisper
Hugging Face