Papers·2일 전
IIT Patna, 다국어 의료 MLLM 위한 ArogyaSutra 공개 — 7개 인도어 + 영상 진단 정확도 향상

IIT Patna 팀이 다국어·저자원 환경에서 의료 MLLM 성능을 개선하는 ArogyaSutra 프레임워크와 ArogyaBodha 데이터셋을 공개했습니다. 31개 신체 계통, 6개 영상 모달리티, 21개 임상 영역을 아우르는 8개 소스의 QA 데이터로, actor-critic 기반 멀티에이전트 구조와 이중 메모리 메커니즘을 통해 7개 인도어에서 의료 추론 정확도를 일관되게 향상시켰습니다. 단, 벤치마크가 특정 언어·영역에 편중될 가능성은 남아 있습니다.
IIT Patna 팀이 다국어 의료 MLLM의 한계를 극복하기 위해 ArogyaSutra 프레임워크와 대규모 데이터셋 ArogyaBodha를 제안했습니다.
핵심 결론
- 데이터 — ArogyaBodha는 8개 이종 소스, 31개 신체 계통, 6개 영상 모달리티, 21개 임상 영역을 포함하며 영어와 7개 주요 인도어로 구성된 대규모 QA 데이터셋입니다.
- 성능 — ArogyaSutra는 모든 인도어에서 의료 추론 정확도를 일관되게 향상시켰으며, 각 구성 요소의 기여를 ablation으로 검증했습니다.
방법
- 멀티에이전트 — Actor-critic 기반의 다중 에이전트 프레임워크로, 도구 사용(tool grounding)과 이중 메모리 메커니즘(dual-memory)을 결합해 단계적 추론을 수행합니다.
- 증류 — 저장된 actor-critic 시뮬레이션 궤적을 distillation에 활용하여 추론 능력을 전이합니다.
한계·조건
- 범위 — 데이터셋이 특정 언어·영역에 편중될 가능성이 있으며, 실제 임상 환경에서의 일반화는 추가 검증이 필요합니다.
- 공개 — 소스 코드와 데이터셋은 GitHub에 공개되어 있습니다.
편집자 한 줄
저자원 언어 의료 AI에 대한 체계적인 접근이 인상적이지만, 실제 진료 현장에서의 효과는 추가 연구가 필요해 보입니다.
- #multimodal
- #medical
- #multilingual
- #iit-patna
- #llm
IIT Patna