Papers·1개월 전

Count Anything — 텍스트 기반 객체 카운팅 통합 모델, 6개 도메인 619개 카테고리 일반화

Mengqi Lei 팀이 텍스트로 객체를 세는 통합 모델 Count Anything을 공개했습니다. 6개 도메인(일반 장면, 원격 탐사, 조직병리학, 세포 현미경, 농업, 미생물) 220K 이미지, 619개 카테고리, 15M 인스턴스로 구성된 CLOC 데이터셋을 구축하고, 영역 수준 sparse 카운터와 픽셀 수준 dense 카운터를 결합하는 방식으로 기존 개방형 카운팅 방법을 능가했습니다. 단, 코드는 공개되었으나 모델 가중치 배포 여부는 아직 확인되지 않았습니다.

텍스트로 객체를 세는 통합 모델 Count Anything이 6개 도메인에서 기존 방법을 능가하는 성능을 보였습니다.

핵심 결론

태스크 — 텍스트 기반 객체 카운팅 — 이미지와 자연어 쿼리를 입력으로 받아 객체 위치와 개수를 출력.
데이터 — CLOC 데이터셋: 6개 도메인, 220K 이미지, 619개 카테고리, 15M 인스턴스로 통합 벤치마크 구축.
성능 — 기존 개방형 카운팅 방법 대비 모든 도메인에서 더 높은 정확도와 일반화 성능을 기록.

방법

이중 카운터 — Region-level Sparse Counter는 크고 드문 객체에 대해 객체 수준 앵커를 제공하고, Pixel-level Dense Counter는 작고 밀집된 객체에 대해 밀집 점 예측을 수행.
훈련 전략 — 점 중심(point-centric) 지도 학습으로 이질적인 주석(바운딩 박스, 점, 밀도 맵)을 통합 학습.
퓨전 — Complementary Count Fusion으로 두 카운터 출력을 파라미터 없이 결합.

한계·조건

리소스 — 모델 크기와 추론 속도에 대한 구체적인 정보는 논문에 명시되지 않음.
코드 — GitHub에 코드 공개, 모델 가중치 배포 여부는 미확인.
벤치마크 — CLOC는 기존 데이터를 재구성한 것으로, 실제 현장 데이터와의 괴리가 있을 수 있음.

편집자 한 줄

텍스트 기반 카운팅을 하나의 모델로 통합한 점은 실용적이지만, 각 도메인별 전문 모델 대비 세부 성능 차이는 후속 분석이 필요해 보입니다.

#object-counting
#text-guided
#generalist
#cloc
#count-anything

Mengqi Lei

원문 보기 →

Count Anything — 텍스트 기반 객체 카운팅 통합 모델, 6개 도메인 619개 카테고리 일반화

핵심 결론

방법

한계·조건

Comments