Papers·1개월 전

AlphaTransit: MCTS + 신경망으로 버스 노선 설계 — Bloomington 서비스율 54.6% / 82.1%

AlphaTransit은 MCTS와 정책-가치 신경망을 결합해 버스 노선 설계 문제(TRNDP)를 해결합니다. 시뮬레이터 피드백이 지연되는 상황에서 정책이 경로 확장을 제안하고 가치망이 최종 설계 품질을 예측해, 시뮬레이션 없이도 각 결정의 장기적 영향을 평가합니다. Bloomington 벤치마크에서 강화학습 단독 대비 서비스율이 9.9~11.4% 향상되었고, MCTS 단독 대비 2.5~11.2% 개선되었습니다. 코드와 데이터는 공개되어 있습니다.

버스 노선 설계는 각 경로 연장 결정의 효과가 전체 네트워크가 완성된 후에야 드러나는 지연 피드백 문제입니다. AlphaTransit은 MCTS와 학습된 정책-가치망으로 이 문제를 풀었습니다.

핵심 결론

태스크 — 도시 규모 버스 노선 설계(TRNDP) — Bloomington 실제 도로망과 인구 기반 수요 사용.
서비스율 — 혼합 수요에서 54.6%, 전환 수요에서 82.1%로 두 설정 모두 최고 기록.
개선폭 — RL 단독 대비 9.9%/11.4% 향상, MCTS 단독 대비 2.5%/11.2% 향상.

방법

구조 — MCTS를 주축으로 정책망이 경로 확장을 제안하고 가치망이 최종 설계 품질을 예측합니다.
차별점 — 탐색 중 시뮬레이터를 돌리지 않고, 학습된 예측으로 각 결정의 장기적 영향을 평가합니다.
이를 통해 지연 피드백을 극복하며, 학습된 안내와 MCTS를 결합한 점이 핵심입니다.

한계·조건

벤치마크 — Bloomington 단일 도시 — 다른 도시나 더 큰 규모에서의 일반화는 검증되지 않았습니다.
코드 — GitHub에 공개되어 재현 가능합니다.

편집자 한 줄

지연 피드백 문제를 MCTS + 학습 조합으로 푼 점이 흥미롭습니다. 실제 운영 데이터와의 비교가 추가되면 더 설득력 있을 듯합니다.

#transit-network
#monte-carlo-tree-search
#neural-network
#bloomington
#public-transport

Bibek Poudel

원문 보기 →

AlphaTransit: MCTS + 신경망으로 버스 노선 설계 — Bloomington 서비스율 54.6% / 82.1%

핵심 결론

방법

한계·조건

Comments