DLRover 在 K8s 上千卡级大模型训练稳定性保障的技术实践_人工智能_AI Infra