GLM国产大模型训练加速：性能最高提升3倍，显存节省1/3，低成本上手_人工智能_OneFlow