多模态统一框架：基于下一帧预测的视频化方法_深度学习_qife122