VLE基于预训练文本和图像编码器的图像-文本多模态理解模型:支持视觉问答、图文匹配、图片分类、常识推理等_人工智能_汀丶人工智能_InfoQ写作社区