0 人感兴趣 · 1 次引用
VLE基于预训练文本和图像编码器的图像-文本多模态理解模型:支持视觉问答、图文匹配、图片分类、常识推理等
InfoQ签约作者、腾讯云社区优秀创作者
某某某技术有限责任公司架构师
行动就在当下。
🏆 InfoQ写作平台-签约作者 🏆
提供全面深入的云计算技术干货