为什么我们拥有庞大的语言模型,而Vision Transformers的规模却很小?_人工智能_Baihai IDP_InfoQ写作社区