Vokenization:一种比GPT-3更有常识的视觉语言模型_脑极体_InfoQ写作社区