Llama-2 vs. Llama-3:利用微型基准测试(井字游戏)评估大模型_程序员_Baihai IDP_InfoQ写作社区