Llama-2 vs. Llama-3：利用微型基准测试（井字游戏）评估大模型_程序员_Baihai IDP