写点什么

Qwen3 初测,小尺寸 MOE 利好小玩家

作者:冯骐
  • 2025-04-30
    上海
  • 本文字数:2388 字

    阅读完需:约 8 分钟

结论

还是先聊结论,Qwen3 发布 blog 的标题是“思深,行速”。其实这个已经总结了这次版本的两大特性了,一个是全员深度思考,另一个就是速度快。


是的,你看他自己也没好意思再加上“智远”是吧——此处应手动狗头。


和 QwQ-32B 一样,在一些常见的推理类问题上,Qwen3 全系列在深度思考的加持下都表现的还不错(所以打榜成绩挺好)。然而在复杂一些的推理问题,以及依赖知识密度的问题上,稠密模型的 Qwen3-32B 相比 Qwen3-30B-A3B 的表现要更出色一些。我一直觉得预训练阶段赋予的知识密度才是决定模型能力上限的因素,后训练阶段赋予的思维链能力只提高了能力的稳定性。这或许也是一种佐证。


在性能方面,在中杯模型的规格里, Qwen3-30B-A3B 远超 Qwen3-32B,这主要应该是因为激活参数量小,结合 deepseek 的巨大影响力,现在主流框架对 MoE 模型的优化做的相当到位。Qwen3-30B-A3B 已经达到了个人单机部署的级别,并且单机上可以提供非常快的推理速度,对小玩家极度利好。


总的而言,Qwen3 从模型能力上而言,并非跨级别的产品,相比 r1 横空出世的震撼,以及 gemini 2.5 pro 断档的全能,Qwen3 并没有在这个层面带来足够的惊喜。然而从推理性能上而言,得益于更小的激活参数量和推理框架们对 MoE 的优化,Qwen3-30B-A3B 这个尺寸的推理性能非常之好,对缺卡的小玩家而言这是真正的惊喜。


部署

必须用 vllm 最新的 Release v0.8.5 · vllm-project/vllm 来部署 Qwen3,与部署所有思维链模型一样,通过 --enable-reasoning--reasoning-parser deepseek_r1 来加载思维链。


Qwen3 是支持 function call 的,如果需要启用 function call 能力,则应该通过 --enable-auto-tool-choice--tool-call-parser hermes 来加载 functiona call 能力。


如果希望默认的参数用模型预设的推荐参数来加载,则需要 --generation-config auto 来开启功能,此时 vllm 会从模型所在目录的 generation_config.json 加载默认参数,而非 vllm 自己的默认参数方案。


如果需要扩展上下文超过 32K,则和所有的 qwen 系列一样,开启 YARN 外推即可,修改 config.json 文件。

{    ...,    "rope_scaling": {        "rope_type": "yarn",        "factor": 4.0,        "original_max_position_embeddings": 32768    }}
复制代码


思维链开关

Qwen3 有个非常好的特性,就是可以动态的切换 thinking 模式的开关。这意味提供深度思考的场景和快思考的场景我们只需要部署一套模型就可以了,这显然可以提高资源的利用率,对卡少的小玩具当然更就更友好了。


默认 thinking 是开启的,要关闭 thinking 模式,可以参考 vLLM - Qwen 文档,通过在 API 请求内增加 "chat_template_kwargs": {"enable_thinking": false} 来关闭当前对话中的深度思考能力。


另一种简单的方式是在提示词的后面增加 /think 或者 /nothink 来切换 thinking 模式,例如这样:


在关闭 thinking 模式的时候,他会输出一个 <think>\\n\\n</think>parsereasoning_content 内就是 2 个 \n 。如果要忽略掉这个东西,可能需要在展示上做一些额外的处理。

推理性能

Qwen3-30B-A3B 的推理性能是 Qwen3-32B 的 2-3 倍。在支持的显卡上,选用 FP8 量化的模型能再提高 40%左右的性能,但选择 FP8 量化有模型性能损失,模型能力会有所下降。


在 2xL20 的环境上做了一个压测,得到这样一个测试结果。由于测试脚本的题库太少,KV cache 命中率极高,这个测试数据相比真实环境是是有所偏高的,不能直接当作生产的并发数据评估。



主观测试

相比“客观”的打榜,我们还是来点儿“主观”的测试用例来看看在 30B/32B 这个模型尺寸上,Qwen3 的两个模型表现吧。我们还是分别来看一个逻辑推理题和一个文学创作题。

逻辑推理

提问:小红有两个姐姐和四个妹妹,她的四个妹妹中年龄排第三的小青总共有几个姐姐?

这个问题在中杯尺寸上,之前的 QwQ-32B 无法答对的,Qwen3-32B 有概率答对,但是不太稳定,Qwen3-30B-A3B 则完全无法答对。


和曾经那些困扰大模型的问题(strawberry)啥的一样,AI 总是在正确问题上反复的自我怀疑,就像这里的 Qwen3-32B 一样,思维链的推理已经给出了完全正确的序列,但是可能由于知识密度的不足,他会反复的纠结在一些非常低端的错误上,并且在某些情况上否定自己选择错误的答案。


从这里来看,模型终究不是真正的掌握了推理能力,知识密度对模型的能力影响依然深远。小参数量模型的刷榜的高分,可能更多是由于训练过程得到了更多的相似示例。

文学创作

需求:你现在是魔兽争霸中的角色阿尔萨斯,正在面临斯坦索姆的困境,你最终决定屠城,然而你必须要对士兵发起动员讲话,鼓舞士兵的士气。写一个鼓舞动员的讲话稿,题目自拟。


我们来看两个模型的输出对比



观察这两者的区别,最大的区别在于思考过程中,是否意识到了阿尔萨斯在屠城斯坦索姆的时候,他可能还保留着一些人性这一知识。这直接导致后续的写作立意和立场的差异。


发现没有,还是知识密度的问题。实际上两个模型在这里的表现都不是非常稳定,但总的而言 Qwen3-32B 要更容易意识到这个知识点一些。


PS:即便意识到了这个知识点,文笔上也还是逊色 deepseek 太多了。这里其实也是文化方面的知识密度在更多的起作用吧。

测试总结

单纯从模型的能力测试来看,Qwen3-32B 要略强于 Qwen3-30B-A3B,优势部分可能主要是由知识密度带来的。这也是和测评打榜的排名是匹配的,Qwen3-32B 确实要更好一些。


所以结合前面的推理性能,问题的关键就在于用户愿不愿意选择 2-3 倍以上的推理性能提升,还是愿意选择在少数场景下的模型智力提升了。


从我个人看法而言,模型能力上的不足可以通过提示词,通过检索增强来进行补强,甚至可以调整业务的应用场景和设计来匹配模型的能力。但推理性能上的差距是无法弥补的,特别是在一些利用 AI 进行批处理数据,批处理标注的场景里,速度才是王道。对于算力严重不足,存量算力满负荷运转的小玩家而言,这个选择并不难做。


小尺寸的 MoE 真香啊!

以上


发布于: 刚刚阅读数: 6
用户头像

冯骐

关注

教育行业码农 2020-06-19 加入

一个教育行业的码农

评论

发布
暂无评论
Qwen3初测,小尺寸MOE利好小玩家_人工智能_冯骐_InfoQ写作社区