DeepSeek 等常用大模型使用分析

一 前言
目前大模型产品层出不穷,在日常工作中的应用也越来越广。常见的使用场景包括搜索、代码阅读与辅助编写、获取文章提要和概述、对音频内容转写、文本翻译、角色扮演、发言总结、PPT 生成,还可以解读财报研报,分析金融业事件,自动绘制图表表格等等。把大模型作为工具使用,能大幅提升我们的工作效率。同时相信大家也都注意到,不同大模型都有各自的优劣势,回答的质量良莠不齐,幻觉问题也一直存在,如果盲目相信大模型的回答反而会产生负面影响。因此,了解不同大模型产品的特性,在不同场景选择合适的大模型就非常重要。
本篇将结合我个人的使用场景,介绍几个比较常用的大模型网页版产品,对比各自的优劣势,供大家参考。
二 常用的大模型(网页版)
截至目前,我个人使用最为频繁的包括以下五个:通义千问、DeepSeek、Kimi、豆包、秘塔(请原谅由于公司网络限制,在单位无法使用老东家的文心一言,甚至最近连通义千问也被封了...)。
2.1 DeepSeek
DeepSeek 在今年春节前后可谓火遍全国,其推出的 R1 和 V3 两个大模型迅速得到广泛应用,尤其是 R1 模型。一时间各厂商都纷纷接入满血版 DeepSeek-R1 并将其作为宣传点。
不过随着时间推移,DeepSeeek 在爆火之后也逐渐暴露出虚假信息制造与传播风险、价值观偏差与有害内容输出等问题。很多用户发现,DeepSeek 在处理虚构类内容时,常生成逻辑自洽但与事实相悖的信息。例如,模型曾虚构出“2024 年东京奥运会因地震改由澳大利亚承办”的假新闻,细节描述逼真,可能导致严重的社会风险;并且相对于其他大模型产品,DeepSeek 网页版这几个月毫无变化,应用丰富度和体验上都没有明显提升。

2.2 通义千问(Qwen)
通义千问,基于阿里强大的平台能力和阿里云自主研发的通义大模型。24 年 5 月,通义千问就已经提供了通义灵码、通义智文、通义听悟等 8 个大行业模型。今年 4 月底又发布了新一代大模型 Qwen3(千问 3),并于 6 月 6 日开源了 Qwen3-Embedding 系列模型(Embedding 和 Reranker)。
Qwen3 是中国国内首个“混合推理模型”,即“快思考”与“慢思考”集成在同一个模型;对简单需求可低算力“秒回”答案,对复杂问题可多步骤“深度思考”,大大节省算力消耗。Qwen3 采用混合专家(MoE)架构,总参数量 235B,参数量仅为 DeepSeek-R1 的 1/3,激活仅需 22B。预训练数据量达 36T,并在后训练阶段多轮强化学习,将非思考模式无缝整合到思考模型中。Qwen3 在推理、指令遵循、工具调用、多语言能力等方面均大幅增强,即创下所有国产模型及全球开源模型的性能新高。在性能大幅提升的同时,部署成本也大幅下降,只要 4 张 H20 就可以部署满血版 Qwen3,显存占用仅为性能相近模型的 1/3。
目前,通义千问网页版的深度思考也已经使用了 Qwen3,不再是 DeepSeek。
通义千问在代码生成和问题排查场景的问答效果,我个人是比较认可的,通义灵码插件也安装到了本地的开发工具 Intellij idea 上,大幅提升了代码编写效率。不过也曾几次遇到提问后没有回答的情况(非深度思考模式),相同的问题在 DeepSeek 和豆包上都有不错的回答,原因未知。

2.3 豆包
豆包大模型,原名“云雀”,由字节跳动研发。豆包最具特色的当属实时语音大模型,实现了端到端语音对话。相比传统级联模式,在语音表现力、控制力、情绪承接方面表现惊艳,并具备低时延、对话中可随时打断等特性;尤其情商层面,模型在情感理解、情感承接以及情感表达等方面也取得显著进展,能较为准确地捕捉、回应人类情感信息。
字节跳动豆包团队今年 4 月发布了自家新推理模型 Seed-Thinking-v1.5 的技术报告。从报告中可以看到,这是一个拥有 200B 总参数的 MoE 模型,每次工作时会激活其中 20B 参数。其表现非常惊艳,在各个领域的基准上都超过了拥有 671B 总参数的 DeepSeek-R1。有人猜测,这就是字节豆包目前正在使用的深度思考模型。
除此之外,豆包在文本对话、计算等通用大模型能力上也在不断增强,目前在网页版使用上,个人感觉与通义千问的差别不大。

2.4 Kimi
Kimi(https://www.kimi.com)是月之暗面于 2023 年 10 月 9 日推出的一款智能助手,主要应用场景为专业学术论文的翻译和理解、辅助分析法律问题、快速理解 API 开发文档等,是全球首个支持输入 20 万汉字的智能助手产品。问世之初,Kimi 在二级市场一度复现了 ChatGPT“带货能力”的势头,引发了一众“Kimi 概念股”狂飙猛涨,可谓红极一时。
相对而言,kimi 的优势在长文本处理上。Kimi k1.5 的上下文窗口为 128K,能够处理更长文本输入,捕捉更远距离的依赖关系,更好地理解复杂语境。这一特性使得 Kimi k1.5 在处理长文本和复杂语境方面具有显著优势。在文件处理上,kimi 能同时处理多个文件,包括 PDF、文档、PPT 和图片等,处理大量数据时效率较高。这对于需要处理大量文档和数据的用户来说无疑是一个巨大的福音。PPT 助手 也算是一个独有的功能,可以根据提示词输入的大纲、内容风格等要求,生成 PPT 并支持下载。
Kimi 未接入 DeepSeek R1 模型,长思考使用的是自己的 k1.5 模型。


2.5 秘塔搜索
秘塔 AI 搜索(主页:https://metasota.ai/)是秘塔科技旗下的搜索产品,主打的特点是简单、无广告、直接的搜索答案。
2025 年 2 月 3 日,秘塔科技宣布在秘塔 AI 搜索中集成“满血版”DeepSeek R1 推理模型。2 月 18 日,秘塔科技宣布秘塔 AI 搜索上线新的研究模式——先想后搜。
"先想后搜"这种新的研究模式采用“小模型+大模型”协同架构,将需要深度推理的框架思考、步骤拆解的部分,交给 DeepSeek R1 来完成;与此同时,信息搜索、资料整合部分用秘塔自研的模型来完成。在这个框架下,秘塔可以在 2-3 分钟完成数百个网页的搜索与分析。
2024 年 8 月 15 日,秘塔科技收到知网长达 28 页的侵权告知函。知网称,未经允许的情况下,秘塔 AI 搜索 APP 向用户提供学术文献题录及摘要数据,且数据量巨大,严重侵犯其合法权益。知网要求秘塔 AI 停止在搜索服务中提供学术文献题录摘要数据,断开搜索结果到知网网站的链接。截至 2024 年 8 月 16 日,秘塔科技已经断开与知网的链接以及搜索结果。
个人感觉,秘塔非常适合"长篇大论式"的回答,尤其是接近论文类的输出方式,比 DeepSeek、Kimi 等都要准确很多,参考资料来源也更丰富、可信。上面所提到的知网事件,恰恰说明秘塔曾经基于论文内容进行了大量学习和训练,因此在这类场景有着显著优势。
提问方式上,秘塔只支持图片和文字搜索,不支持文档上传。长思考使用 DeepSeek R1。



三 大模型使用总结
通过上述介绍,可以简单总结下几个大模型产品的优劣势。DeepSeek 是最先推出深度思考的,不过 R1 模型的优势在逐渐缩小,通义千问、Kimi、豆包都在紧紧追赶,目前看优势不大;通义千问在代码编写和通用问答上效果都还不错;豆包除了语音大模型外,通用的问答能力和深度思考也都在不断增强;kimi 的长文本和多文件处理优势依旧,通用问答效果要稍弱一些;秘塔则专注于 AI 搜索,擅长论文式的搜索与总结回答,质量普遍要比其他大模型高出一层。
不过在具体问题上,并不一定都如上面所说。目前我的使用习惯是豆包、DeepSeek、Kimi、秘塔,一个问题在两个大模型中提问,对比后采用更好的回答,并且也不断调整使用优先级。
四 亮点功能推荐-AI 阅读/翻译
昨天由于工作需要,使用大模型翻译一篇英文文档。发现通义千问、豆包、腾讯元宝都提供了 AI 阅读能力,支持上传文档翻译、总结、生成脑图等功能,而且效果都还不错。
以 DeepSeek 的论文《Native Sparse Attention: Hardware-Aligned and Natively
Trainable Sparse Attention》作为示例,Ai 阅读结果如下:
1、通义千问
如下页面所示,导入文档后,右侧直接出现导读、翻译、脑图,并支持记录笔记。

右侧下方的对话框支持输入问题,针对文档提问。
2、豆包
导入文档后,右侧只有一个开启翻译的按钮,没有精读/总结/脑图的 tab。如果要展示脑图,可以在左侧对话框输入,要求生成脑图。 从生成的脑图质量上看,要好于通义千问生成。


3、腾讯元宝
与通义千问形式类似,右侧包括总结、精读、翻译、脑图。翻译的格式稍差,但内容与通义千问和豆包相比差别不大,脑图效果更好。


版权声明: 本文为 InfoQ 作者【程序员架构进阶】的原创文章。
原文链接:【http://xie.infoq.cn/article/7c85da6fc322e3e2524017513】。文章转载请联系作者。
评论