这是苍何的第 449 篇原创!
大家好,我是马大哈苍何。
有幸受邀来参加百度 2025 世界大会了,不幸的是身份证掉了。
本来应该从从容容、游刃有余,现在是匆匆忙忙、连滚带爬😄
这次百度连着发了不少新东西,其中印象深刻的是文心 5.0 的发布,且是原生全模态大模型。
也就意味着文心 5.0 能支持文、图、视、音的联合输入与输出,实现原生的全模态统一理解与生成。
为什么我觉得这个还挺拿出来说说的,我现在先不说,我想先放几个 case 给你先看看。
这是上传一段《狂飙》的「老莫,我想吃鱼」的片段,它居然能自动分析出是哪一部剧。
然后我输入:
帮我分析这段影视剧片段的演技,联系上下文分析这段情感的爆发表现如何,最后给我写一段100字的小红书分享文案。
复制代码
文心说强哥不是真的想吃鱼,而是想搞事了,还分析了下张颂文老师表演的情绪,好家伙。
表明文心 5.0Preview 不仅能识别画面内容,还能理解视频背后的情感与叙事意图。
我还挺来劲的,又丢了 2 个梅西和 C 罗点球的视频给文心 5.0Preview,并放了一个对比提示词,顺带分析下是谁在点球。
这是2个球员点球的视频,对比2个视频中球员的点球动作,(如射门技巧、过人方式)分析他们的点球射门风格,然后猜测分别是哪个明星球员。
复制代码
这是带字幕的梅西点球视频:
这是不带字幕的 C 罗点球视频:
这是文心 5Preview 的思考:
可以看到它居然知道视频里提到了梅西减慢速度,这有可能是从视频字幕上做的识别,也有可能是从语音组的识别。
就很强,但这还不是最强的,最强的是它识别 C 罗的手段,一度让我怀疑它们是不是内置了个柯南?
从球衣的颜色、号码和比赛场景等多个维度分析,甚至还结合了射门的脚法,最终确定这就是 C 罗。
可以看到,在综合推理方面更强,它不容易被单一模态误导,能从多角度解释画面合理性并复现完整情节
测完这个 case,我就在群里说了一句话:文心的这个对比视频后分析真牛逼!
下一个 case 是进行族谱修复测试,今天我爸爸的一个朋友加了我说找到了我们家族的族谱。
真的好感动,原来知道根的感觉是这么让人热泪盈眶,我们不能也不该忘了自己的祖先。
但我打开,全部都是这样的很有年代感和沧桑感的复印件:
我现在想着把这张图片丢给文心 5Preview,然后让他帮我生成我能看的懂的族谱:
这个是一张族谱图,请帮我分析下说了啥,以及从族谱中能看出是哪一个家族吗?并帮我根据内容重新生成一张族谱图。
复制代码
然后生成了一份我能看的懂的族谱:
我又根据这个思路把阿姨发我的全部族谱进行了翻译,才真正看懂了族谱,并把我们家族的历史彻彻底底的了解了一遍。
从萧何到梁武帝萧衍,到唐朝,到宋朝,祖上都特别的文脉军功起家,可以说文脉源远流长。
到我这辈,虽说没在官场报效国家,但也好在能写写文章,给全世界的人都能看到,输出价值,也算没辜负「文脉」。
这是我们真正的根,将来不管我们走到哪里,都不能忘记的。
然后我又测了它的文本生成和写作能力,我给了这么一个提示词:
你现在是“时空历史档案馆”的一名高级AI研究员。你的任务是处理一份刚刚从“数据遗迹”中抢救出来的、关于“克拉肯市”的残缺档案。这份档案描述了一个奇特的、围绕着巨型海洋生物“海克拉”而建的城市。你需要根据档案内容,完成一系列的修复与重构工作。
以下是你要处理的【原始档案材料】(约600字):“克拉肯市(Krakenburg)的命脉,既非黄金也非电力,而是‘海克拉’——那头栖息在城市下方深海海沟中、如山脉般巨大的远古生物。城市的奠基者们发现,海克拉的皮肤会分泌一种名为‘深海凝胶’的生物质,这种凝胶在接触空气后会迅速硬化,形成一种比钢铁更坚韧、却又温润如玉的建筑材料。于是,一座完全由‘凝胶’构筑的城市在海上拔地而起。城市社会结构因此分为两大阶层:‘采胶人’和‘塑形师’。‘采胶人’是勇敢的潜水员,他们穿着老旧的、由黄铜和皮革制成的潜水服,下潜到数百米的深海,用特制的刀具小心翼翼地从沉睡的海克拉皮肤上刮取凝胶。这是一项极其危险的工作,海克拉的每一次呼吸都能引发致命的洋流,任何惊扰都可能导致它的苏醒。因此,采胶人形成了一个纪律严明、信奉“与海克拉共生”教条的封闭社群,他们居住在城市下层,被称为“深潜者公会”。‘塑形师’则是克拉肯市的艺术家和工程师。他们居住在城市上层,享受着阳光和尊敬。他们掌握着将液态凝胶塑造成宏伟建筑、精美艺术品乃至生活用具的秘方。塑形师们认为,海克拉只是一种取之不尽的自然资源,应该被更高效地利用。他们不断研发新的、更具侵略性的采集工具,希望能实现凝胶的“工业化”开采,这与采胶人“不过度惊扰”的信条产生了根本性的冲突。近年来,随着城市人口的扩张,对凝胶的需求日益增长。塑形师公会中的激进派系“齿轮兄弟会”私下研发了一种“声波钻探机”,宣称可以在不直接接触的情况下,从海克拉体内“震”出更多凝胶。这一计划被深潜者公会视为对海克拉的亵渎和致命挑衅。两个阶层的矛盾已经从过去的口角,升级到了街头的械斗。城市上空的凝胶尖塔和下层的黄铜管道之间,紧张的空气一触即发。一份古老的预言在采胶人之间流传:当海克拉流下眼泪时,城市将重归深海。”---请根据上述【原始档案材料】,严格按照以下要求,完成一份完整的“档案重构报告”。报告必须包含四个部分,并严格遵循每个部分的格式和内容指令。1. 第一部分:档案摘要 (Part 1: Archive Summary)* 任务: 将上述档案材料总结成一段严格限制在180到200字之间的摘要。* 指令:摘要必须清晰地概括出克拉肯市的世界观设定、两大阶层及其核心矛盾禁止在摘要中使用“海克拉”这个词,必须用其他描述性词语代替(例如“巨型海洋生物”、“城市之基”等)。2. 第二部分:核心冲突分析 (Part 2: Core Conflict Analysis)* 任务: 用一个无序列表(Markdown的 `-` 或 `*`)的形式,列出并分析导致两大阶层冲突的三个主要原因。* 指令:每个原因的分析都需要先用【原因】标签开头,再进行阐述。分析必须入到哲学、资源和技术三个层面。3. 第三部分:创意故事补完 (Part 3: Creative Story Completion)* 任务:以“一个年轻的采胶人学徒”为第一人称视角,撰写一篇大约400字的短篇故事。* 指令:* 故事必须发生在“齿轮兄弟会”的“声波钻探机”首次秘密实验的那个晚。* 故事中必须包含以下三个元素:“父亲的老旧潜水头盔”、“凝胶散发出的微光”、“来自深海的低沉共鸣声”。* 故事的整体基调应为悬疑和不安。* 绝对不许出现任何对话,必须纯靠主角的感官和内心活动来推进故。4. 第四部分:后续情节构思 (Part 4: Plot Outline)* 任务:基于档案内容和你的创意故事,设计三个可能的后续情节发展方向。* 指令:必须以设问句的形式提出,每个设问句代表一个情节走向。例如:“如果声波钻探机导致了意想不到的后果,那会是什么?”最终输出要求:请将以上四个部分整合在一个回复中,并使用Markdown的二级标题(##)来区分每个部分,标题分别为“## 档案摘要”、“## 核心冲突分析”、“##创意故事补完”、“## 后续情节构思”。
复制代码
这是个巨长的傻逼指令,说实话,要是个正常人,接到指令第一句话是来一句 MMP。
但 AI 就是好,还是老实工作,还不抱怨:
写作能力有了很大进步,真人味道更多了,最终完成效果还不错。
文心 5.0Preview 的图片理解能力表现很赞,除了图片输入理解,也还能做图片输出。
比如这个提示词:
帮我制作一张图片,国风水墨风格,一个长长黑发的男人,金色的发簪,飞舞着金色的蝴蝶,白色的服装,高细节,高质量,深蓝色背景,背景中有若隐若现的水墨竹林。
复制代码
出来这个效果挺好。:
文字、视频、图片都 OK 了,最后看看音频。我上传一段播客录音,然后让它帮我输出成转为逐字稿。
居然一字不落的全部识别到位,这场景就多了啊。
最后试试代码能力,让生成一个 breakout 游戏:
代码能力有了很大进步,不过输出有些不稳定,复杂任务耗时有些长。
经过上面全部 case 的测试验证,对原生全模态大模型有了更深的理解。
它不同于后期融合方式的多模态模型,需要在训练伊始便融合语言、图像、视频、音频等多模态数据。
这样才能更好支持文、图、视、音的联合输入与输出,实现原生的全模态统一理解与生成。
采用了超稀疏混合专家架构,文心 5.0 的总参数规模超过 2.4 万亿个。
而且基于思维链和行动链的端到端多轮强化学习训练,实现了长程任务增强的智能体能力。
讲真的,以前觉得修族谱是件特麻烦、特遥远的事。
没想到一个 AI 工具,就把几代人的故事给重新串了起来。
原来,找到自己的根,可以这么简单,这么酷。
唯有族谱,能让百姓流芳百世。
我们应该也给文心 5.0 更多期待,给永不下桌的百度更多期待。
就像给一直努力的我们自己更多期待一样。
这一期的分享就到这啦,如果喜欢,欢迎点赞转发给需要的朋友。
评论