大模型真的会“好事多模”吗?
自从 2018 年谷歌发布 BERT 之后
到 ChatGPT 在火爆全球
大模型的超强能力以及背后的吸金属性
吸引着无数厂商对其趋之若鹜
纷纷投入到炼大模型的热潮中去
这大模型不仅是越来越大
模态还越“堆”越多
![](https://static001.geekbang.org/infoq/ee/ee46d65189dd8312ce4a9a971ba219cc.png)
多模态大模型到底是个啥?
讲到这里,我们先来说说
多模态大模型中的
这个“多模态”到底是个啥
多模态的概念源于德国生理学家
赫尔姆霍茨提出的“感觉道”
加被称为“感觉通道”
主要探讨了人类在感知和认知过程中
多种感官的相互作用和协同工作
如视觉、听觉、触觉、味觉和嗅觉等
![](https://static001.geekbang.org/infoq/a0/a0fd445848040ef3935b29a2cf919557.png)
在人工智能领域
多模态意味着算法可以处理不止一个模态的数据
可以在文本、图像、音频等
多种类型的数据中理解、转译、生成
有效提高大模型处理多种信息的
准确性和鲁棒性
比如多模态大模型
理解文字和图片两种模态的数据
就能以文生图,让画手直面职业危机
理解音频、视频、图片多种形态的数据
在生成工业质检模型时
就能实现视频分析、图片分析
甚至音频分析等多样化的选择
![](https://static001.geekbang.org/infoq/2f/2f5ede27aff731539921436cab12bb9f.png)
自从 OpenAI 发布多模态大模型 GPT-4 后
全球各大厂商便又开始朝着“好事多模”进发
这模态越“堆”越多
前一段时间还出现了
六模态大模型和全模态大模型……
![](https://static001.geekbang.org/infoq/5b/5bef929fae514a2517421ab37d676bef.png)
“堆模态”是喜还是忧?
看着大家争相发布多模态大模型
突然就有一个问题:
大模型的模态越多就真的越好吗?
答案却是……不一定。
![](https://static001.geekbang.org/infoq/9b/9b0a03b22b207c1e330cbe9698d684f9.png)
举个例子,如果你要建造一栋房子
你会选择使用多少种不同的材料呢?
显然,选择过多的材料会导致
建筑成本增加、建设时间、精力增加等问题
![](https://static001.geekbang.org/infoq/aa/aa5ac036900d0fda6c21a9cc7b088cb4.png)
而多模态大模型的模态过多
也会导致一些问题的出现,比如:
1.多模态不等于凑模态
如今厂商们都在争先恐后的发布
自家的多模态大模型
其中当然有许多精品
但也不乏粗制滥造的水货
比如在自然语言处理中
增加一个文字转换语音的功能
就生成自己家练出了多模态
![](https://static001.geekbang.org/infoq/90/901dc6954c44e90db5ad915e1a8c0457.png)
2.多模态=高成本
算力资源是各大公司进入炼大模型的入场券
数据更熟训练大模型的关键
模态越多大模型
训练所需要的算力就越多
数据量也就越丰富
如果公司一味要求模态的丰富
最终很可能导致大模型模态多而不精
反而得不偿失
![](https://static001.geekbang.org/infoq/a1/a1d278e0c18a8ff9be1f4fd02790fa56.png)
3.多模态不等于好落地
上文也提到了
多模态大模型在处理复杂的应用场景时
可能更加有效
然而不同的应用场景对模态的需求是不同的
例如,在自然语言处理领域
对于一些特定任务
如情感分析或文本分类
使用单一的文本模态可能已经足够
而不需要额外的图像或音频模态
![](https://static001.geekbang.org/infoq/14/1484bfc1d60ca2ae3936d135a50b3ef1.png)
“贪多嚼不烂”这句俗语
如今也可以用在炼大模型上
厂家们在决定“堆模态”前
不妨先考虑一下
落地场景、数据质量、算力资源等综合因素
适当选择模型结构
切记模型虽好,但不能贪多哦!
版权声明: 本文为 InfoQ 作者【白洞计划】的原创文章。
原文链接:【http://xie.infoq.cn/article/1d8634cba8efd9e8247252050】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论