写点什么

多模态大模型,更丰富的数据要求

作者:澳鹏Appen
  • 2024-12-11
    上海
  • 本文字数:1899 字

    阅读完需:约 6 分钟

多模态大模型,更丰富的数据要求

随着人工智能 (AI) 的高速发展,我们身处的技术革命正在重塑各行各业并改变我们与技术互动的方式。多模态人工智能系统集成了多种类型的数据,如图像、视频、音频和文本等。


通过结合不同类型的数据信息,模型可以实现更接近人类的认知能力。多模态 AI 可以提高模型的准确性和稳健性,为人们的不同需求提供解决方案,例如通过将视觉内容转换为描述性音频来“讲述世界”。


多模态数据集,包含图像、视频、音频和文本等数据类型,对 AI 大模型的训练至关重要。数据库产品需要能够处理这些不同模态的数据,并支持它们的融合与分析,以提高模型的准确性和鲁棒性。澳鹏 Appen 多模态数据集,可以支持生成式 AI 实现更加优秀的多模态功能。


多模态 AI 的挑战和机遇


当今大多数人工智能系统都是单一模态的。由于多模态大模型对数据集的要求更加复杂、高质量数据需求的增加,AI 数据领域面临诸多挑战。


一些关键挑战包括:


数据可用性:多模态 AI 模型需要大量、多样化的数据集来进行训练和验证。现有的大型开源数据集往往集中在通用数据集。为特定应用定制多模态 AI 需要更多贴合具体应用场景的数据。


标注质量:与单一模态相比,多模态数据的标注往往更为复杂。例如,视频内容可能涉及时间戳事件、情境化操作,以及需要提供一系列描述。这些开放式描述可能需要运用专业领域的知识进行标注,进一步增加了标注过程的复杂性。


评估指标:缺乏公认的基准和评估指标对多模态 AI 系统构成了重大挑战。每一个项目对数据的评估指标一般包括上下文理解程度、具体贴合度等。但这些指标均为主观指标,难以统一。同时,开发交叉模态评估的矩阵式指标系统也是一大挑战。


尽管面对挑战,行业也迎来了新的机遇。艾瑞推算 2023 年中国 AI 基础数据服务市场规模为 45 亿元。大模型等 AI 技术的快速发展带来了高涨的数据需求,多模态数据集的需求也同步增长。

 

大模型对于数据集的需求通常在百万条以上。相比传统的单模态数据,新的数据集需求通常融合了文本、图像、视频、音频等不同模态的数据,例如图文对、视频描述、音频文本、多语言文本等数据的需求正在高速提升。澳鹏 Appen 针对领域需求进行定制化开发,并且通过专家资源来确保数据在专业领域的准确性。


常见的多模态数据类型


随着大模型关注度的提升,人们越来越多地使用开放式的自然语言与视觉数据进行交互。例如,关于图像的查询:“我的冰箱里有哪些蔬菜?”;也可能是更复杂的基于知识的查询,例如:“我可以用这些食材做什么菜?”


这些查询与不同的输入类型相关,包括图像、视频等。几种常见的多模态数据的类型包括:


提示-响应对

训练多模态大模型,需要大量多样化的视觉数据以及提示-响应对(Prompt-response pairs)。在多模态标注中,会通过增加特殊标注,建立文本中的关键词与图像中对象的联系,来增加数据的维度,提高模型的性能。


视频到文本

在 LLM 能够回答有关不同模态的查询之前,需要训练模型来“理解”这些数据。此过程涉及创建带有文本描述或视频内容叙述的配对数据集。这样,大模型可以回答例如“这个视频片段中发生了什么”、“这一集的演员是谁”等有关视频的问题。


视频、音频与文本的结合

视频的音频内容以及屏幕上的任何文本都为多模态 AI 提供了重要的背景数据。除了转录音频或视频文本外,还可以添加时间戳,将音频和视觉提示与其相应的文本链接起来;而添加标注,则可以将转录的文本与其在视觉中的位置链接起来。同时,视频中包含的其他声音,如动物叫声、环境噪音、音乐等,需要描述音频的数据集,以及将声音事件与文本描述联系起来的时间戳。


澳鹏多模态数据服务案例


某头部社交媒体:


澳鹏与客户在大模型 LLM 文本生成和多模态数据处理等领域开展了深入合作。澳鹏帮助客户识别 prompt 中的潜在风险,优化用户意图识别,并提升 response 的输出质量,从而推动客户大模型平台在内容安全性和用户体验上的持续改进。


某 AI 科技厂商:


基于澳鹏大模型平台多模态数据处理能力,澳鹏为某 AI 科技厂商提供图像文本描述数据服务工作,提供高质量图文对超过 50 亿对,为客户的图文大模型提供了丰富的数据养料。澳鹏同时也在为数个多模态大模型项目提供高质量数据服务,数据类型跨文本、图像、视频、音频等多种不同模态。


某科技企业的垂类大模型开发:


基于高度定制的澳鹏自定义模版引擎和多模态数据编辑器,澳鹏为某科技公司提供大规模代码类大模型训练数据解决方案,汇聚了大量行业领域专家,涵盖代码垂类大模型所需数据的各个阶段,生产出高质量代码数据 50 万组以上。为代码大模型的落地应用提供了高质量的数据保障。


多模态生成式人工智能可以为各种应用创建丰富多样的内容。随着大语言模型 (LLM) 的兴起,多模态大模型正在推动人工智能的下一个前沿方向,开启人机之间更加真实、自然交互的新时代。

发布于: 刚刚阅读数: 6
用户头像

澳鹏Appen

关注

还未添加个人签名 2021-03-15 加入

高质量的AI训练数据服务商

评论

发布
暂无评论
多模态大模型,更丰富的数据要求_多模态_澳鹏Appen_InfoQ写作社区