写点什么

RAG 架构的数据准备流程

作者:澳鹏Appen
  • 2024-11-27
    上海
  • 本文字数:1568 字

    阅读完需:约 5 分钟

RAG架构的数据准备流程

越来越多的企业在部署大语言模型(LLM)时发现:根据其专有数据定制 LLM 可以释放更大的潜力。而检索增强生成 (RAG) 已成为这种定制的主要方法之一。


RAG 将大模型强大的语言理解能力与检索组件相结合,使其能够从外部数据源收集相关信息。这使得模型能够“读取”和利用企业数据来生成输出,从而产生更准确、及时且符合上下文的答案。


构建高性能 RAG 系统需要从数据出发,对架构的每个步骤进行优化。本期澳鹏干货将重点介绍构建有效 RAG 架构的数据准备流程。


EXPERT INTERVENTION IN RAG OPTIMIZATION————

RAG + 人类 = 更高性能的 AI


RAG(Retrieval Augmented Generation / 检索增强生成)巧妙融合了检索式模型的精准和生成模型的创造力,不仅能理解问题,还能在海量数据中找到针对性的答案,并用人类的语言告诉你。



RAG 的世界分为两部分:数据准备区(图中蓝色)和 RAG 系统本体(图中绿色)。数据准备区好比是厨房,原材料在这里被加工、切分,最后变成一道道精致的小菜;而 RAG 系统则像是一个智能机器人厨师,它根据顾客的点单,从这些小菜中挑选合适的搭配,制作出令人满意的一餐。



通过人工监督,可以纠正数据中的错误,并确保检索到的信息相关性,从而为模型开发提供更准确、更符合应用场景的响应。人工反馈还可以实现自适应学习,使模型能够动态调整以适应复杂的数据场景,并通过持续迭代不断改进。



澳鹏 Appen 的 AI 数据平台通过实现数据科学、工程团队以及领域专家之间的无缝协作,显著提升了这一流程的效率。我们的平台支持高质量 AI 训练数据的采集、准备、清理、标注和优化,这对于定制高性能的 RAG 模型至关重要。


INGESTION PROCESS————

数据源的整理流程



数据源/Data Sources

构建 RAG 架构知识库,数据源是基础。全面、高质量的数据能够准确涵盖系统将要查询的领域和主题。


数据清理/Data Cleaning

原始数据通常很嘈杂,包含不相关的内容、过时的信息和重复数据。在将数据输入矢量存储之前,有效的数据清理(如过滤和删除)至关重要。


隐私/Privacy or PII

企业数据通常包含敏感信息。确保适当处理 PII,并在适当的情况下检测、过滤、编辑并用合成数据替换,可以保护隐私、保持数据实用性并防止潜在的合规性问题。


文本提取/Text Extraction

从非结构化和半结构化来源中提取干净、可用的文本对于构建全面的知识库至关重要。对于复杂的文档,需要结合自动化工具和人工标注。


文本规范化/Text Normalisation

多个来源的数据缺乏一致性可能会导致相同的概念被视为不同实体,且模型匹配度较低。应用规范化规则对于高效利用文本数据至关重要。


分块策略/Chunking Strategy

常用方法包括固定大小分块、基于文档的分块和语义分块。总结或分层分块等方法也适用于长文档。


识别标记 /Recognition&Tagging

实体识别 (NER) 可以帮助模型连接段落并增强检索相关性,可通过具有自动化技术和人机验证的数据标注平台系统化地完成。


QUERY PROCESS————

数据查询流程


段落排名 Passage Ranking:检索组件显示与查询匹配的候选段落后,在传递给语言模型之前,按相关性对其进行排名和筛选至关重要。这可以避免模型从相关性较低的段落生成响应。排名可以通过相似度得分、上下文推理、元数据属性和查询段落对齐。


提示工程与设计 Prompt Engineering & Design:RAG 模型的有效性很大程度上取决于,能否通过在内容(查询 + 上下文)中添加相关检索数据,来增强用户输入。这些提示(Prompt)必须经过精心设计,才能有效获取和利用检索到的上下文,同时与输出响应(Response)所需的风格和语气保持一致。



持续的测试、评估和优化对于有效识别和监控模型性能至关重要。组件评估对于解决特定问题非常有效;端到端评估可用于评估整个系统的质量。总而言之,最终的目标是生成对人类有价值的响应。


用于训练 RAG 模型的数据可能十分复杂。澳鹏 Appen 数据标注平台及定制化服务,可助您无缝增强和集成专有数据,助力 RAG 的成功部署。


发布于: 刚刚阅读数: 3
用户头像

澳鹏Appen

关注

还未添加个人签名 2021-03-15 加入

高质量的AI训练数据服务商

评论

发布
暂无评论
RAG架构的数据准备流程_LLM_澳鹏Appen_InfoQ写作社区