RAG 架构的数据准备流程
越来越多的企业在部署大语言模型(LLM)时发现:根据其专有数据定制 LLM 可以释放更大的潜力。而检索增强生成 (RAG) 已成为这种定制的主要方法之一。
RAG 将大模型强大的语言理解能力与检索组件相结合,使其能够从外部数据源收集相关信息。这使得模型能够“读取”和利用企业数据来生成输出,从而产生更准确、及时且符合上下文的答案。
构建高性能 RAG 系统需要从数据出发,对架构的每个步骤进行优化。本期澳鹏干货将重点介绍构建有效 RAG 架构的数据准备流程。
EXPERT INTERVENTION IN RAG OPTIMIZATION————
RAG + 人类 = 更高性能的 AI
RAG(Retrieval Augmented Generation / 检索增强生成)巧妙融合了检索式模型的精准和生成模型的创造力,不仅能理解问题,还能在海量数据中找到针对性的答案,并用人类的语言告诉你。
RAG 的世界分为两部分:数据准备区(图中蓝色)和 RAG 系统本体(图中绿色)。数据准备区好比是厨房,原材料在这里被加工、切分,最后变成一道道精致的小菜;而 RAG 系统则像是一个智能机器人厨师,它根据顾客的点单,从这些小菜中挑选合适的搭配,制作出令人满意的一餐。
通过人工监督,可以纠正数据中的错误,并确保检索到的信息相关性,从而为模型开发提供更准确、更符合应用场景的响应。人工反馈还可以实现自适应学习,使模型能够动态调整以适应复杂的数据场景,并通过持续迭代不断改进。
澳鹏 Appen 的 AI 数据平台通过实现数据科学、工程团队以及领域专家之间的无缝协作,显著提升了这一流程的效率。我们的平台支持高质量 AI 训练数据的采集、准备、清理、标注和优化,这对于定制高性能的 RAG 模型至关重要。
INGESTION PROCESS————
数据源的整理流程
数据源/Data Sources
构建 RAG 架构知识库,数据源是基础。全面、高质量的数据能够准确涵盖系统将要查询的领域和主题。
数据清理/Data Cleaning
原始数据通常很嘈杂,包含不相关的内容、过时的信息和重复数据。在将数据输入矢量存储之前,有效的数据清理(如过滤和删除)至关重要。
隐私/Privacy or PII
企业数据通常包含敏感信息。确保适当处理 PII,并在适当的情况下检测、过滤、编辑并用合成数据替换,可以保护隐私、保持数据实用性并防止潜在的合规性问题。
文本提取/Text Extraction
从非结构化和半结构化来源中提取干净、可用的文本对于构建全面的知识库至关重要。对于复杂的文档,需要结合自动化工具和人工标注。
文本规范化/Text Normalisation
多个来源的数据缺乏一致性可能会导致相同的概念被视为不同实体,且模型匹配度较低。应用规范化规则对于高效利用文本数据至关重要。
分块策略/Chunking Strategy
常用方法包括固定大小分块、基于文档的分块和语义分块。总结或分层分块等方法也适用于长文档。
识别标记 /Recognition&Tagging
实体识别 (NER) 可以帮助模型连接段落并增强检索相关性,可通过具有自动化技术和人机验证的数据标注平台系统化地完成。
QUERY PROCESS————
数据查询流程
段落排名 Passage Ranking:检索组件显示与查询匹配的候选段落后,在传递给语言模型之前,按相关性对其进行排名和筛选至关重要。这可以避免模型从相关性较低的段落生成响应。排名可以通过相似度得分、上下文推理、元数据属性和查询段落对齐。
提示工程与设计 Prompt Engineering & Design:RAG 模型的有效性很大程度上取决于,能否通过在内容(查询 + 上下文)中添加相关检索数据,来增强用户输入。这些提示(Prompt)必须经过精心设计,才能有效获取和利用检索到的上下文,同时与输出响应(Response)所需的风格和语气保持一致。
持续的测试、评估和优化对于有效识别和监控模型性能至关重要。组件评估对于解决特定问题非常有效;端到端评估可用于评估整个系统的质量。总而言之,最终的目标是生成对人类有价值的响应。
用于训练 RAG 模型的数据可能十分复杂。澳鹏 Appen 数据标注平台及定制化服务,可助您无缝增强和集成专有数据,助力 RAG 的成功部署。
版权声明: 本文为 InfoQ 作者【澳鹏Appen】的原创文章。
原文链接:【http://xie.infoq.cn/article/20f5756506c88ad9a7a18b3b7】。文章转载请联系作者。
评论