从海量信息中脱颖而出:Workflow 智能分析解决方案,大语言模型为 AI 科技文章打造精准摘要评分体系 (总篇章)
从海量信息中脱颖而出:Workflow 智能分析解决方案,大语言模型为 AI 科技文章打造精准摘要评分体系(总篇章)
1.简介
该项目整合了编程、AI、产品设计、商业科技及个人成长等多领域的精华内容,源自顶尖技术企业和社群。借助先进语言模型技术,对精选文章进行高效摘要、专业评分及多语种翻译,实现了从初步评估到深入剖析,再到传播的全面自动化流程。通过引入 Workflow 平台,该项目显著提升了内容处理的速度与质量,为读者带来更加便捷、精准且多元化的阅读体验,满足了不同背景与需求的学习者及专业人士的信息渴求。
其主要原理是通过 RSS 订阅和爬虫,收集来自各个领域的优质博客文章,并通过大语言模型进行筛选和评估,以提高内容的质量和效率。其核心特性包括:
精准核心摘要,高效信息获取:采用前沿的大语言模型技术,精准提炼每篇文章的核心精髓,使读者即便在忙碌中也能迅速抓住关键信息,提升阅读效率与质量。
智能多维度评分,优质内容甄选:严格筛选文章来源,依托大语言模型的强大能力,从内容深度、写作质量、实用价值及关联性等多个维度进行综合评价,确保为读者推荐的都是经过精心挑选的优质内容。
无缝多语言翻译,全球知识共享:借助行业领先的翻译解决方案,旨在打破语言壁垒,让开发者都能轻松跨越语言障碍,自由访问并吸收世界各地宝贵的专业知识与见解,促进全球知识的无缝交流与共享。
Workflow 优势
原方案采用了一揽子大而全的提示词策略来处理文章的摘要、标签生成、评分及翻译,然而,这种综合性方法带来了多重挑战,包括摘要遗漏关键信息、标签不统一、评分机制调整复杂、翻译结果生硬,以及运维过程中的修改、测试与部署效率低下。原网站采用了一揽子大而全的提示词策略来处理文章的摘要、标签生成、评分及翻译,然而,这种综合性方法带来了多重挑战,包括摘要遗漏关键信息、标签不统一、评分机制调整复杂、翻译结果生硬,以及运维过程中的修改、测试与部署效率低下。
1.0 Workflow 应该如何选择
在选择 AI 应用开发平台时,了解不同平台的功能、社区支持以及部署便捷性是非常重要的。在选择 AI 应用开发平台时,了解不同平台的功能、社区支持以及部署便捷性是非常重要的。
1.0.1 MaxKB/Dify 的优势与劣势
优势
大模型接入灵活性
:提供了多种大模型接入方式,支持多种 API 接口,使得开发者可以根据需求灵活选择和切换模型,这对于需要高性能模型的应用场景尤为重要。强大的Chat功能
:Chat 功能不仅支持多轮对话,还能通过智能推荐和上下文理解提升用户体验,适用于需要复杂交互的场景。丰富的知识库支持
:内置了知识库管理系统,支持多种数据格式的导入和导出,便于用户管理和利用知识资源。高效的Workflow设计
:Workflow 设计简洁直观,支持拖拽式操作,使得非技术人员也能快速上手,大大降低了使用门槛。Prompt IDE
:提供的 Prompt IDE 工具,让开发者可以更直观地调试和优化提示词,提升了开发效率。劣势
学习曲线
:虽然界面设计较为友好,但对于初学者来说,仍需要一定时间来熟悉其工作流程和功能。社区支持
:相较于一些成熟的开发平台,社区活跃度和资源丰富度还有待提升,这可能会影响到开发者在遇到问题时的解决速度。定制化程度
:虽然 Dify 提供了丰富的功能,但在某些高度定制化的需求上,可能还需要进一步的开发和调整。
1.0.2 FastGPT/RagFlow 的优势与劣势
优势
Agent智能体
:Agent 智能体功能强大,能够自动执行复杂任务,减少了人工干预的需求,适用于需要自动化处理大量任务的场景。LLMOps支持
:提供了 LLMOps 支持,使得开发者可以更方便地进行模型训练、优化和部署,这对于 AI 模型的持续迭代和优化至关重要。后端即服务
:提供了后端即服务的功能,简化了后端开发流程,使得开发者可以更专注于前端和业务逻辑的开发。强大的RAG引擎
:RAG 引擎能够高效地处理和检索大量数据,适用于需要快速响应和高吞吐量的应用场景。劣势
功能复杂性
:FastGPT 的功能较为复杂,对于初学者来说,可能需要较长时间来掌握其使用方法和技巧。部署难度
:相较于一些轻量级的开发平台,FastGPT 的部署过程可能更为复杂,需要一定的技术背景和经验。用户界面
:虽然 FastGPT 的功能强大,但其用户界面可能不如一些竞争对手直观和友好,这可能会影响到用户的使用体验。
1.0.3 根据需求选择平台
选择合适的平台首先要明确自己的需求。Dify 和 FastGPT 各有特点,适用于不同的应用场景。
MaxKB/Dify:适合需要快速构建和部署 AI 应用的开发者,提供了丰富的预设模板和集成工具,使得开发者可以快速上手,尤其适合初学者和需要快速验证想法的团队。
FastGPT/RagFlow:适合需要高度定制化和复杂工作流的企业级用户,提供了强大的 RAG 引擎和 Workflow orchestration,能够处理复杂的业务逻辑和数据处理需求。
在选择平台时,应考虑以下因素:
项目规模:如果是小型项目或初创团队,MaxKB/Dify 的快速部署和简单易用性可能更适合。如果是大型企业级项目,FastGPT/RagFlow 的强大功能和定制化能力更为合适。
技术栈:考虑团队现有的技术栈和成员的技术背景。在技术实现上有所不同,选择与团队技术栈匹配的平台可以减少学习成本和开发难度。
功能需求:明确项目所需的核心功能,如大模型接入、Chat 功能、知识库等。Dify 和 FastGPT 在这些功能上各有优势,根据具体需求进行选择。
1.0.4 社区与支持对比
社区支持和资源丰富度对于平台的选择也至关重要。
MaxKB/Dify:拥有一个活跃的社区,提供了丰富的文档、教程和示例代码。社区成员经常分享使用心得和解决方案,对于遇到的问题可以快速得到帮助。
FastGPT/RagFlow:社区相对较小,但提供了专业的技术支持团队。对于企业级用户,FastGPT 提供了定制化的技术支持和咨询服务,确保项目的顺利进行。
在选择平台时,应考虑以下因素:
社区活跃度:活跃的社区意味着更多的资源和更快的解决问题速度。社区活跃度较高,适合需要快速解决问题的开发者。
技术支持:对于企业级用户,专业的技术支持至关重要。提供了专业的技术支持,适合对技术支持有较高要求的用户。
1.0.5 部署与使用便捷性
部署和使用的便捷性直接影响开发效率和成本。
MaxKB/Dify:提供了简单易用的界面和一键部署功能,使得开发者可以快速将应用部署到云端或本地。文档详细,适合初学者快速上手。
FastGPT/RagFlow:部署相对复杂,需要一定的技术背景和配置。提供了强大的定制化能力,适合对性能和功能有较高要求的用户。
在选择平台时,应考虑以下因素:
部署难度:MaxKB/Dify 的部署过程简单,适合需要快速部署的开发者。FastGPT/RagFlow 的部署相对复杂,但提供了更多的配置选项。
使用便捷性:MaxKB/Dify 的用户界面友好,操作简单。FastGPT/RagFlow 的用户界面相对复杂,但提供了更多的功能和定制化选项。## 7.0 优劣势选择
1.1 RSS 源订阅
网站文章来源于以下所有 RSS 订阅源(200 个):
其中微信公众号转 RSS 采用 wewe-rss 项目搭建,目前已支持的微信公众号 RSS 订阅源(200 个)整理如下:
具体资料见码源:BestBlogsRSS.opml
、WeWeRSS.opml
文件
更多技术细节参考 RSSHUB:https://github.com/DIYgod/RSSHub
wewe-rss:https://github.com/cooderl/wewe-rss
阿里技术
新智元
1.2 实现原理
文章爬取流程:基于 RSS 协议,爬取所有订阅源的文章信息,包括标题、链接、发布时间等,通过链接和无头浏览器爬取全文内容。通过订阅源上定义的正文选择器提取正文,并对正文的 HTML、图片等进行处理,放入待处理文章列表。
文章初评流程:通过语言、文章内容等特征,对文章进行初次评分,剔除低质量文章和营销内容,减少后续步骤处理。
文章分析流程:通过大语言模型对文章进行摘要、分类和评分,生成一句话总结、文章摘要、主要观点、文章金句、所属领域、标签列表和评分等,便于读者快速过滤筛选及了解全文主要内容,判断是否继续阅读。包括 分段分析 - 汇总分析 - 领域划分和标签生成 - 文章评分 - 检查反思 - 优化改进 等节点。
分析结果翻译流程:通过大语言模型对文章分析结果进行翻译,目前网站支持中英两种语言,根据原文语言和目标语言对摘要、主要观点、文章金句、标签列表等进行翻译。包括 识别专业术语 & 初次翻译 - 检查翻译 - 意译 等环节。
1.2.1 文章初评流程
流程说明:
为了便于测试和接口调用,本流程设计以网站的文章 ID 作为输入。通过 Workflow 内置的 HTTP 调用节点和代码节点,能够高效地调用网站的 API,进而获取到文章的元数据(包括标题、来源、链接、语言等)以及全文内容。
针对中文和英文文章,采用了不同的模型和提示词,这样的设计使得可以更加灵活地调整和优化处理流程,以适应不同语言文章的特点。
在文章初评的 LLM 节点中,采用了 CO-STAR 提示词框架来明确上下文、目标、分析步骤以及输入输出格式,并提供了输出示例。完整的提示词设置可以在上述项目地址中查看,以便更好地理解和应用。
网站应用通过调用 Dify Workflow 开放的 API,传入文章 ID 并获取到文章的初评结果。根据结果中的 ignore 和 value 属性,可以判断是否需要继续对文章进行后续处理。
1.2.2 文章分析流程
流程说明:
分析流程的输入同样是网站的文章 ID。借助 Workflow 内置的 HTTP 调用节点和代码节点,我们能够方便地调用网站的 API,从而获取到文章的元数据(涵盖标题、来源、链接、语言等信息)以及全文内容。
为了确保不遗漏文章中的任何关键信息,分析流程首先会判断文章的长度。如果文章长度超过 6000 个字符,我们会进行分段处理;否则,将直接对全文进行分析。
分析的内容输出主要包括一句话总结、文章摘要、关键词、主要观点和精彩语句等,这些元素能够帮助读者快速了解文章的核心内容。
在分析流程中,我们充分利用了 Workflow 中的分支、迭代、变量聚合等节点,这使得我们能够对流程进行灵活的控制。对于不同的分支处理结果,我们可以使用变量聚合将全文分析的内容整合在一起,便于后续节点的处理。
接下来是领域划分和标签生成节点。我们通过大语言模型对文章内容进行分类,生成文章所属的领域和标签列表。这些标签涵盖了主题、技术、应用领域、产品、公司、平台、名人、趋势等多个方面,有助于后续文章的组织,并增强搜索和推荐功能的效果。
在文章评分节点中,我们利用大语言模型对文章内容进行多维度的评估,包括内容深度、写作质量、实用性、相关性等。这将生成文章的评分,帮助读者快速筛选出优质文章。
随后的检查反思节点要求大语言模型扮演技术文章评审专家的角色。它会对前述的输出进行全面性、准确性、一致性等方面的检查,并输出检查结果和反思内容。
最后是基于检查反思结果的优化改进节点。在这里,大语言模型会分析检查和分析结果,并再次确认输出格式和语言。最终,它将输出优化后的分析结果以及更新原因。
网站应用通过调用 Workflow 开放的 API,传入文章 ID 并获取并保存文章的分析结果。根据文章的评分,我们可以判断是否需要继续对文章进行后续处理。
1.2.3 分析结果翻译流程
流程说明:
翻译流程的输入为网站的文章 ID。通过 Workflow 内置的 HTTP 调用节点和代码节点,我们可以调用网站的 API,获取文章的元数据(包括标题、来源、链接、原文语言、目标语言等),以及全文内容和分析结果。
翻译流程采用了“初次翻译--检查反思--优化改进,注重意译”的三段式模式。这一模式旨在确保翻译更加贴近目标语言的表达习惯,提升翻译的准确性和自然度。
2. 文章初评流程
流程说明:
为了便于测试和接口调用,本流程设计以网站的文章 ID 作为输入。通过 Workflow 内置的 HTTP 调用节点和代码节点,能够高效地调用网站的 API,进而获取到文章的元数据(包括标题、来源、链接、语言等)以及全文内容。
针对中文和英文文章,采用了不同的模型和提示词,这样的设计使得可以更加灵活地调整和优化处理流程,以适应不同语言文章的特点。
在文章初评的 LLM 节点中,采用了 CO-STAR 提示词框架来明确上下文、目标、分析步骤以及输入输出格式,并提供了输出示例。完整的提示词设置可以在上述项目地址中查看,以便更好地理解和应用。
网站应用通过调用 Dify Workflow 开放的 API,传入文章 ID 并获取到文章的初评结果。根据结果中的 ignore 和 value 属性,可以判断是否需要继续对文章进行后续处理。
文章 id 获取
2.1 文章初评 LLM 节点
2.1.1 System Prompt
以下为中文文章初评的提示词,对于英文文章,只是将提示词翻译成英文。
2.1.2 User Prompt
2.2 测试示例
中文文章测试结果
英文文章测试结果
3. 文章分析流程
流程说明:
分析流程的输入同样是网站的文章 ID。借助 Workflow 内置的 HTTP 调用节点和代码节点,我们能够方便地调用网站的 API,从而获取到文章的元数据(涵盖标题、来源、链接、语言等信息)以及全文内容。
为了确保不遗漏文章中的任何关键信息,分析流程首先会判断文章的长度。如果文章长度超过 6000 个字符,我们会进行分段处理;否则,将直接对全文进行分析。
分析的内容输出主要包括一句话总结、文章摘要、关键词、主要观点和精彩语句等,这些元素能够帮助读者快速了解文章的核心内容。
在分析流程中,我们充分利用了 Workflow 中的分支、迭代、变量聚合等节点,这使得我们能够对流程进行灵活的控制。对于不同的分支处理结果,我们可以使用变量聚合将全文分析的内容整合在一起,便于后续节点的处理。
接下来是领域划分和标签生成节点。我们通过大语言模型对文章内容进行分类,生成文章所属的领域和标签列表。这些标签涵盖了主题、技术、应用领域、产品、公司、平台、名人、趋势等多个方面,有助于后续文章的组织,并增强搜索和推荐功能的效果。
在文章评分节点中,我们利用大语言模型对文章内容进行多维度的评估,包括内容深度、写作质量、实用性、相关性等。这将生成文章的评分,帮助读者快速筛选出优质文章。
随后的检查反思节点要求大语言模型扮演技术文章评审专家的角色。它会对前述的输出进行全面性、准确性、一致性等方面的检查,并输出检查结果和反思内容。
最后是基于检查反思结果的优化改进节点。在这里,大语言模型会分析检查和分析结果,并再次确认输出格式和语言。最终,它将输出优化后的分析结果以及更新原因。
网站应用通过调用 Workflow 开放的 API,传入文章 ID 并获取并保存文章的分析结果。根据文章的评分,我们可以判断是否需要继续对文章进行后续处理。
运行时间:157.478s,总 token 消耗数:29114 Tokens
批量处理大量文章时,可以在开始节点入参里就直接把你要出来的文章元数据和内容传入,而不是通过 HTTP 接口去获取
由于文章篇幅问题:文章分析流程见:文章分析流程
4.分析结果翻译流程
流程说明:
翻译流程的输入为网站的文章 ID。通过 Workflow 内置的 HTTP 调用节点和代码节点,我们可以调用网站的 API,获取文章的元数据(包括标题、来源、链接、原文语言、目标语言等),以及全文内容和分析结果。
翻译流程采用了“初次翻译--检查反思--优化改进,注重意译”的三段式模式。这一模式旨在确保翻译更加贴近目标语言的表达习惯,提升翻译的准确性和自然度。
由于文章篇幅问题:文章翻译流程见:翻译篇章
原文链接:https://blog.csdn.net/sinat_39620217/article/details/141399014
5.总结与展望
5.1 总结
该项目整合了编程、AI、产品设计、商业科技及个人成长等多领域的精华内容,源自顶尖技术企业和社群。借助先进语言模型技术,对精选文章进行高效摘要、专业评分及多语种翻译,实现了从初步评估到深入剖析,再到传播的全面自动化流程。通过引入 Workflow 平台,该项目显著提升了内容处理的速度与质量,为读者带来更加便捷、精准且多元化的阅读体验,满足了不同背景与需求的学习者及专业人士的信息渴求。
该项目作者提供更大价值在于后续我们再面对更复杂的流式任务时,可以借鉴他的解决方法,我手上任务进行拆解,和 LLM 一起,保质保量完成最终效果上述使用模型为:deepseek 的大模型,目前感觉效果还可以
5.2 展望
智能搜索优化
:Workflow 智能解析搜索意图,深度融合文章领域分类、关键词匹配、标签筛选及摘要概览,构建出前所未有的精准搜索引擎,让读者在信息的海洋中迅速定位所需知识,提升搜索效率。个性化内容推荐升级
:依托用户阅读历史与兴趣偏好,我们精心打造了一套智能推荐算法,为每位用户量身定制专属文章列表,确保每一次滑动都是惊喜,让阅读更加贴心、高效。交互式问答体验革新
:引入先进的人工智能技术,我们构建了基于文章深度理解的智能问答平台。读者可直接向系统发起疑问,即时获得精准解答,消除阅读障碍,促进知识吸收与理解。全球语言无界阅读
:Workflow 赋能全文翻译功能,打破语言壁垒,让读者轻松畅游全球优质技术文章的海洋。无论是英语、日语还是法语,只需一键,即可享受沉浸式阅读体验,拓宽知识视野。
参考链接
版权声明: 本文为 InfoQ 作者【汀丶人工智能】的原创文章。
原文链接:【http://xie.infoq.cn/article/794b5d75432b69b5dfb9047ae】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论