飞桨 EasyDL 助力资讯网站实现信息自动分类

2022 年 4 月 15 日
本文字数：2802 字
阅读完需：约 9 分钟

编者按

EasyDL NLP 内置文心·NLP 大模型，业务冷启动阶段仅需少量数据即可获得产业级 AI 模型，助力业务快速落地。文心·NLP 大模型面向语言理解、语言生成等场景具备超强语言理解能力以及对话生成、文学创作等能力，行业应用性及适配性好。本文将从文本分类任务开启，基于汽车资讯类网站信息分类案例，为大家讲解 EasyDL NLP 的典型应用场景~

资讯平台发展趋势

Feed 流普及助力资讯类应用活跃增长

随着移动互联网的发展，尤其是 Feed 流这种阅读方式的普及，丰富了用户自生产信息的渠道，资讯信息应用的活跃度指数更是呈现一个指数级的增长。

那什么叫 Feed 流的普及应用？下图即是一种交互形势：

通过为用户自动并主动寻找其感兴趣的内容，把内容精准推送到符合这一标签的用户画像群体当中，这就是 Feed 流的一种信息阅读方式。

随着这种方式的普及，很多耳熟能详的资讯类的应用，如百度 APP、腾讯新闻、今日头条、新浪、搜狐等新闻资讯网站及 APP，逐渐使用 Feed 流助力平台整体扩大推广路径。

在这种背景下，资讯类平台每天接收及处理信息的数量也在飞速增长。以资讯类平台的信息从生产到发布的全流程来讲，可概括为三步骤。

第一步，信息生产。作为资讯类应用，资讯生产的来源是多种多样的，主要包括以下三个部分。

①网络爬取：比如，网上相关联的优质内容，我们可以通过自动化抓取策略，自动展示在资讯类应用网站的内容推送中；

②用户自生产：类似于抖音、小红书等，更多资讯内容来源于 UGC 内容输出构成；

③资讯类网站：有专业的运营/宣发团队进行内容信息处理。他们需要处理大量图片、语音、视频，文本信息。

第二步，信息审核。作为专业的资讯平台，需要多轮审核以确保 UGC 信息合规。审核的纬度包括：有无敏感词，爆恐词，违禁词，广告词等。之前通过人工方式来审核，以一条文本审核的效率为例：一位审核员一天最多情况下只能审核五千条的文本信息，而一个在线的 UGC 资讯网站，平均一小时接收的文本信息就可能超过百万条，如果还是用人工逐一筛检，效率非常低，这是在资讯平台信息处理中常见的痛点。

第三步，信息发布。以下图右侧案例：直播间用户发布弹幕文字信息为例。在这种发布情况下，对时效要求极其高，接近实时级审核，并完成推送。弹幕需要快速发布，才有直播互动的意义。

从上述信息发布的过程中，我们可以看到 AI 能够发挥作用的空间很多，尤其突出在内容分类、分析及内容审核三部分。本文将重点讲述资讯类平台是如何运用 AI 快速实现的标题/文章分类。

资讯类平台

如何利用 AI 实现信息自动分类

某汽车资讯平台在汽车业务、汽车采购、汽车车友组织等方面有多年的垂类行业经验积累，但在 AI 算法领域尚无技术积淀。但目前企业遇到实际业务问题是：面对大量汽车资讯类内容，部分来自用户 UGC 生产的内容、部分来自平台、自运营频道打造的专项精品的内容，也有来自定向合作伙伴网站抓取的内容。

作为这家汽车资讯平台，他们需要对以上所有内容进行快速分类、审核并推送到不同专栏下。

然而，作为汽车资讯专栏，常见内容多是涉及汽车的改装美容、自驾游记、新车作业、购车优惠等更加垂类的内容。而市场上针对这类文本的分类解决方案几乎没有。

汽车资讯平台标题分类

企业前期尝试通过组建算法团队满足业务需求，但评估下来发现投入的成本非常高。组建算法团队、匹配的机器资源，运维人员的到位，综合成本需达到百万级。而企业的核心诉求是希望能够降低前期的投入，利用 AI 赋能文本分类场景，提高文章发布的效率。而 AI 实现自动文本分类实践中会遇到以下几个问题：

以上业务问题，采用飞桨 EasyDL 零门槛 AI 开发平台迎刃而解。

成本控制：如何降低业务探索阶段的成本投入？没有算法基础是否也能利用 AI 解决业务问题？答案是肯定的。飞桨 EasyDL 零门槛 AI 开发平台就很够很好解决这一问题，用户可在公有云平台上进行 AI 模型训练，无需算法基础也可流畅体验。基于 EasyDL 节省了包括机器资源、人力、时间等在内的百万级成本。

数据处理：模型训练依赖数据，怎样可以高效地完成数据处理。如果是常规模式，需要依赖大量准确标注数据才有可能确保模型训练效果。而使用飞桨 EasyDL，只需前期采集一千条以下的原始数据并完成标注，就可获得高精度产业应用模型。同时，EasyDL 提供的高效率标注工具：智能标注，可以在只标注 30%数据前提下，完成整体数据处理工作，大幅提升效率，节省 70%的人力。

模型精度：如何确保模型精度？在 EasyDL 文本中内置百度的文心·NLP 大模型，对于没有 AI 基础的用户来说，在业务冷启动阶段，训练数据不充足的情况下，可以确保少量数据（20 余条）进行训练即可获得产业级的 AI 模型；此外，在模型核心的筛选指标部分，提供多种业务逻辑可选择，在召回率和准确率取得一个平衡的综合指标，既可保证模型的高精度，也可保证能够在一定的召回情况下，减少机器审核完毕后，人工再来复核的成本。

部署调用：模型训练完毕后去部署，需要形成可调用的服务且保证服务的稳定性。尤其作为一家汽车资讯类网站，用户来自天南海北，同时浏览资讯的高并发业务场景非常普遍。这需要非常安全稳定的服务部署机制，用以保证线上用户的稳定调用。通过飞桨 EasyDL 生成的公有云的 API，它可以有效地解决以下两个问题：

①可以无缝集成到业务系统当中；提供已经封装好的 HTTP 的接口，直接就可以将接口运用到 APP 开发或者网页的开发中；

②灵活的扩缩容的机制；针对业务实际应用的场景，在不同的时间段匹配不同的机器资源，避免在资源紧张期资源不够用。同时，在业务需求并非高并发时段，通过灵活调整机器份额的方式，省去机器资源的耗费。

最终，在整个项目中仅用 2-4 周就完成 AI 文本模型开发及上线，比传统的开发成本整体降低 90%+。

基于文心大模型底座

你也可以实现高精度 AI 模型诉求

该汽车资讯平台之所以能够利用 EasyDL 快速实现文本自动分类，背后依赖百度的文心·NLP 大模型的技术加持。通过内置百度的文心·NLP 大模型底座的高精度算法，用户可以完成复杂场景的高精度模型训练，比如上述提到的

案例中网站标题繁多且语法不统一的问题，就可迎刃而解。同时，无需准备大量数据集也可获得高精度的模型投入实际应用。

百度的文心·NLP 大模型能够同时从大规模知识和海量多元数据中持续学习，如同站在巨人的肩膀上，训练效率和理解准确率都得到大幅提升。

百度的文心·NLP 大模型的优势

内置百度的文心·NLP 大模型的 EasyDL 零门槛 AI 开发平台，提供更加便捷的一站式 AI 开发能力，数据标注、模型训练、服务部署都可以在一个平台简单并连贯地实现。AI 模型训练环节不需要编写代码，也不需要深度学习的算法背景，就能轻松完成。

4 月 12 日晚 20:00—21:00，AI 快车道-评论观点抽取专场公开课，将深入探讨各行业网站运营趋势及痛点，剖析 AI 赋能下的平台智能化转型升级突破口。

直播中为大家准备了诸多飞桨 EasyDL 落地案例：新闻资讯平台、政务服务平台、电商平台的 AI 实践经验，或许从案例中你会收获更多灵感。

不止如此，我们还带来了 3 天实训打卡营，手把手带你快速启动自己的评论观点抽取 AI 模型。扫码立即报名，NLP 业务应用时不我待~

发布于: 刚刚阅读数: 2

百度大脑

关注

用科技让复杂的世界更简单 2020.07.15 加入

百度大脑是百度技术多年积累和业务实践的集大成，包括视觉、语音、自然语言处理、知识图谱、深度学习等 AI 核心技术和 AI 开放平台。即刻获取百度AI相关技术，可访问 ai.baidu.com了解更多！

发布

暂无评论

创作场景

飞桨 EasyDL 助力资讯网站实现信息自动分类

百度大脑

评论