写点什么

直播预告 | 如何在有限数据下实现资讯类网站海量信息自动分类

  • 2022 年 4 月 01 日
  • 本文字数:1329 字

    阅读完需:约 4 分钟

一个审核员一天只能审核 5000 条文本信息,而在线的 UGC 资讯网站往往平均一个小时接收的文本信息可能超过百万条。与此同时,还需要将杂乱的内容进行分类并发布到不同的专栏页面……信息爆炸的时代,海量信息的处理能力对各大互联网平台来说是核心竞争力之一。



如何运用 AI 技术处理海量内容并能真正捕捉高价值信息,也是目前企业持续探索的领域。

从内容的生产到发布流程复杂且人工效率低

维持资讯类 or 内容类网站需要大量的文本、图片、视频等信息,信息来源包括:用户自生产、平台自运营、网站爬取等各种方式。



杂乱的标题信息

海量信息处理需求 VS 效率低的人力审核分类,可想而知,很多优质或时效性极强的内容与大众擦肩而过。

资讯内容快速增长需要借助 AI 提供高效的信息处理手段

某企业主要经营新闻资讯网站,伴随业务及用户体量增长,网站需要对审核完成的文章快速发布到不同的专栏,如政治、财经、文化、娱乐等,但仅凭人力是无法完成这一诉求。

企业前期也在尝试组建算法团队通过传统 AI 开发方式进行开发,但很快发现需要克服的问题很多如何降低业务探索阶段的成本投入?模型训练依赖数据,网站标题内容覆盖广数量大,如何高效完成数据处理?网站文章标题种类多、语义复杂,如何能确保训练模型的精度效果?高日活的网站,对预测时延要求高,AI 自动文本分类能达到预期效果吗?

带着这些疑问,新闻资讯网站的技术负责人接触到了飞桨 EasyDL,结合对文章标题的处理逻辑,选择适用的任务类型-文本分类。



最终实现 10000 条文本信息使用智能标注仅耗时 1 小时,同时零代码训练出精确率达到 90%以上的可用模型,快速投入网站文本处理中。

从原本需要成本达百万级的算法投入,到现在零开发成本;从原本需要 1 年开发周期才可能上线 AI 自动文本分类到现在仅用 3 个月完成 AI 模型开发及完整方案上线……这些成果让该新闻资讯网站快速实现了 AI 高效处理信息的业务模式。

基于文心大模型底座你也可以实现高精度 AI 模型诉求

该新闻资讯网站之所以能够利用 EasyDL 快速实现文本自动分类,背后依赖百度飞桨文心·NLP 大模型的技术加持。

通过内置文心大模型底座的高精度算法,用户可以完成复杂场景的高精度模型训练,比如上述提到的案例中网站标题繁多且语法不统一的问题,就可迎刃而解。

同时,无需准备大量数据集也可获得高精度的模型投入实际应用。

文心大模型能够同时从大规模知识和海量多元数据中持续学习,如同站在巨人的肩膀上,训练效率和理解准确率都得到大幅提升。



文心大模型的优势

内置百度飞桨文心·NLP 大模型的 EasyDL 零门槛 AI 开发平台,提供更加便捷的一站式 AI 开发能力,数据标注、模型训练、服务部署都可以在一个平台简单并连贯地实现。AI 模型训练环节不需要编写代码,也不需要深度学习的算法背景,就能轻松完成。

4 月 12 日晚 20:00—21:00,AI 快车道-评论观点抽取专场公开课,将深入探讨各行业网站运营趋势及痛点,剖析 AI 赋能下的平台智能化转型升级突破口。

直播中为大家准备了诸多飞桨 EasyDL 落地案例:新闻资讯平台、政务服务平台、电商平台的 AI 实践经验,或许从案例中你会收获更多灵感。

不止如此,我们还带来了 3 天实训打卡营,手把手带你快速启动自己的评论观点抽取 AI 模型。扫码立即报名,NLP 业务应用时不我待~

扫码报名直播课,加入行业交流群

👇




关注【飞桨 PaddlePaddle】公众号获取更多技术内容~

用户头像

关注百度开发者中心,收获一手技术干货。 2018.11.12 加入

汇聚百度所有对外开放技术、平台和服务资源,提供全方位支持,助力开发者加速成功,实现开发者、消费者和百度三方共赢。https://developer.baidu.com/

评论

发布
暂无评论
直播预告 | 如何在有限数据下实现资讯类网站海量信息自动分类_百度开发者中心_InfoQ写作平台