写点什么

百度大脑 EasyData 智能数据服务平台上线文本数据清洗功能

用户头像
百度大脑
关注
发布于: 2021 年 02 月 07 日

我们采集或导出的原始文本数据中,通常包含着大量无关的 emoji 和 url 信息,面对大量的无用信息时该怎么办?少量数据通常我们可采用人工剔除的方式,但在数据量较大的情况下,往往就无从下手。


为了满足此类需求,EasyData 近期推出文本数据清洗功能,可以通过平台提供的数据清洗功能对文本数据集进行清洗。


当文本数据中存在 emoji 表情、无用 url 数据时,您可以使用数据清洗的功能进行去除。


文本数据清洗另外提供了繁体字转简体字功能,通常情况下在使用简体字可以取得更好的模型效果。可以使用该功能将文本数据中的繁体字转为简体字。


需要注意的是,文本数据清洗功能仅支持未标注数据的清洗。具体如何使用,可以参考以下步骤使用文本数据清洗功能。


如何使用文本数据清洗功能



Part 1-创建清洗任务


进入 EasyData 后台,点击左侧导航栏中的【清洗任务管理】,可进入清洗任务管理页面,点击【新建清洗任务】即可跳转到创建页面,清洗方式选择【文本数据清洗】。



Part 2-选择数据集版本


为保证清洗任务顺利进行: 当您的清洗前后数据集版本为两个数据集时,清洗前后两个数据集版本均会为您保留;


在清洗前选择数据集及版本号,在清洗后选择与清洗前相同的数据集,在版本号的地方新建版本号并选中。在选择数据集版本时您需要注意以下几点:


  • 清洗前的数据集需为非空且未标注的数据集;

  • 目前本系统不支持清洗前后的数据集版本相同;您可以新建清洗后的数据集版本;

  • 清洗后数据集版本标注信息需与清洗前保持一致,即清洗前后的数据集名称相同。



Part 3-选择数据集清洗方式


文本数据的清洗方式目前仅支持通用清洗方案,共有三种,根据清洗文本数据的需要,可同时选择 1 到多种清洗方式(最多可添加 3 种清洗方式),下面我们来分别对三种清洗方式进行具体介绍。


·  去掉清洗前文本中的表情等符号



·  去除文本数据中的网页链接



·  繁体转简体:指将文本中繁体字转为简体字(通常情况下在使用简体字可以取得更好的模型效果)



在完成以上步骤后,点击提交,即可完成清洗任务的创建,并返回清洗任务管理页面对清洗任务进行管理。 



关于 EasyData


EasyData 是百度大脑推出的智能数据服务平台,为具有 AI 开发需求的企业及个人开发者提供一站式数据处理服务。针对 AI 开发过程中的数据采集、数据标注、数据清洗等环节提供了软硬一体的自动化数据采集方案、智能标注、定制化清洗等领先能力。 同时 EasyData 已全面内置在 EasyDL 零门槛 AI 开发平台和 BML 全功能 AI 开发平台中,可以将 EasyData 处理的数据应用于 EasyDL、BML 的模型训练。


立即体验


EasyDL 零门槛 AI 开发平台:https://ai.baidu.com/easydl/


BML 全功能 AI 开发平台:https://ai.baidu.com/bml/


如果你在使用中遇到了一些问题,欢迎在下方跟帖留言


用户头像

百度大脑

关注

用科技让复杂的世界更简单 2020.07.15 加入

百度大脑是百度技术多年积累和业务实践的集大成,包括视觉、语音、自然语言处理、知识图谱、深度学习等 AI 核心技术和 AI 开放平台。 即刻获取百度AI相关技术,可访问 ai.baidu.com了解更多!

评论

发布
暂无评论
百度大脑 EasyData 智能数据服务平台上线文本数据清洗功能