写点什么

DSW-Gallery 使用体验 + 生成吸引人眼球的新闻标题

  • 2023-04-11
    北京
  • 本文字数:1683 字

    阅读完需:约 6 分钟

DSW-Gallery使用体验+生成吸引人眼球的新闻标题

在实操上手操作之前,首先需要确认一下相关的专业名词的定义。

什么是 EasyNLP

官方文档中定义:EasyNLP 是 PyTorch 中易于使用的 NLP 开发和应用工具包,它采用可扩展的分布式训练策略构建,并支持适用于各种 NLP 应用的一整套 NLP 算法。集成了知识蒸馏和 few-shot learning,用于落地大型预训练模型。

什么是 mT5

官方定义是:T5 是由谷歌提出的一个序列到序列预训练模型,它将不同的生成任务进行统一,在兼顾迁移性的前提下取得了文本生成领域的最佳性能。mT5 是 T5 的多语言版本,该模型利用包含 101 种语言的语料训练得到多语言预训练模型。

在 EasyNLP 中,我们提供了经过训练的 mT5(其它模型可见列表),以便用户能够受益于模型强大的建模能力。该模型是在 mT5 的基础上利用新闻数据进行微调得到。本文将以生成吸引人眼球的新闻标题为例,将 mT5 作为模型底座构建标题生成模型,展示如何利用 EasyNLP 进行模型构建、训练、评估、预测。

生成吸引人眼球的新闻标题

机器学习 PAI 体验地址:https://click.aliyun.com/m/1000370361/

开通机器学习 PAI 服务

如果没有开通机器学习 PAI,那么你需要先开通


点击【免费开通并创建默认工作空间】


确认之后会出现弹窗提示,


我们选择【去授权】,进入到授权页面


点击【同意授权】之后,再次回到开通页面点击确认按钮,会看到【等待...】的提示


等待之后就显示开通成功


生成新闻标题

点击机器学习 PAI 首页的 DSW Gallery,找到【基于 EasyNLP 的中文新闻标题生成】


创建 DSW 实例

点击【在 DSW 中打开】,这时会弹出页面选择实例


这里如果 DSW 实例没有可选项的话,点击选择框下面的【这里】跳转到创建 DSW 实例页面。


输入自定义实例名称,这里选择 GPU P100 60GB 的资源


镜像选择 PAI-Pytorch 1.7/1.8 镜像,这样创建的 DSW 实例才符合基于 EasyNLP 的中文新闻标题生成 所需要的环境要求


点击【确认订单】跳转到确认页面


再次确认实例信息后勾选协议点击【创建实例】完成创建。

EasyNLP 安装

后续参考操作内容进行 EasyNLP 安装

! git clone https://github.com/alibaba/EasyNLP.git! pip install -r EasyNLP/requirements.txt -i http://mirrors.aliyun.com/pypi/simple/! cd EasyNLP ! python setup.py install
复制代码

使用如下命令验证是否安装成功:

! which easynlp
复制代码

这里我的 EasyNLP 安装是没有安装成功的,尝试了两次,安装了两个多小时还是一样的结果,可能是由于我不是在正式环境下安装的,而是在体验场景下安装,大家根据上面步骤在正式环境安装哈


下面按照程序继续进入数据准备

数据准备

下载用于本示例的训练和测试集,并创建保存模型的文件夹

! wget http://atp-modelzoo-sh.oss-cn-shanghai.aliyuncs.com/release/tutorials/generation/cn_train.tsv! wget http://atp-modelzoo-sh.oss-cn-shanghai.aliyuncs.com/release/tutorials/generation/cn_dev.tsv
复制代码

数据下载完成后,可以通过以下代码查看第一条数据

print('Training data sample:')! head -n 1 cn_train.tsvprint('Development set data sample:')! head -n 1 cn_dev.tsv
复制代码

后续可以继续参考官方文档的步骤逐步操作下去即可。

DSW-Gallery 使用感受

建议

在使用过程中,个人觉得能在 DSW 的实例中内置好 EasyNLP 安装的安装内容呢?这里按照操作文档逐步执行安装 EasyNLP 的过程真的很痛苦,单说从 git 拉文件以及执行! pip install 就持续了一个多小时,实在是太磨炼人的耐心了,最尴尬的是好不容易都安装完成之后验证 EasyNLP 是否安装成功时,验证命令返回 no EasyNLP;因此个人强烈建议 DSW 实例可以内置 EasyNLP,这样对于提升用户体验,帮助用户更快掌握 DSW Gallery 操作一定会大有助益的。

日常应用

通过预览案例,在 DSW 实例中快速启动案例,或将案例修改为适合自己的使用场景。通过 DSW Gallery,丰富的案例和解决方案可提升研发的效率和质量,帮助新手快速完成模型构建和训练。在日常工作中博文提取摘要,以及公众号,媒体文件等提取核心内容等,在这个自媒体,不单是视频也包括文本的时代,应用的场景会越来越广泛,伴随着 DSW Gallery 后续功能的不断优化,操作的不断简单化,功能会越来越强大,也会越来越普适化,祝 DSW Gallery 越来越好。

最后,更多玩转云产品,点击进入:https://click.aliyun.com/m/1000370361/

用户头像

让技术不再枯燥,让每一位技术人爱上技术 2022-07-22 加入

还未添加个人简介

评论

发布
暂无评论
DSW-Gallery使用体验+生成吸引人眼球的新闻标题_模型训练_六月的雨在InfoQ_InfoQ写作社区