(1-15/15) 预训练模型 + 微调范式下如何做到文本数据安全

作者：mtfelix

2022.1.18 周二 mtfelix

今天在过一个项目方案的时候，碰到一个蛮有意思的技术需求。

预训练模型+微调范式

先给大家做个背景铺垫。

现在做自然语言处理，大都采用「预训练模型+微调」的技术范式。

简单解释下就是，基于某种架构设计的大参数模型，先经过海量的公开数据集(比如全量中文 wikipedia、全网中文网页等)进行训练，得到一个预先训练好的模型。期望（仅仅是期望）这个模型能把很多常见语言知识学个差不多。

然后在具体任务（比如，微博情感分类）上，利用针对这个具体任务标注的数据(比如，1 万条带情感极性标注的微博数据)进行微调训练。

这样，一个可以做具体任务的模型就出炉了。

一般把这个具体任务称为是「下游任务」。

今天碰到的需求是：项目中处理的文本数据，是非常核心的资产数据。

不是因为涉及用户信息(数据脱敏)这种，而是因为这个数据价值非常大，所以数据持有部门无法批量明文式提供给我们。

这样的话，对我们的模型训练就提出了不小的挑战。

目前我们盘点的几个解决思路：

在其他机制不变的情况下，目前我们觉得(3)是一个折中方案。

这个问题有意思的地方在于：想利用明文训练的预训练模型，去做一个无法获取明文的下游任务。

不知道大家有没有更好的建议？

有一种保护数据隐私，不共享数据但又能联合学习的范式叫联邦学习。

大概查了下，和我们的挑战应该不是一回事。

联邦机器学习是一个机器学习框架，能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下，进行数据使用和机器学习建模。联邦学习作为分布式的机器学习范式,可以有效解决数据孤岛问题,让参与方在不共享数据的基础上联合建模,能从技术上打破数据孤岛,实现 AI 协作。

发布于: 刚刚阅读数: 3

关注

内心平静是一生的追求 2018.01.17 加入

简单的技术人

发布

暂无评论