防止 NLP 模型更新在特定任务上性能倒退

作者：qife

机器学习模型更新的挑战

机器学习(ML)模型需要定期更新以提高性能，但重新训练模型存在风险，例如失去后向兼容性或出现行为回归，即模型在平均性能提升的同时，在特定任务上出现倒退。这种情况常常阻碍最先进的 ML 模型在生产 AI 系统中的快速采用。

先前关于防止模型回归的研究主要集中在分类任务上。但这些技术未能很好地推广到结构化预测任务，如自然语言解析(将输入句子映射为结构化表示)。在结构化预测中，任何局部预测的差异都会导致不兼容的全局结构。即使解析器共享相同的分解范式，参数化和训练程序的差异仍可能导致显著的行为不一致。

在 NeurIPS 会议上发表的研究中，提出了一种名为后向兼容重排(BCR)的新方法。BCR 采用了判别性重排的思想(一种提高解析准确性的知名方法)，具体是利用旧模型作为判别性重排器，对新模型产生的 n 个最佳假设进行评分。

为了量化后向兼容性，研究扩展了负翻转率(NFR)的概念，测量全局和局部预测层面的回归错误。还引入了负翻转影响(NFI)作为相对兼容性度量，定义为负翻转与总预测错误的比率。

在依赖解析和会话语义解析两个自然语言解析任务上的评估显示，BCR 能持续降低 NFR 和 NFI，且不影响新模型的准确性。相比知识蒸馏和模型集成方法分别实现的 3%和 28%NFI 相对降低，BCR 在所有模型更新设置中平均实现了 58%的 NFI 相对降低。

研究提出了一种新的 n 最佳候选解码方法——dropout-p 采样。该方法在推理过程中使用 dropout，增加输出的异质性而不牺牲质量。相比传统采样方法，dropout-p 采样具有以下优势：

实验显示，对于依赖解析器 deepbiaf 和 stackptr，在相同硬件条件下，解码和重排速度分别为 171/244 和 64/221 句每秒。在语义解析任务中，重排速度比解码快约 5 倍。

这些研究结果为实现平滑无回归的 ML 更新提供了有前景的新方法，使 AI 能够优雅地随时间演进。这些发现具有通用性，在某中心和更广泛领域都有实际应用价值。更多精彩内容请关注我的个人公众号公众号（办公 AI 智能小助手）公众号二维码

办公AI智能小助手

发布于: 刚刚阅读数: 3

关注

还未添加个人签名 2021-05-19 加入

还未添加个人简介

发布

暂无评论