写点什么

知识蒸馏

0 人感兴趣 · 7 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/30/307fd2982f0831d12cae21dbf39cbb6c.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

TextBrewer: 融合并改进了 NLP 和 CV 中的多种知识蒸馏技术、提供便捷快速的知识蒸馏框架、提升模型的推理速度,减少内存占用

TextBrewer是一个基于PyTorch的、为实现NLP中的知识蒸馏任务而设计的工具包,融合并改进了NLP和CV中的多种知识蒸馏技术,提供便捷快速的知识蒸馏框架,用于以较低的性能损失压缩神经网络模型的大小,提升模型的推理速度,减少内存占用。

https://static001.geekbang.org/infoq/ef/ef22d6fa64cd85f515d3620961ba0c34.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

深度学习实践篇 [17]:模型压缩技术、模型蒸馏算法:Patient-KD、DistilBERT、DynaBERT、TinyBERT

理论上来说,深度神经网络模型越深,非线性程度也就越大,相应的对现实问题的表达能力越强,但相应的代价是,训练成本和模型大小的增加。同时,在部署时,大模型预测速度较低且需要更好的硬件支持。但随着深度学习越来越多的参与到产业中,很多情况下,需要将

https://static001.geekbang.org/infoq/fd/fd3ad8f364ae44077018262d39b5f1f0.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

卷积神经网络的压缩方法总结

我们知道,在一定程度上,网络越深,参数越多,模型越复杂,其最终效果越好。神经网络的压缩算法是,旨在将一个庞大而复杂的预训练模型(pre-trained model)转化为一个精简的小模型。我们将模型压缩技术分为“前端压缩”和“后端压缩”两部分。

基线提升至 96.45%:2022 司法杯犯罪事实实体识别 + 数据蒸馏 + 主动学习

本项目给出本次法研杯详细的技术方案,从UIE-base开始到UIE数据蒸馏以及主动学习的建议,欢迎大家尝试,ps:主动学习标注需要自行实现,参考项目,楼主就不标注了。

知识蒸馏相关技术【模型蒸馏、数据蒸馏】以 ERNIE-Tiny 为例

基于ERNIE预训练模型效果上达到业界领先,但是由于模型比较大,预测性能可能无法满足上线需求。直接使用ERNIE-Tiny系列轻量模型fine-tune,效果可能不够理想。如果采用数据蒸馏策略,又需要提供海量未标注数据,可能并不具备客观条件。因此,本专题采用主流的

解读知识蒸馏模型 TinyBert

​​​​​​​​摘要:本篇文章的重点在于改进信息瓶颈的优化机制,并且围绕着高纬空间中互信息难以估计,以及信息瓶颈优化机制中的权衡难题这两个点进行讲解。

知识蒸馏_知识蒸馏技术文章_InfoQ写作社区