机器学习数据收集优化技术解析
现代深度学习系统需要海量数据集才能实现优异性能,但关于收集数据量和类型的指导原则却很少。过度收集会导致不必要的成本,而收集不足则可能产生未来成本并延误工作流程。
提出了一种将数据收集工作流建模为形式化最优数据收集问题的新范式,允许设计者指定:
性能目标
收集成本
时间范围
未达目标的惩罚措施
该框架可泛化到具有多个数据源的任务(如半监督学习中的标记和未标记数据),并能轻松适配定制化分析场景(如向现有模型引入新类数据)。
为解决该问题,开发了 Learn-Optimize-Collect (LOC)算法,其可最小化预期未来收集成本。通过数值实验将本框架与传统基线(通过神经缩放定律外推数据需求)进行比较,在多个分类、分割和检测任务上:
显著降低未达性能目标的风险
同时保持较低的总收集成本更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)或者 我的个人博客 https://blog.qife122.com/公众号二维码
- 办公AI智能小助手
评论