决策树训练速度提升 99% 的新方法
决策树训练加速新方法
梯度提升决策树是机器学习中广泛使用的模型,因其在大规模在线搜索应用中兼具高准确性和高效率而备受青睐。然而当训练数据包含大量潜在特征(如数千个)而实际仅需使用部分(如数百个)时,传统训练方法会因评估大量无关特征而导致效率低下。
在即将召开的国际人工智能与统计会议上发表的研究中,提出了一种新型梯度提升决策树训练方法。当总特征集规模远大于必要特征集时,该方法相比现有最高效的前序技术(梯度提升特征选择)展现出显著优势。
技术实现
特征预处理:
对每个特征值进行归一化处理,使其落入[0,1]区间
随机将特征划分为两组,创建两个伪特征(其值为组内特征归一化值之和)
重复该过程多次,生成多组均匀划分特征集的伪特征对
训练优化:
在每个决策点评估伪特征对而非原始特征
选择预测效果更优的伪特征继续二分
通过迭代二分最终确定单个特征作为决策标准
评估次数从 O(n)降至 O(log n)
实验验证
在三个标准基准测试中验证该方法:
多任务学习优势
该方法特别适用于多任务学习场景:
同时训练三个任务时,每个任务的性能均优于单独训练
相比标准多任务训练方法,在所有任务上都展现出性能提升
技术原理
决策树模型通过序列化构建多棵二叉树(可能达数百棵),每棵新树致力于最小化前序树的残差误差(即梯度提升)。模型整体输出是所有树的聚合结果。传统方法在每个决策点需要评估所有特征的最佳分割阈值,而新方法通过伪特征二分显著降低了计算复杂度。
理论分析表明,给定足够训练数据,该近似方法仍能收敛到最优决策树集。实验数据证实该方法在保持精度的同时,大幅提升了训练效率。更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)公众号二维码

办公AI智能小助手
评论