[LG]《Understanding Data Influence with Differential Approximation》H Tan, S Wu, X Wu, W Wang... [University of Hong Kong & Chinese University of Hong Kong] (2025)
理解数据影响力的新范式:Diff-In 差分近似法展现卓越性能
• 传统影响函数假设损失函数凸性,难以满足大规模深度模型的实际情况,导致估计误差大,难以扩展。
• Diff-In 将样本影响表示为连续训练步骤间影响差异的累积,绕过凸性假设,允许精确的二阶近似,提高估计精度。
• 通过有限差分近似 Hessian-梯度乘积,Diff-In 计算复杂度接近一阶方法,兼具高效与精确,支持大规模模型训练动态感知。
• 理论分析证明 Diff-In 拥有多项式误差上界,优于现有指数增长误差方法,且实验证实其在数据清洗、数据删除及核心集选择任务中表现领先。
• 大规模视觉语言预训练数据剪枝实验表明,Diff-In 可扩展至千万级样本规模,优于强基线方法,提升模型性能且减少噪声影响。
• 实验涵盖 CIFAR、Tiny-ImageNet、ImageNet-1K 及 GSM8K 等多种数据集,Diff-In 在检测错误标签、剔除有害数据和选择高效训练子集方面均显著优于 IF、TracIn、DVE-INF 等方法。
• Diff-In 灵活支持多种优化器(SGD、带动量的 SGD、Adam),并通过采样时间步降低计算资源消耗,兼顾性能与实用性。
• 该方法为数据中心 AI 研究提供了更准确、高效且可扩展的工具,有望推动数据质量提升、模型稳健性增强及训练资源优化。
了解详情🔗 arxiv.org/abs/2508.14648
人工智能影响函数数据中心AI深度学习数据清洗机器学习优化