[LG]《When three experiments are better than two: Avoiding intractable correlated aleatoric uncertainty by leveraging a novel bias--variance tradeoff》P Scherer, A Kirsch, J P. Taylor-King [Relation] (2025)
现实实验中,异方差且批次内存在相关的不可约随机性(aleatoric uncertainty)极大挑战数据采集与模型优化。本研究提出基于偏差-方差权衡的新型主动学习方法,突破传统方法局限,具体亮点如下:
• 重新诠释均方误差(MSE)为模型不确定性(epistemic uncertainty)、偏差平方与异方差噪声三部分,明确不可减少噪声对采样策略的影响。
• 创新引入“协偏差-协方差”关系(cobias–covariance tradeoff),将历史实验数据通过矩阵的二次结构进行有效利用,提升偏差估计准确性。
• 设计基于该关系的批量采样策略,利用矩阵特征分解(eigendecomposition)选取代表性样本,兼顾样本多样性与信息量最大化。
• 提出二次估计(quadratic estimation)方法,较直接估计更稳定,尤其在低样本量及存在相关噪声(Type III问题)场景下表现优越。
• 系统验证涵盖无噪声(Type I)、独立噪声(Type II)及相关噪声(Type III)三类典型问题,实验证明所提方法在多种设置下均优于主流策略如BALD和Least Confidence。
• 彻底考虑实验噪声的异质性和相关性,适配单细胞测序等复杂生物实验批次特性,推动“实验室闭环”深度学习系统在生命科学领域的应用。
心得:
1. 利用三轮实验估计EMSE梯度,第三轮优化采样点,为主动学习提供了全新视角,强调数据序列间偏差变化的重要性。
2. 通过矩阵分解聚焦误差主导方向,批量选样策略由此具备数学严谨性,突破传统单点贪婪选择的局限。
3. 结合模型函数空间视角,主动学习不仅是信息增益最大化,更是函数逼近误差的精准控制,赋予方法更强泛化能力。
详情🔗arxiv.org/abs/2509.04363
主动学习偏差方差权衡异方差噪声协偏差协方差批量采样机器学习生命科学