在机器学习模型训练中,数据质量是决定模型性能的核心基石——“垃圾进,垃圾出”的道理早已成为行业共识。但在小样本、弱监督这两类常见的现实场景中,数据质量问题往往更隐蔽、更难排查,进而导致模型过拟合、泛化能力差、决策偏差等一系列问题。小样本场景下,标注数据稀缺,模型难以学习到足够的有效特征,极易被数据中的噪声误导;弱监督场景下,标签往往较为粗糙(如仅提供图像级标签而非像素级标签、文本级标签而非token级标签),模型无法精准定位任务相关的关键特征,更难区分有效数据与脏数据。此时,注意力可视化技术成为了破局的关键:它能将模型“暗中关注”的数据区域、特征权重直观呈现,让模型的决策过程从“黑箱”变为“透明”,从而反向追溯并定位隐藏在数据中的各类脏数据,为数据清洗和模型优化提供明确指引。