近日,公司“数据挖掘与机器学习”团队(CUG-Miner)硕士研究生李慧茹以第一作者身份在数据挖掘领域三大国际顶刊之一的ACM Transactions on Knowledge Discovery from Data上发表了题为“Neighborhood Weighted Voting-Based Noise Correction for Crowdsourcing”的研究成果。
在众包场景中,可以从不同的众包工人那里获得每个实例的多噪声标记集,然后使用标记集成算法来推断每个实例的集成标签。尽管标记集成算法是有效的,但在集成标签中仍存在一定水平的噪声。为了减少噪声的影响,研究学者提出了许多噪声校正算法。然而,几乎现有的噪声纠正算法都只利用每个实例自己的多噪声标记集。而最近的研究表明,实例的空间结构也有助于识别和纠正噪声。因此,提出了一个新颖的噪声纠正算法——Neighborhood Weighted Voting-Based Noise Correction for Crowdsourcing (NWVNC),尝试利用每个实例邻居的多噪声标记集去识别和纠正噪声实例。为了充分利用每个实例的多噪声标记集的信息,NWVNC首先根据多噪声标记集计算实例权值。然后,利用KNN算法为每个实例找到K个邻居(包括它自己),根据每个实例的K个最近邻居的权值去估计属于它自己集成标签的概率,从而识别出干净实例和噪声实例。最后,NWVNC在干净实例上训练三个异质分类器,并通过一致投票的策略来校正噪声实例。经实验验证,NWVNC显著优于现有最先进的噪声校正算法。
NWVNC的算法示意图
论文链接:https://dl.acm.org/doi/10.1145/3586998
通讯员:牟扬
审核:曾德泽
校对:石剑峰