众包提供了一种从众包工作者那里收集标签的有效且低成本的方式。由于缺乏专业知识,众包标签的质量相对较低。解决这个问题的常见方法是从不同的众包工作者那里收集每个实例的多个标签,然后使用标签集成方法来推断其真实标签。然而,几乎所有现有的标签集成方法都仅仅利用原始属性信息,并没有关注每个实例的多噪声标签集的质量。
为了解决这些问题,姜良晓领导的研究团队于2023年10月15日在高等教育出版社和施普林格·自然联合出版的《计算机科学前沿》上发表了他们的新研究。
该团队提出了一种新颖的三阶段标签集成方法,称为基于属性增强的标签集成(AALI)。AALI通过提高原始属性空间的判别能力和识别每个实例的多个噪声标签集的质量来增强标签集成的性能。模拟和现实世界众包数据集的实验结果表明,AALI 在标签质量和模型质量方面优于所有其他最先进的竞争对手。
在研究中,他们设计了一种属性增强方法来丰富属性空间,然后开发一个过滤器,从众包数据集中挑选出具有高质量多个噪声标签集的可靠实例。最后,他们使用交叉验证在可靠实例上构建多个组件分类器来预测所有实例。
在第一阶段,AALI将从多个噪声标签集生成的类成员概率定义为新属性,并通过连接原始属性与新属性来构造增强属性。在第二阶段,AALI 开发了一个过滤器来挑选出具有高质量多个噪声标签集的可靠实例。结果,原始数据集被分为可靠数据集和不可靠数据集。在第三阶段,AALI使用多数投票来初始化可靠数据集中所有实例的综合标签,同时估计每个综合标签的确定性并将其分配给每个实例的权重。接下来,AALI使用K折交叉验证在可靠数据集上构建M个分量分类器来预测所有实例的类概率分布。最后,AALI更新可靠数据集中每个实例的综合标签,并将综合标签分配给不可靠数据集中的每个实例。在模拟和现实世界众包数据集上的广泛实验结果验证了 AALI 的优越性。
未来的工作可以集中于使用优化方法找到所开发的滤波器阈值的最佳值。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 55@qq.com 举报,一经查实,本站将立刻删除。转转请注明出处:https://www.szhjjp.com/n/712659.html