本篇文章1144字,读完约3分钟
聚焦人工智能技术创新的科学技术周报import ai长期关注和报道了科学技术行业的重要事情。 最近的周报中,代码隆科学技术自研的curriculumnet算法在计算机视觉技术创新行业的应用引起了import ai的关注。
作为数万行业专家的重要读物,import ai一直集中在人工智能技术创新行业。 作者jack clark是openai现在的战术和传达负责人,曾经是bloomberg唯一聚焦神经网络学习行业的记者。 openai是许多硅谷大亨共同成立的人工智能非营利组织,在技术界产生了广泛的影响。
以下是文章的中文翻译。
中国计算机视觉创业企业代码隆科学技术最近开放了基于弱监督学习的curriculumnet代码和模式。 curriculumnet可以通过从网络中收集大量带噪声标签的数据来训练鲁棒性高的深度神经网络模型技术。 这种方法对缺乏大规模带标签数据集的研究者非常有用。 但是,从这样的网络上按标签的意思收集的数据,通常带有大量的噪音。 因此,为了在这些数据中训练高性能的深度神经网络模型,面临着从噪音中提取足够有用的新闻的课题。
curriculumnet :研究人员在包含2,400,000多张带噪声标签图像的webvision数据库中训练模型结构。 他们在整个数据集上训练inception_v2模型,然后研究映射所有图像的特征空间。 然后,curriculumnet将这些图像分组,根据特征空间内所有图像的相似度将各类集合成三个子集合。 然后,他们开始采用具有类似图像特征的子集进行模型训练,混合到噪声较大的子集训练中。 研究者说,通过优秀的标记数据迭代学习分类器,然后添加有噪声的数据来强化分类器,增加这种噪声数据训练的方法不仅可以提高模型的性能,还可以提高泛化能力。
测试效果:研究者使用curriculumnet测试了webvision、imagenet、clothing1m、food101四个标准。 他们发现采用最多噪音数据训练的系统比没有受过噪音数据训练的系统具有更高的精度。 这种方法使webvision中的错误率减少了百分之几(这些进步对这种大规模挑战至关重要,研究者说)。 。 此外,curriculumnet在webvision上最准确,训练数据越多(例如在组合imagenet和webvision的数据集进行训练的情况下),性能越好。
代码隆科学技术在四个公开数据集上的实验结果
webvision和imagenet中培训模型集成的效果
技术意义:与curriculumnet相似的系统很好地展示了研究者如何利用标记不良的数据,结合尖端训练理念,提高低质量标记数据的价值。 这种做法类似于从自然资源中提取有用物质时的提取方法,是现实的。
标题:【科讯】Import AI丨码隆科技CurriculumNet:提高噪声数据价值的做法
地址:http://www.miutrip.net.cn/news/1109.html