Copyright © DAZHI All rights reserved 蜀ICP备11016366号-1 网站建设: 中企动力- 成都二分

咨询热线:028-86718889

>
>
>
CSAIL和IBM创建的这个数据集,“难倒”了目前最好的CV模型

企业动态

公司要闻
行业动态
客户资讯
最新活动

CSAIL和IBM创建的这个数据集,“难倒”了目前最好的CV模型

分类:
行业动态
作者:
来源:
2020/02/17 17:02
浏览量
大数据文摘 达智咨询 2019-12-27

 

 

大数据文摘出品

来源:CSAIL

编译:林苗

 

当前的计算机视觉模型已经能够非常精确地识别照片中的物体,在某类物体上的表现甚至比人类还要好。

 

不过,在现实场景下,如果一直使用相同的物体识别检测器,识别性能会明显下降。这对于以计算机视觉为核心的系统,如自动驾驶而言,是一个明显隐患。

 

为了弥补上述性能差距,CSAIL和IBM的研究团队创建了一个有很多不同种类的物体识别数据集——ObjectNet。

 

ObjectNet是基于ImageNet创建的。ImageNet是一个众包的照片数据集,在期时候引领了人工智能的潮流,ImageNet里的照片都是源于Flickr等社交媒体网站上。

 

与之不同的是,ObjectNet的照片都是付费请自由职业者拍的。照片里面的物体都是在一个杂乱的房间内部,以非常刁钻的角度倾斜摆放。

 

当前最好的物体识别检测模型对ImageNet照片里的物体识别准确率是97%,而如果用ObjectNet来测试时,准确率则会下降到50-55%。

 

 

CSAIL研究人员Boris Katz表示:“我们创建这个数据集,是为了告诉人们物体识别仍然是一个难题。我们需要更好、更智能的算法。”Katz和同事在神经信息处理系统会议(NeurIPS)上介绍了ObjectNet及其成果。

 

深度学习一直是推动AI发展的关键技术,它通过多层人工“神经元”在大量原始数据中找到规律模式,深度学习需要通过成百上千个样例学习,才能学会在照片上识别出一把椅子。然而,即使有上百万图像的数据集,也无法展示每一个物体所有可能的方向和属性。因此,当这些模型需要识别现实场景中的物体时,就会出现问题。

 

ObjectNet还有一个重要方面与常规的图像数据集有所不同:它没有训练集。大部分数据集都会分成训练集和测试集两部分。但是训练集和测试集之间总还是会有相似的地方,会影响模型在测试时陷入瓶颈。

 

乍一看,ImageNet拥有1400万张图像,数量巨大。但事实上,如果不包括训练集的话,其大小跟ObjectNet差不多,大概包含50,000张照片。

 

研究合作者、CSAIL和CBMM的科学家Andrei Barbu表示:“如果我们想知道我们的算法在现实场景中的表现怎么样,那就应该在没有任何偏向、从来没有见过的图像上对其进行测试。

 

 

试图捕获现实世界物体复杂性的数据集

 

 

很少有人会向朋友分享ObjectNet的照片,这是很重要的一点。研究人员从Amazon Mechanical Turk聘请自由职业者,为随机摆放的家用物品拍摄了数百张照片。工人们在APP上收到分配的照片,并带有动画说明,告诉他们如何摆放分配的物体,从哪个角度拍摄以及是否将物体摆放在厨房,浴室,卧室或客厅中。

 

他们希望能够消除三个常见的摆放倾向习惯:正面朝上,在标志性位置,以及强相关的属性设置;如盘子总是被堆放在厨房里面。

 

从有想法开始到现在,包括中间设计一个能对数据收集过程进行标准化的app,研究人员大概花了三年的时间。研究合作者、MIT电气工程与计算机科学研究生David Mayo表示:“如何控制各种倾向误差来收集数据,是一件非常棘手的事情。我们还必须通过各种实验来保证指导语清晰无误,工人们能准确地知道自己应该要做什么。

 

收集真实数据又大概花了一年的时间。但是最后,由于未达到研究人员的要求,近一半的自由职业者提交的照片都被舍弃。为了提升工作效率,一些工作人员还会在他们的拍摄对象上添加标签,或是将它们放在白色背景上,或者尝试改善分配给他们的照片的美观性。

 

很多照片都不是在美国拍摄的。因此,有些物体可能看起来很陌生,如成熟的橘子是绿色的,香蕉有各种不同的大小,衣服的形状和材质也各不相同。

 

 

Object Net VS ImageNet:两个主流物体识别模型的比较

 

 

 

当研究人员在ObjectNet上测试最新的计算机视觉模型时,他们发现模型的性能比在ImageNet上的下降了40-45个百分点。研究人员表示,这个结果说明,物体识别检测器仍然难以理解物体是三维的,并且可以被旋转和移动到新的环境中。IBM的研发人员Dan Gutfreund说:“这些概念并未内置在现代物体识别检测器的架构中。

 

为了表明ObjectNet是由于物体摆放和观看的方式,才很难实现精确性,研究人员让模型在ObjectNet一半的数据集上进行训练,然后在另一半上面进行测试。当模型在一样的数据集上进行训练和测试时,按理说会显著地提升模型的性能。然而,在ObjectNet上的测试却只有些微的改善,表明物体识别检测器确实尚未完全理解现实场景中物体的存在方式。

 

自2012年(AlexNet在年度ImageNet竞赛中碾压全场)以来,计算机视觉模型日益完善。随着数据集变得越来越大,模型的性能也得到了提高。

 

然而,研究人员警告说,设计更大版本的ObjectNet,增加物体的视角和方向,并不一定会带来更好的结果。ObjectNet的目标是为了能够激励研究者迸发出下一波的技术革新,就像最初的ImageNet一样。

 

Katz认为:“人们为这些检测器提供了大量数据,但是效果却并不明显。你无法通过所有可能的角度和背景来查看一个物体。我们希望这个新的数据集在计算机视觉方面的鲁棒性是非常强的,也不会在现实场景下出现令人咋舌的失误。

 

该研究的其他合作者包括MIT的Julian Alvero,William Luo,Chris Wang和Joshua Tenenbaum。这项研究是由美国国家科学基金会,MIT的脑、思维和机器中心,MIT-IBM华盛顿AI联合实验室和,Toyota研究机构,以及SystemsThatLearn@CSAIL计划资助的。

 

 

相关报道:
https://www.csail.mit.edu/news/object-recognition-dataset-stumps-worlds-best-vision-models

 

达智数据(集团)是注册成立在成都锦江区,位于天府广场仁和大厦12F-13F,深耕数据信息产业20年,专注数据采集、商业分析和商业应用,帮助客户实现数据落地变现,解决战略、投资、定位、客户、产品、营销等商业决策问题。是CMRA和CAMIR资深副会长单位。是全国青年川商联席会常务副会长单位,是四川省大数据发展研究会常务副会长单位。2016年挂牌新三板(股票代码 835806)。

 
在线客服
客服热线
028-86718889
客服组:
在线客服
QQ:
服务时间:
9:00 - 18:00