新网Logo
首页>主机-资讯>

这个比肩ImageNet的数据集遭MIT紧急下架,原因令人愤怒

登录 注册

这个比肩ImageNet的数据集遭MIT紧急下架,原因令人愤怒

  • 来源:网络
  • 更新日期:2020-07-02

摘要:本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 就在这周,麻省理工学院紧急下架了Tiny Images数据集。 原因很简单,有学者研究指出,这个通过大量搜索引擎整合的

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

就在这周,麻省理工学院紧急下架了Tiny Images数据集。

原因很简单,有学者研究指出,这个通过大量搜索引擎整合的数据集,内里竟然隐藏着诸多令人不齿的标签:儿童猥亵、性暗示、种族歧视……

而这些图像的标签(b***h,w**re),则带有强烈的偏见和反人道的意味。

△从统计数据来看,包含这类标签的图片达成千上万张

如果含有这样的标签和图像的数据集被用于训练AI,后果将不堪设想。

然而局面似乎已经无法挽回:由于这个数据集主打微小图像,且图片数量庞大,在当年计算机硬件还不发达时,曾被广泛用于AI训练,在arXiv上属于高引用论文。

Reddit上针对此事的说法不一。

有网友认为,这件事有点小题大做的意思。毕竟这些通过网络搜集到的图片、文本信息,也是真实世界的一部分。

在我看来,这有点「道德恐慌」了。难道会有人觉得用来训练GPT-3的接近1TB的开放式网络文本信息里没有任何冒犯性的内容?

但也有支持的网友拍手称快。

MIT干得好!

除了这类情绪化的观点,很多人也开始理性思考这种数据集形成的原因。

这是不是制作数据集的作者们无暇抽空检查导致的?

这些机器学习的研究人员在处理图像的时候,难道不会设置一下搜索过滤吗?就我经验来看,有些制作不精的数据集在没时间检查的情况下就发布了。

很快有网友否认了这种观点,因为Tiny Images不属于这种情况。

我认识原作者,情况不是你想的那样。我觉得,作者只是没有像我们今天这样考虑这么多,他们在利用搜索引擎整合图片的时候,可能没想过要对标签列表进行过滤。

无论网友抱持有何种观点,目前这个数据集的下架都已是不争的事实。

哪怕是比Tiny Images更有影响力的数据集ImageNet,在这次研究中也被指出存在部分令人不适的图片,但没有Tiny Images数量这么庞大。

有学者指出,ImageNet维护者众多、且图像分类明确,与之相比,Tiny Images则几乎从未被仔细检查过。

到底是什么原因,使得这么多年来,Tiny Images数据集一直少有人工清查?

这个问题,可能还得从Tiny Images自身的特性说起。

Tiny Images数据集的特点

Tiny Images数据集自2006年问世后,至今已包含5万多个WordNet中的不同标签。

数据集中的图像,来源于搜索引擎搜索标签、并自动下载所搜到的图片。

整理后的图像数量达8000万张,每张都以非常低的分辨率(32×32)保存在数据集中,形成了Tiny Images数据集的特色:数量庞大,图像微小。

然而,正是由于图像数量过于庞大,导致这些令人反感的图像隐藏太深;而低分辨率,则会导致这些图像难以被视觉识别。

△在Tiny Images中,含贬义的「nigger」标签下的图片

下架时,麻省理工学院给出了官方说明。

由于我们无法保证,能彻底删除Tiny Images中所有令人反感的图像,所以将它下线了。

同时,也希望网上不要再传播已有的Tiny Images数据集副本。

将Tiny Images下架的最重要的原因,是因为这些带有强烈偏见的、令人反感的标签所标注的图像,与我们计算机视觉行业致力于达成的包容、无偏见的价值观背道而驰。

不仅如此,采用这些标签进行训练后的AI模型,可能会在图像分类或目标检测时,将这些隐含的反人道标签用于目标识别中。

为什么会使AI产生偏见

无论是Tiny Images还是ImageNet,这次都栽在了一个叫WordNet的分类词库上。

词库以其强大的词义关联性著称,会根据各种单词的意义,将不同的词组成各式各样的集合,最终构成一个词库网。

例如,WordNet会将「比基尼」、「色情」和「whore」(贬义)等单词关联到一起,如果在搜索引擎上进行图像搜索,所获得的图片会带有强烈的偏见色彩。

△「whore」标签的图像下可能仅仅是一个穿着比基尼的女人

不可避免的是,WordNet中会收录许多带有贬义和偏见标签的图片,如果在使用这些图片进行训练时,没有对标签进行过滤,训练后的AI就可能会利用这些标签,戴上「有色眼镜」识人。

ImageNet以其知名度和做得较好的图像分类,较为幸运地得到了比较良好的维护,与之相比,Tiny Images中许多带贬义标签的图像却因为低分辨率难以被识别。

这就导致了这次的紧急下线。

但正如某些网友所说,无论如何,制作无任何偏见的数据集,本身就是良好的AI训练不可或缺的一部分。

目前,许多最新的数据集也在不断致力于以各种方式,接近这种「无偏见」的目标。

Tiny Images作者介绍 △作者Antonio Torralba

Antonio Torralba,麻省理工学院的副教授,主要研究方向为计算机视觉和机器学习,Tiny Images是他与另外两位作者,经过8个月时间整理出来的微型图像数据集。

新网箭头云服务器