这个比肩ImageNet的数据集遭MIT紧急下架，原因令人愤怒

登录注册

这个比肩ImageNet的数据集遭MIT紧急下架，原因令人愤怒

来源:网络
更新日期:2020-07-02

摘要：本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。就在这周，麻省理工学院紧急下架了Tiny Images数据集。原因很简单，有学者研究指出，这个通过大量搜索引擎整合的

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。

就在这周，麻省理工学院紧急下架了Tiny Images数据集。

原因很简单，有学者研究指出，这个通过大量搜索引擎整合的数据集，内里竟然隐藏着诸多令人不齿的标签：儿童猥亵、性暗示、种族歧视……

而这些图像的标签（b***h，w**re），则带有强烈的偏见和反人道的意味。

△从统计数据来看，包含这类标签的图片达成千上万张

如果含有这样的标签和图像的数据集被用于训练AI，后果将不堪设想。

然而局面似乎已经无法挽回：由于这个数据集主打微小图像，且图片数量庞大，在当年计算机硬件还不发达时，曾被广泛用于AI训练，在arXiv上属于高引用论文。

Reddit上针对此事的说法不一。

有网友认为，这件事有点小题大做的意思。毕竟这些通过网络搜集到的图片、文本信息，也是真实世界的一部分。

在我看来，这有点「道德恐慌」了。难道会有人觉得用来训练GPT-3的接近1TB的开放式网络文本信息里没有任何冒犯性的内容？

但也有支持的网友拍手称快。

MIT干得好！

除了这类情绪化的观点，很多人也开始理性思考这种数据集形成的原因。

这是不是制作数据集的作者们无暇抽空检查导致的？

这些机器学习的研究人员在处理图像的时候，难道不会设置一下搜索过滤吗？就我经验来看，有些制作不精的数据集在没时间检查的情况下就发布了。

很快有网友否认了这种观点，因为Tiny Images不属于这种情况。

我认识原作者，情况不是你想的那样。我觉得，作者只是没有像我们今天这样考虑这么多，他们在利用搜索引擎整合图片的时候，可能没想过要对标签列表进行过滤。

无论网友抱持有何种观点，目前这个数据集的下架都已是不争的事实。

哪怕是比Tiny Images更有影响力的数据集ImageNet，在这次研究中也被指出存在部分令人不适的图片，但没有Tiny Images数量这么庞大。

有学者指出，ImageNet维护者众多、且图像分类明确，与之相比，Tiny Images则几乎从未被仔细检查过。

到底是什么原因，使得这么多年来，Tiny Images数据集一直少有人工清查？

这个问题，可能还得从Tiny Images自身的特性说起。

Tiny Images数据集的特点

Tiny Images数据集自2006年问世后，至今已包含5万多个WordNet中的不同标签。

数据集中的图像，来源于搜索引擎搜索标签、并自动下载所搜到的图片。

整理后的图像数量达8000万张，每张都以非常低的分辨率（32×32）保存在数据集中，形成了Tiny Images数据集的特色：数量庞大，图像微小。

然而，正是由于图像数量过于庞大，导致这些令人反感的图像隐藏太深；而低分辨率，则会导致这些图像难以被视觉识别。

△在Tiny Images中，含贬义的「nigger」标签下的图片

下架时，麻省理工学院给出了官方说明。

由于我们无法保证，能彻底删除Tiny Images中所有令人反感的图像，所以将它下线了。

同时，也希望网上不要再传播已有的Tiny Images数据集副本。

将Tiny Images下架的最重要的原因，是因为这些带有强烈偏见的、令人反感的标签所标注的图像，与我们计算机视觉行业致力于达成的包容、无偏见的价值观背道而驰。

不仅如此，采用这些标签进行训练后的AI模型，可能会在图像分类或目标检测时，将这些隐含的反人道标签用于目标识别中。

为什么会使AI产生偏见

无论是Tiny Images还是ImageNet，这次都栽在了一个叫WordNet的分类词库上。

词库以其强大的词义关联性著称，会根据各种单词的意义，将不同的词组成各式各样的集合，最终构成一个词库网。

例如，WordNet会将「比基尼」、「色情」和「whore」（贬义）等单词关联到一起，如果在搜索引擎上进行图像搜索，所获得的图片会带有强烈的偏见色彩。

△「whore」标签的图像下可能仅仅是一个穿着比基尼的女人

不可避免的是，WordNet中会收录许多带有贬义和偏见标签的图片，如果在使用这些图片进行训练时，没有对标签进行过滤，训练后的AI就可能会利用这些标签，戴上「有色眼镜」识人。

ImageNet以其知名度和做得较好的图像分类，较为幸运地得到了比较良好的维护，与之相比，Tiny Images中许多带贬义标签的图像却因为低分辨率难以被识别。

这就导致了这次的紧急下线。

但正如某些网友所说，无论如何，制作无任何偏见的数据集，本身就是良好的AI训练不可或缺的一部分。

目前，许多最新的数据集也在不断致力于以各种方式，接近这种「无偏见」的目标。

Tiny Images作者介绍 △作者Antonio Torralba

Antonio Torralba，麻省理工学院的副教授，主要研究方向为计算机视觉和机器学习，Tiny Images是他与另外两位作者，经过8个月时间整理出来的微型图像数据集。