下载客户端

AI社会学｜算法标注：我是“女仆”，你是什么？

沈虹

2020-07-23 18:20

来源：澎湃新闻

1966年夏天，麻省理工学院计算机系教授、日后无数“AI之父”之一的马文·明斯基（Marvin Minsky）在波士顿开启了一个名为“夏日远景”（“Summer Vision Project”）的暑期项目。彼时，明斯基未满四十，雄心勃勃，刚和同事一起创立了日后声名远播的麻省理工AI实验室。明斯基雇了个本科生，问他能否用暑假时间将一台照相机和计算机连接起来，然后看看能否让计算机“描述”出照相机里的照片。

多年以后，这个无心插柳的暑期项目被认为是现代计算机视觉 (Computer Vision) 的某个起点。作为当今AI领域里炙手可热的一个分支，计算机视觉经历了狂飙突进的一个时代，现在它几乎无处不在——小区里的摄像头、麦当劳里的刷脸机、无人车的监控系统、医院里X光片的读片设备……在这背后是汗牛充栋的CV项目、算法、图片及其标注的数据集。

标注过的数据集对算法的发展至关重要。现代AI技术的一个重要分支就建立在对标注过的数据的学习之上，亦即所谓的“监督式学习”（supervised learning）——你必须持之以恒地告诉算法“这个是馒头，那个是包子”，这样算法才会对下一个出现的图像进行定义：这个是包子没跑了！

计算机视觉里最有名的数据集叫做ImageNet，是华人女科学家李飞飞 (Fei-fei Li) 在普林斯顿大学担任助理教授时发起的一个研究项目。ImageNet的想法很简单：从网络上大量抓取公开图片，以一个同为普林斯顿研究项目的词汇分类数据库（WordNet）为基础，雇佣亚马逊众包平台 (Amazon Mechanic Turk) 上的工人，让他们以词库为依据，人工分类和标注图片。

起始于1996年，ImageNet以惊人的速度成长为AI界的庞然巨兽：在两万多个类别之下，是将近1500万张各式各样被标注过的图片。依据WordNet里的词汇分类，来自167 个国家、将近五万名工人在众包平台上参与了数据的标注。现在，在ImageNet上打开“苹果”这个类别，你可以找到苹果树，苹果泥，苹果蛆，苹果锈，苹果酒……和更多的与苹果有关的图片。

过去十年，这个巨大的图像词典一直是计算机视觉领域的“葵花宝典”，被认为是基准测试的黄金数据集。因为里面不仅有海量的“自然”图片，并且每张图片都已经被“客观”且“科学”地归类和标注过了。从2010到2017这七年，每一年，全世界最有名的计算机视觉实验室都会以这个数据集的某一个子集为基础举办大赛，参赛的科学家们用某个标注过的数据集训练算法，找出最佳设计，看看谁能以最高的准确率对新的数据集进行分类和检测。

近十年来，这一切都只是计算机视觉领域里的一个再正常不过的科学竞赛。直到2019年的某一天，社会学家凯特·克劳福德（Kate Crawford）和艺术家特雷弗·格伦（Trevor Paglen）一次偶然“僭越”,打开了ImageNet里一个名为“人类” 的数据集。他们惊讶地发现在这个从未用来公开比赛的子数据集里，隐藏着各种各样稀奇古怪的标签和匪夷所思的分类。比如，一个喝啤酒的男人被标注为“酗酒”；一个穿着比基尼的女人被标注为“荡妇”；一个吃三明治的男人被标注为“自私”；一个躺在飞机座椅上的孕妇被标注为“势利者”，一个男孩则被标注为“失败者”。

克劳福德和格伦决定公开“人类”数据集。他们做了一个简单的互动网页，叫做ImageNet Roulette ，允许网民们上传自己的照片，使用ImageNet的数据训练算法，再用算法去标注这些新上传的照片。网民们很快发现，他们上传的自拍被打上了各种标签，不仅缺乏情境和无厘头，还充满偏见和歧视。比如克劳福德和格伦的合影，女人克劳福德被打上了“新闻广播员”的标签，男人格伦则被标注为“微观经济学专家”。这种被ImageNet标注过的自拍上传到Twitter，很快掀起了一场网络风暴，其中赤裸裸的偏见和歧视迫使ImageNet不得不关闭了这个叫做“人类”的数据集。

克劳福德和格伦认为，他们在“人类”数据集里看到的不仅仅是标注和归类过的“自然”图片，而是一系列的“假设、政治和世界观”。为什么同性恋者的身体并不与男性身体和女性身体并列，而是被标注为Hermaphrodite (阴阳人) ，与switch hitter (左右开工的击球手) 归为同类？为什么在ImageNet的数据集里会有一个类别，包含了很多乍看并无联系的女性图片，然后都被标注为 “ball-busters,” 其定义是“摧毁男人自信的苛刻女性”？

“分类是人类行为”,在科技社会学经典《分类》（Sorting Things Out）的开篇，杰弗里·鲍克（Geoffrey C. Bowker）和苏珊·李·斯塔尔（Susan Leigh Star）这样写道。我们可以在更早的法国哲学家福柯 (Michel Foucault) 的《知识考古学》那里找到相似的分析脉络。在这本书里，鲍克和斯塔尔以世卫组织的“国际疾病分类”为例，通过细致的人类学梳理，向人们展示了这一国际通用的疾病分类手册是怎样在庞杂的机构运作中几乎每隔十年就修订一番的，又是如何将一系列“疾病”和“健康”之间模糊不清、相互交缠的界限客观化和正常化的。这种修订并不会“趋向共识”，而是处于不断的变动中。在鲍克和斯塔尔看来，“分类”涉及政治、经济、文化的方方面面，是各方权力明争暗斗的产物；分类的潜规则永远在变，分类的政治没有终点。

在AI世代，分类的重要性愈发凸显，甚至有学者认为现代的AI系统归根结底都是“分类”系统。算法从数据训练集 (training data) 里学习和总结特色，再运用学到的东西给新的数据分类，进行预测。ImageNet的冰山一角下，是更为庞大和复杂的算法分类行为。比如，亚马逊的招聘算法，从公司过往员工的简历里学习并归纳其员工的特色，然后根据其归纳出的特色对新的应聘者进行分类：谁更像我们过往的成功员工？谁更值得被雇佣？很快，人们就发现，因为亚马逊过往的员工绝大多数是男性，所以用这些简历训练出来的算法系统性地将简历有带有“女性”字样的应聘者排除在外了。

在书的最后，鲍克和斯塔尔写道：“Classifications should be recognized as the significant site of political and ethical work that they are. They should be reclassified”。对AI社会学家们来说，认识到算法分类是政治和社会行为——而非单纯的科技行为——只是茫茫征程的第一步。再进一步，我们要问，如何重新分类？如何重新分类才能使被排斥在外的“女性”程序员们重新回到“可被雇佣”的行列？如何重新分类才能使被剥夺的社会阶层重新获得权利？

在“人类”数据集曝光后的某一天，我在课堂上打开了ImageNet Roulette，想给学生们展示所谓的“黄金数据集”是怎样标注人类世界的。我上传了自己的大头照，然后悲欣交加地发现自己——一个中年亚裔女性，被算法标注成了“女仆” (maid)。

【参考文献】

[1] Seymour A. Papert, “The Summer Vision Project,” July 1, 1966.

[2] Dave Gershgorn, "The data that transformed AI research—and possibly the world." Quartz. July 26, 2017.

[3] http://www.image-net.org/challenges/LSVRC/

[4] Kate Crawford and Trevor Paglen, "Excavating AI: The politics of images in machine learning training sets." Excavating AI, 2019.

[5] Geoffrey C Bowker and Susan Leigh Star. Sorting things out: Classification and its consequences. MIT press, 2000.

[6] Michel Foucault. The archaeology of knowledge: Translated from the French by AM Sheridan Smith. Pantheon Books, 1972.

[7] Jeffrey Dastin, "Amazon scraps secret AI recruiting tool that showed bias against women." Reuters. October 9, 2018.

-----

作者沈虹，毕业于美国伊利诺伊大学香槟分校传播学系，现任职于美国卡内基梅隆大学。她用社会学的方法研究新兴科技。

责任编辑：单雪菱