澎湃Logo
下载客户端

登录

  • +1

顶刊编译 | 民族志学者与算法:超越黑箱

2022-09-02 07:41
来源:澎湃新闻·澎湃号·湃客
字号

民族志学者与算法:超越黑箱

提要:

关于算法的社科研究的一个共同主题是算法极度不透明,像黑箱一样运作。为了解决算法的不透明问题,学者们发展了一些方法路径。我认为我们可以明确地将算法纳入民族志研究。我为算法民族志划分了三个中层的研究策略:一,算法折射(algorithmic refraction),考察计算软件、人、制度互动时发生的重新配置。二,算法比较(comparison),依赖相似-差异路径来识别算法的独特特征。三,算法三角(triangulation),让算法来帮助收集丰富的定性数据。最后,我讨论了这些方法对算法研究与民族志工作的影响。

作者简介:

Angele Christin,斯坦福大学传播学系

编译来源:

Theory and Society, 49, 897-918.

Angele Christin

在过去的十年里,许多研究都考察了算法系统的构建、影响和效果。这些文献中出现的一个共同主题是,算法是非常不透明的,其功能是不可捉摸的黑箱,只能从其输入和输出方面进行分析。大多数学者认为这种不透明性本身就有问题,无论是在学术研究方面还是在问责和监管方面。因此,出现了通过各种手段提高算法透明度(transparency)和绕开技术不透明的努力。然而,研究人员也强调了透明度概念的局限性,认为我们不能将算法视为一个紧密联结的技术物整体,想着仅仅需要“打开”它。另一种思路将算法理解为复杂的社会技术组合,涉及行动者、技术和意义的链条。

鉴于算法的不透明性和透明度概念的局限性,我们应该如何研究算法系统?本文试图通过关注民族志的作用来考察算法研究的方法论框架。我建议,将算法纳入民族志研究是分析复杂而不透明的计算程序的一种有效方式。在讨论了算法不透明的不同维度以及为绕过这种不透明而出现的主要方法论观点——即算法审查(algorithmic audits)、文化和历史批评(cultural and historical critique)、民族志方法之后,我借鉴了翻译社会学(sociology of translation,Callon 1986)来研究算法的引入(enrollment)。

一、研究黑箱算法

为什么算法是不透明的?为什么这很重要?它又是如何影响我们用来研究算法的方法的?本节介绍了算法不透明的不同方式以及这种不透明变成问题所在的情况。我将“算法”定义为逻辑操作的序列,为计算机对数据的操作提供一步步的指示(Barocas等,2014)。在实践中,算法通常是基于某种数据执行计算任务的软件程序。

借鉴Burrell(2016)的分析,有四种方式可以使算法变得不透明。首先,算法的典型特征是故意保密:数据和代码被公司或行政部门作为有价值的知识产权加以保密。因此,观察者没有机会接触到算法,因为公司没有将其公开。其次,即使公司决定与用户和研究人员分享他们的算法,不透明的另一个层面也出现了:技术盲。算法是由编程语言编写的代码组成的;大多数用户没有接受过解释这些编程语言的培训,限制了他们对算法内部运作的理解。第三,机器学习(machine learning)算法还有一层不透明性,因为它们随着时间的推移而演变,通常是人类无法理解的,无论人类是否接受过编程语言的培训。用Burrell的话说,“当计算机学习并由此建立自己的分类决策表征时,它不考虑人类如何理解”。因此,即使我们能够阅读和破译代码行,我们可能也无法理解算法如何做决定。除了这三层不透明之外,还必须加上第四层:多数算法系统的巨量规模。例如,谷歌的互联网服务依赖于超过20亿行的代码(Metz 2015)。这样的数量级往往使任何人(包括设计算法的程序员)都不可能确定系统的哪一部分负责一个特定的决定。

根据这四个维度,学者们将算法称为黑箱(black box),或只能从其输入和输出方面来理解的设备,而对其内部工作原理一无所知(Mols 2017)。在这个概念的基础上,法律学者Franck Pasquale写到了“黑箱社会”的发展(Pasquale 2015)。Pasquale研究了数据和信息的不对称分布:世界上不负责任的算法正越来越多地做出隐藏在公司和代码层后面的决定。这种不透明性反过来又是特别有问题的,因为算法往往是有偏见的(Barocas & Selbs 2016):由于它们借鉴了历史数据,而历史数据本身是由长期的不平等和歧视历史形成的,算法可以作为“数学破坏性武器”(O’Neil 2016)发挥作用,最终“将不平等自动化”(Eubanks 2017)。

人们日益认识到大多数算法是不透明的、歧视性的和不负责任的,这导致了一系列方法策略的发展,以便绕过这些不透明的层面,记录计算系统的内部运作。在这里,我区分了三种方法:算法审查、文化与历史批判、民族志。在更具体地关注民族志之前,我将讨论了每种方法的优点和局限。

算法审查

第一种方法即算法审查(algorithmic audits),依赖统计和计算方法,以检查算法系统的输出,特别是(但不限于)歧视性的影响。许多算法审计都依赖于在线实地实验(online field experiment)。根据Sandvig等人(2014),“审查研究是典型的实地实验,研究人员或参与到他们怀疑的社会过程中,以诊断出有害的歧视。”Sandvig等人将审查方法用于在线平台,区分了不同种类的研究设计,包括代码审查、非侵入性用户审查、众包审查等。使用这些方法的现有研究实例已经发现了以算法为中介的平台的重要歧视性特征,包括在线广告交付中的种族歧视(Sweeney 2013)和电子商务网站的价格歧视(Hannak等,2014;Diakopoulos 2013)。

除了在线实地实验之外,其他计算方法也被用来调查算法系统的内部运作和歧视性影响。例如,Angwin和她在非营利性新闻组织ProPublica的同事分析了佛罗里达州布劳沃德县的1万多份刑事被告档案,发现一个名为COMPAS的风险评估工具建立了歧视非裔美国人的算法。Buolamwini & Gebru (2018)发现主流的面部识别程序对皮肤较黑女性的误判率明显高于其他群体。在这些发现得到发表后,学者们建议采用新的文件形式,以尽量减少算法系统的不透明性和歧视性。例如,计算机科学家主张提供“模型卡”,即训练有素的机器学习模型的简短文件,其中包括关于偏见、公平和包容的核心指标(Mitchell等,2019)。其他人建议为算法模型添加约束,以遏制其歧视性(Diakopoulos & Friedler 2016)。这些方法又被批评为强调“技术修复”而非更大的社会和政治问题(Powles & Nissenbaum 2018;另见Abebe等,2020),他们把透明度作为一个万能的术语(Ananny & Crawford 2016);以及他们的选择,最终可能巩固算法的不透明性。这种局限性反过来也正是下一组方法所要解决的。

文化与历史批判

为绕过算法系统的不透明性而开发的第二个方法论视角,来自我所说的文化和历史批判或学术研究,它建立在批判性社会理论之上,通过将计算软件置于更广泛的政治、种族、文化和经济形态之中来分析其作用。学者们通常依靠对行业出版物、宣传材料和关于算法的新闻文章的仔细解读和批判,他们利用这些来将最近的事件与更长的历史轨迹联系在一起。批判性方法分析了算法如何复制和加强现有的种族不平等、监视和市场化结构。

首先,借鉴批判种族理论,学者们揭示了大多数算法系统的种族基础。例如,在《技术之后的种族》(2019)中,Benjamin提出了“新吉姆密码”的概念,以强调算法如何能编码出压迫有色人种的模式;他将算法的兴起与美国长期以来维持种族统治的结构(包括吉姆·克罗法律体系)联系起来,阐明了算法对维持和加强种族不平等的作用。

其次,学者们研究了算法在监视(surveillance)和信息不对称的更长历史中的作用。算法运作所需的输入数据通过在线跟踪不断(而且往往是秘密地)从我们身上提取。这些个人数据被无情地出售和挖掘,以扩大政府和营利性公司的知识基础设施。这种监控制度反过来又塑造了我们的身份和表征,通过控制和治理术将我们变成了特定类型的主体(Lyon 2018;Haggerty & Ericson 2003)。关于数据提取的研究显示当前经济模式的文化和政治制度化,其中在线用户与平台免费分享他们的数据和劳动,这些平台基于这种行为盈余获得巨大利润(Terranova 2000;Scholz 2013)。例如,Andrejevic(2003)发现,真人秀节目为基于监视的互动经济的出现提供了一个文化模板,在这种经济中,被监视越来越被视为一种“生产力”的发展--可以通往名声、财富,甚至个人成长。其他研究将数字追踪与旧有监视机构的更广泛的权力动态联系起来。从种植园系统到工厂车间,监控主要针对黑人、棕色人种、穷人和所谓的“异类”人群;数字监控也不例外。

这些根植于文化、历史和经济的批判研究考察了算法和社会生活之间的联系。这些方法的一个潜在限制在于它们的高度概括性(generality):它们通常不会仔细考虑塑造算法构建的特定语境,这正是民族志研究希望解决的问题。

民族志

民族志方法的一个关键特征是理解被分析对象的表征、实践和文化,通常通过参与式观察完成。民族志学者如何研究算法(尤其是考虑到算法的多重不透明性)?来自多个学科的民族志学者从两个方面对我们理解计算技术做出了重要贡献:在构建(construction)方面,研究了塑造算法如何被构建的文化和结构力量;在受众(reception)方面,分析了算法输出(algorithmic output)如何被使用的日常实践与表征。

首先,关于算法系统的生产,有大量关注技术部门的民族志工作,其中民族志学者分析了文化和组织过程在塑造技术种类的作用。例如,硅谷的公司和他们的模仿者在他们的生产过程中发展出特定的专业规范和组织形式。这些包括扁平的等级制度、基于项目的思维、不断的自我实现、集体活力和工程师之间的激烈竞争。这种结构性条件反过来又塑造了技术和媒体工作者与他们的工作和职业的关系,通过学者们称之为“有抱负的工作”(aspirational work)和“风险劳动”(venture labor)的构建,其中工人试图在当前的报酬基础上,为未来的职业发展投资。

特别是,由于“规模”的压力——其本身与风险投资的作用有关——民族志学者发现,技术工程师倾向于依赖一种“永恒的Beta(试用版)”世界观,Neff和Stark(2003)将其定义为“一种由用户、雇员和组织之间就商品和服务的设计进行谈判的流动组织形式”。这样的心态往往导致工程师、计算机科学家和项目经理夸大了他们的算法软件的能力,特别是软件的无故障扩展能力,并隐瞒了人类工人的参与程度,而这些工人执行的是算法应该做的一些劳动(Shestakofsky 2017;Sachs 2019)。正如Irani(2015)所指出的,“软件即服务”往往掩盖了对“人类即服务”的依赖,这是一个不太容易流传但更贴近现实的格言。为技术公司从事算法计件工作的人类工人(数据注释者、内容主持人和其他“幽灵工人”)反过来又经历着不稳定的就业状态和艰苦的工作条件(Robert 2019;Gray & Suri 2019)。技术公司的就业结构反过来又影响他们的算法产出。例如,Seaver(2018)显示了工程师在描述流媒体平台的推荐算法时,如何上演了一出“诱捕”用户的剧目。这种观点将用户视为转瞬即逝的野生动物,其注意力必须被攫取。而在“永恒的试用版”框架内,劳动、注意力和资本也被概念化为必须捕获的稀缺资源。

第二,民族志者研究了算法系统的接收方面,分析了用户的实践和表述。根据STS研究,大多数人已经清楚地意识到了算法的作用,并相应地调整了他们的在线实践。许多用户发现算法非常不透明,并对这种不透明性感到不满。这一点在分析“临时工”如何理解数字平台(Uber、Lyft、Care.com、UpWork等)的研究中表现得尤为明显:他们中的许多人抱怨分配任务的算法的不透明性,并使他们的资料在平台上可见,Gray和Suri(2019)将这一过程分析为一种“算法的残酷性”。用户还为这些复杂系统的运作方式开发了自己的表征和模型,从而依靠“算法想象力”来塑造他们与算法的互动方式(Bucher 2016;Baym 2018)。此外,他们经常依靠“算法八卦”(Bishop 2019),在同行之间分享关于如何使他们的内容“适合算法”的信息(Gillespie 2016)。

总的来说,民族志方法揭示了我们日常生活中计算系统的社会、文化和技术方面的复杂交融。它们提供了算法如何被构建和使用的丰富而细密的数据。在生产方面,民族志研究强调了工作场所文化和算法设计之间的亲和性。在接受方面,它们显示了社会实践是如何调节算法使用和实际影响的。尽管如此,大多数民族志学者并没有明确地关注算法本身。这有一个理由:民族志学者只能研究他们能接触到的地方和实践。上面提到的算法不透明的不同层面(例如,企业保密、技术盲、规模)使民族志学者在本质上很难将他们的分析集中在算法本身。

下一节提出了加强算法系统的民族志研究的方法论框架。为了绕过一些与算法不透明有关的问题,我建议采用一种有别于黑箱的认识论视角,而是借鉴翻译社会学中的“引入”(enrollment)。

二、超越黑箱:在民族志研究中引入算法

到目前为止,我都是把算法的不透明性作为一个经验上的困难来讨论,而不是作为一个认识论上的困难。然而,将算法描述为黑盒子并不是一个中立的选择。事实上,黑箱通常远非一个偶然的过程;这个隐喻也不是只用来描述算法系统。黑箱可以被分析为科学和技术合法性的一个人工制品。

拉图尔恰恰提出了这个论点,他写道:“科学和技术工作因其自身的成功而变得不可见。当一台机器高效运行时,当一个事实问题被解决时,人们只需要关注它的输入和输出,而不是它的内部复杂性。因此,矛盾的是,科学和技术越是成功,它们就越是不透明和模糊”(Latour 1999,p.304)。为了解构通过黑箱框架建立的技术与社会之间的严格分界,拉图尔建议关注人类和非人类组合中的替代和关联。这种流动的方法拒绝将技术黑箱视为理所当然,并转移现有的研究地点,“从最终产品到生产,从冷的稳定物体到暖的和不稳定的物体[…]在箱子关闭并变成黑色之前"(Latour 1987,p.21)。它明确地将科学和技术物纳入参与科学和技术知识的创造、传播和制度化的人类和非人类行为者的较长链条中。这个框架的关键是引入的概念,由Callon(1986)最明确地提出。根据Callon的观点,分析人类和非人类互动时发生的关联、转换和纠缠的动态是至关重要的。追踪这些关联的流动需要密切关注人类和非人类开始合作的“引入“过程。用Callon的话说,“引入就是描述一组多边谈判、力量的考验和技巧,它们伴随着交流,并使它们成功”。

算法折射

折射的概念来自物理学,它指的是当一束光或声音从一种介质传递到另一种介质时,方向和强度的变化。应用于算法,研究折射需要密切关注每当算法系统在现有的社会环境中展开时发生的变化——当它们被建造,被扩散,以及当它们被使用时。

算法从未存在于社会真空中。正如我们在上面看到的,算法系统的构建、流通和接收总是发生在密集的社会网络和制度结构中。这些包括个人互动、群体代表和规范、组织动态和文化以及领域层面的结构。每当算法系统进入这些紧密的层面时,现有的安排就会被重新配置,因为人们会对算法进行定位,并寻求将其纳入他们的制度化行为方式。通过关注发生在算法和社会行为者之间的波浪和涟漪,我们可以研究这些物体所产生的折射,并在此过程中分析穿越算法系统的表征和实践链,在此过程中塑造其影响。用一个比喻来说,这种观点意味着算法通常具有棱镜的功能,可以揭示团体、组织和领域内现有的优先事项,以及它们随时间的变化。然而,这一视角还没有被系统地应用于算法研究。

在此,我以网络新闻生产中对网络分析的接收为例。在2010-2020年代,网络编辑和记者开始依赖提供读者行为实时数据的软件程序(包括页面浏览量、社交媒体指标、参与时间、流量来源等数据)。大多数新闻编辑室使用这些数据来辅助他们的编辑过程,例如,他们的主页编排或他们附加到新闻文章的标题类型。根据这些研究,有几个特点似乎决定了分析软件程序和编辑团队之间的关系。首先,网络新闻室的内部组织(尤其是编辑和记者之间的分工)部分地决定了谁来负责最大化流量。第二,新闻机构在新闻领域的地位及其象征性资本的数量,影响着记者如何在新闻编辑室中保护他们的事业心。第三,记者如何看待他们的受众,决定了他们如何理解流量数字。

在这种情况下,就像在其他许多情况下一样,算法发挥着棱镜的作用,反映并加强了新闻编辑室和新闻机构内现有的裂痕。反过来说,新闻编辑室以不同的方式反映和加强分析软件程序所创造的象征性接口。例如,在我自己的民族志研究中,我比较了美国和法国新闻编辑室的受众分析的作用,我意识到,受众分析可以根据组织的不同而有明显的不同用途。在某些情况下,分析软件程序被分割开来,被批评为市场压力的指标,并被谴责为毫无意义的虚荣的指标。在其他情况下,它们被视为一种民主反馈的形式和一个人在算法公共领域的相关性的象征而受到欢迎(Christin 2020)。记者和分析师之间的这些相互录取和相互依赖的过程也随着时间的推移而改变,重新配置了连接技术和社会行为者的关系。因此,关注算法的折射,并将算法工具视为反映和重构社会动态的棱镜,可以作为民族志学者绕过算法的不透明性的有用策略。

算法比较

算法民族志的第二个策略依赖于比较,以便对不同的案例进行分析性思考。通过相似性和差异性的方法来检查各部门的算法,民族志学者可以帮助解释每个技术工具的具体内容,无论其底层代码可能有多不透明。比较民族志在STS研究中有着悠久的历史。

每当学者们研究具有内在技术或科学复杂性的环境时,案例比较可以帮助阐明每个环境的特殊之处,特别是当案例之间的不同特征被明确区分出来时。例如,在Cetina(1999)对知识文化的研究中,她在两个科学实验室进行了民族志实地调查,一个是分子生物学实验室,一个是高能物理学实验室。她通过这种比较,确定了实验室科学文化的几条线索,包括经验数据的认识论作用、实验室中出现的社会关系类型以及科学作者制度。同样,拉图尔通过将最高行政法院与神经科学实验室相比较,补充了他对该法院的民族志分析,这使他能够对比法律和科学的规范和动态。这种比较方法也可以阐明复杂和不透明的算法系统(Anderson & Kreiss 2013;Christin 2017;Griesbach等,2019)。

为了提供一个具体的例子,我在这里专注于刑事司法,这是一个算法经常被批评为不透明的领域,特别是由于它们在延续偏见和歧视方面的作用,对个人和社区产生了巨大的影响。在对警察部门和刑事法庭的比较民族志中,我们对比了警察和法律专业人士如何使用预测性算法(Brayne & Christin 2020)。对于警察来说,这包括基于人和基于地点的预测软件程序;在法院,法官和检察官通常依靠几个风险评估工具或提供预测性“风险分数”的软件来评估被告的累犯风险。我们首先记录了相似之处:在这两个组织中,警察和法律专业人员都担心算法会导致管理监督的增加、案头工作的增加。

然而,在比较中也出现了重大差异,首先是算法本身的内在逻辑,其次是算法的实施方式。在警务工作中,预测性算法通常作为拉网技术:它们追踪潜在的犯罪和罪犯,存储和挖掘它们长期收集的数据,同时也在有限的资源背景下追踪警察。相反,在法院,风险评估工具主要作为分流技术发挥作用:它们的主要作用不是不分青红皂白地收集关于被告的数据,而是把个别被告分为高风险或低风险类别,以便把他们与现有的监禁选择和康复计划相匹配。此外,这些算法具有不同程度的不透明性,至少在使用它们的警察和法律专业人士看来是这样的:警务工作中的预测性算法不被视为不透明,而法律专业人士往往认为风险评估工具非常神秘、有问题。这些工具之间的差异被警察部门独特的组织特征所放大,警察部门是高度等级化的,而刑事法院则更加分散,尤其是在法官是选举产生的地方。因此,预测性算法在警务工作中的实施比在刑事法院中更严格,反过来导致对警察和法律专业人士的自由裁量权和歧视性潜力的不同影响。

因此,算法比较不仅可以揭示算法系统的用途,还可以揭示其内部运作情况,不管它们有多不透明。上面分析的研究比较了不具有相同不透明程度的算法。这样的比较是重要的,因为它允许民族志学者分析Kiviat(2019)所说的“因果理论化”——关于算法分类背后逻辑的理解和论证——对塑造黑箱算法系统的影响。

算法三角法

最后一种策略,我称之为算法三角法,明确地依靠算法来收集丰富的定性数据。在社会科学中,三角测量的概念(借用了几何学和土地测量技术)广义上指的是在研究同一现象时结合多种研究方法、角度和材料。在这里,我更具体地使用三角法的概念来指民族学研究的三个挑战,即问题的饱和度(saturation)、位置(positionality)和离开田野(disengagement)。

首先,民族志方法中的饱和概念指的是一个问题,即什么时候应该停止做田野调查。对于这个问题,民族志学者通常用以下步骤回答。民族志研究是基于一个迭代的过程(例如,做田野调查,回到自己的笔记和记录,阅读文献,重新定义研究问题,回到田野,等等)。在这个循环中的某个时刻,当民族志学者对他们的研究问题有了清晰的认识时,他们应该进行“理论抽样”(Charmaz 2006),这包括明确地寻找那些在他们决定关注的特定角度上有最大变化的人和案例。在这个理论抽样的过程中,民族志学者应该开始反复观察相同的情况、话语和实践;田野工作应该重复进行。这意味着他们已经达到了经验上的饱和;现在可能是开始脱离现场以专注于分析和写作的时候了。

其次,与此相关的是,民族志的田野工作不能与位置问题分开。民族志方法的一个关键原则是,知识必然以几种方式被定位。民族志作者进入田野的方式是通过他们的社会人口学特征(性别、种族和民族、阶级、年龄等)来调节的(Bourdieu 1999)。因此,即使他们带着同样的任务和研究问题来到田野,两个具有不同社会人口学特征的民族志作者永远不会有完全相同的机会接触他们所研究的群体和机构,他们不会被以同样的方式看待,他们也不会收集同样的数据。更深刻的是,民族志学者把他们自己的价值观、观点和政治信仰带到他们的研究项目中;这些价值观必然会影响他们所看到的以及他们如何解释这些价值观。民族志学者并没有抹杀这些差异,而是试图承认这种处境,并使之成为研究过程的一个明确的组成部分。这里的一个核心概念是反身性的概念(Lichterman 2015)。通过反身性,民族志学者试图尽可能地明确自己的偏见和盲点,讨论这些偏见和盲点如何影响了他们的研究问题和数据,并更广泛地寻求理解他们作为观察者和参与观察者在他们研究的田野地点所扮演的角色。学者们建议依靠思想实验来促进这一过程。例如,Duneier(2011)提供了一个“民族志图形试验”的想法,即民族志学者想象那些在田野工作中拒绝与他们交谈的人如果读到最后的分析报告会有什么反应。

第三也是最后一点,民族志研究必然受到离开田野的影响——这是田野工作的一个重要但未被研究的部分。根据Snow(1980)的说法,脱离涉及几个重叠的问题。民族志学者何时以及为何离开田野?形成这样一个脱离过程的实际限制是什么?影响民族志学者如何处理脱离的情感和伦理问题是什么?Snow(1980)借鉴了涉及长期旅行和深入偏远社区的民族志研究,发现学者返回自己生活的住所时通常会有疏离感,以及对帮助和欢迎他们的信息提供者和受访者的一种愧疚。这些情绪决定了民族志学者如何撰写和发表他们的分析报告;它们也影响了民族志学者选择与他们所研究的人分享他们的发现的方式。

饱和度、反身性和离开田野是三角测量的三个关键方面。更广泛地说,是收集丰富的民族志数据的过程。在这里,我认为民族志学者可以从明确地引入算法系统来解决三个问题。首先,关于饱和度,算法可以被调动起来,以帮助扩大田野现场的边界并参与理论抽样。一旦民族志学者确定了他们的具体研究角度,他们可以将关键术语和行动者输入算法系统,并仔细检查输出结果,作为分析变化的一种手段。第二,关于立场和反思性,算法系统可以阐明民族志学者在田野中的位置,或者用Burrell(2009)的词,在网络中的位置。第三,算法系统正在改变离开田野的性质,特别是通过民族志学者和他们的信息提供者之间持久的社交媒体联系。请注意,所有这三种方式都不是全新的:数字民族志学者在研究在线群体和虚拟世界时调动了类似的策略(Boellstorff等,2012;Coleman 2014;Knox & Nafus 2018;Beaulieu 2010;Hine 2015;Hjort等,2017;Markham & Baym 2009)。在这里,我借鉴了这一传统,但增加了对算法引入的明确关注。

在对社交媒体平台上的社区进行民族志研究时,算法中介发挥了特别重要的作用。作为一个例子,我们可以以内容创作者和“影响者”为例,他们在YouTube、Instagram、Twitter、TikTok等平台上制作和分享视频、图片和博客文章等在线内容。这些平台的算法决定了影响者的能见度和收入;它们也调节了影响者之间发生的联系,以及民族志学者和潜在采访对象之间的联系。

这就是我在自己的研究中经历的:我们研究的“戏剧”(drama)频道制作的流行视频涵盖了YouTube顶级名人之间发生的冲突和丑闻(Christin & Lewis 2020)。我们的民族志研究以几种方式明确地将算法技术纳入研究过程中。为了建立一个强大的戏剧频道样本,我们阅读了专门围绕YouTube戏剧进行对话的在线论坛。我们观看了戏剧创作者的YouTube视频,并在YouTube、Instagram和Twitter上关注了他们或订阅了他们的频道。通过这些社交媒体的联系,我们积极调动支撑社交媒体平台的算法系统作为工具,帮助我们识别潜在的采访对象。因此,我们依靠平台的算法推荐来扩大我们的受访者名单:我们联系了YouTube、Twitter、Instagram的“推荐”部分所推荐的所有相关创作者。

除了加入明确的算法建议来扩大我们的田野边界外,社交媒体平台也成为我们进行民族志田野调查不可缺少的场所。随着时间的推移,我们意识到,戏剧频道不仅涵盖了发生在顶级YouTube名人之间的戏剧,也经常涵盖了在内容生产者彼此之间的戏剧,发布关于对方的内容并对其作出反应。因此,除了采访创作者和分析他们的制作过程之外,我们还仔细跟踪这些交流,并进行截图和存档,以跟踪塑造这一社区的联盟和争斗的变化。在这样做的时候,我们有意识地模仿受访者的做法。在采访过程中,创作者向我们解释说,为了收集关于YouTube名人的数据,他们依靠自动警报和所谓的接收单(例如,社交媒体帖子的截图)来跟踪You Tube、Twitter和Instagram上爆发的冲突。我们最终对戏剧创作者采用了同样的研究策略。

在采访过程中,我们进一步认识到,我们在戏剧社群的地位完全是由社交媒体平台中介的。频道创作者们通过不同的应用程序和平台上的私人信息和群聊,在他们之间讨论他们的采访。他们中的一些人告诉我们,他们已经和其他已经接受过采访的人谈过,以了解他们的期望;还有一些人在同意接受采访之前,已经和他们的联系人商量过。在一些情况下,他们之间交流的推特信息被意外地发给了我们,让我们看到了他们之间的互动和对我们的看法。最后,我们发现自己被卷入了创作者之间发生的一些戏剧。例如,我们的一个参与者在采访结束时透露,他们一直在录制我们,并询问他们是否可以将其发布到他们的频道上;我们后来意识到,这是这个戏剧创作者为转移戏剧界对他们卷入的种族歧视丑闻的注意力所做的努力的一部分。这反过来又给我们提供了关于我们在这个领域的地位的线索。作为与一所著名大学相关的研究人员,我们的网络存在和社交媒体资料很容易被分析和验证,我们代表了网络创作者的潜在合法性来源。

最后,即使我们的田野调查的密集部分已经结束,社交媒体平台的算法继续塑造我们对戏剧频道的理解。在完成第一波采访后,我们继续跟踪创作者之间的互动。我们继续在社交媒体平台上关注他们;创作者有时也会给我们发信息,包括他们认为我们可能感兴趣的截图,这本身就可以被分析为一种工具化的策略。许多创作者在社交媒体平台(主要是推特)上关注我们,有时对我们的帖子做出反应,这表明我们的资料在算法上对他们是可见的。在这种情况下,离开田野的形式与Snow(1980)分析的经典民族学研究非常不同。我们意识到没有离开:无论好坏,我们对在线社群的理解仍然是由我们收到的关于创作者之间发展的持续通知流所完成的。这些持续的算法联系反过来又提出了关于如何在网上分享和宣传民族志发现的重要问题。在民族志者研究问题较多或暴力的网络社区的情况下,如匿名团体(Coleman 2014)或YouTube上所谓的“新右派”(Lewis 2018),被研究的人对民族志作品作出了消极的反应。因此,民族志学者和他们的信息提供者之间的算法联系可能会变成全面的在线骚扰(网暴),包括在线发布私人或识别信息和死亡威胁,从而提出了大学和研究机构如何在这些情况下保护研究人员免受报复的问题。

在这一节中,我建议不要关注黑箱算法的内在不透明性,而是更密切地关注社会行为者和算法系统之间发生的多种引入、折射和调解。在这个过程中,出现了两种不同的引入。第一种类型的引入是在研究田野中展开的:算法相关的组织、网络、集体等。第二种引入形塑了研究过程本身,通过民族志学者对算法的明确使用。引入概念的两个方面应该被共同纳入考量:社会行动者、算法、研究者都参与了同样的结构,试图(并常常没能)将对方整合进自己的特征中。这样的路径不让社会科学家持有特定的认识论预设,而是将其重新置于他们所研究的动态中。

结论与讨论

在《记者与凶手》中,Malcolm(1989)讨论了记者和他们的消息来源之间的辩证关系。许多与记者合作的刑事被告试图证明自己的清白,而记者则主要是为了讲一个好故事,希望写出一本畅销书。研究者研究了形成他们关系的相互欺骗和操纵,以及他们之间的权力不平衡,因为双方中的每一方都试图为自己的目标招募对方。在开篇,她写道:“每一个不是太愚蠢或自以为是的记者都知道他所做的事情在道德上是站不住脚的,这已经成为许多新闻课程的经典。他是一种自信的人,利用人们的虚荣心、无知或孤独,获得他们的信任并毫无悔意地背叛他们。”当我们将她的分析应用于民族志田野工作时,它有局限性:它过于个人化,没有考虑到塑造学者和他们的信息提供者之间关系的制度性动态。然而,她为算法的社会研究提出了类似问题。正如我们所看到的,研究者和算法之间的关系同样是辩证的。算法是强大而不透明的;它们想更多地了解我们,挖掘我们的个人信息,向我们的眼睛提供相关内容,以使我们留在它们的平台上。相反,为了推动他们的学术生涯,研究人员试图哄骗不透明的算法,让它们提供更多关于自己的信息。换句话说,我们想了解更多关于算法的信息,而算法也想了解更多关于我们的信息。

正如Malcolm所分析的记者和凶手的案例一样,研究人员和算法之间的复杂舞蹈主要是基于欺骗和操纵。在这篇文章中,我提出了几个策略来澄清这种舞蹈并使其更加明确。我认为我们应该与算法一起工作,以绕过它们的不透明性。具体来说,我提供了三种在人种学研究中使用算法的实用策略:算法折射,它将算法视为既能改变又能被其周围的社会动态所改变的棱镜;算法比较,它使用相似和不同的方法来确定技术工具的独特特征及其相关用途;以及算法三角法,它依靠算法系统来收集丰富的定性数据,反思自己在网络中的位置,并且思考脱离或不脱离田野。

编译 | 范屹槟

审核 | 林陌声

终审 | 李致宪

©Political理论志

前沿追踪/理论方法/专家评论

ID: ThePoliticalReview

原标题:《顶刊编译 | 民族志学者与算法:超越黑箱》

阅读原文

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈