• +1

顶刊编译 | 社会科学研究中的可复现性

2022-07-21 06:48
来源:澎湃新闻·澎湃号·湃客
听全文
字号

社会科学研究中的可复现性

摘要:

对社会科学家无法复现实证研究的担忧,催生了大量相关文献。在这里,我们提供了一个形式文本建模方法来描述整个领域,这使我们能够总结这方面的文献的广度,并确定核心主题。我们分析从 1947 篇文章中构建的文本网络,以揭示在有关可复现性问题的论文中,社会科学学科之间的差异,并讨论文献中所涉及的子主题的多样性。可复现性是一个异质性的问题,不可复现的问题可能有多个来源和解决方案,之前声称能解决这一问题的“开放科学”方案或许并不适用。我们提出了一个替代的严谨性和可复现性模型,采取积极的方法来对出版前的工作严格要求。

译者注:Reproducibility,可复现性,指不同研究者用同样的方法重复一项研究(通常为实验、行为研究或对数据库的统计分析),可以得到可靠的、与原结论相似或相同的结果。

作者简介:

James Moody 杜克大学社会学系

Lisa A. Keister 杜克大学社会学系

Maria C. Ramos 佛罗里达州立大学

文献来源:

Annual Review of Sociology, 2022(48).

本文一作:James Moody

近年来,社会科学中关于复制性、严谨性和可重复性的文献飞快增长,每年有数百篇该主题的论文发表在社会科学期刊上。我们利用形式综述(formal review)的方法,来帮助社会学家厘清过去的科学丑闻和有关开放科学(Open Science)的倡导声,并提供一种关于可复现性研究的总体感觉。这种图景式的方法对过去专注于深入解读的综述(Freese & Peterson 2017)进行了补充。这篇综述的目标受众是有兴趣了解该领域的问题及其历史的量化社会学家。本文的目的是:扩大对属于“可复现性”这一标签下丰富问题的认识,以及对进行严格的、可复现研究的相应的挑战之难度的认识。

通过这一综述,出现了两个主题:一,社会学家的声音很小。我们表明,这些文献主要是由实验心理学家和政治科学家推动的,如果有更多社会学家参与进来,会为对话做出贡献。二,对我们来说,最常引用的解决可复现性危机的方法——即开放科学的倡导:增加对数据和模型的获取渠道,以供公众监督——是值得称赞的;但是鉴于可复现性问题的广泛存在,这一方案并不完整。开放科学建立在事后的被动纠正模式,而非事先阻止不当行为发生;然而,证据表明,不可复现的错误研究仍然被引用,这说明有必要防止不准确的结果发表。

系统性回顾:可复现性研究的知识地图

文本网络方法(Bail 2016,Light 2014)将语料库中的每篇论文视为一个节点,捋论文之间的相似性视为连接它们的链接。简言之,我们的综述过程是对学术索引进行详尽的搜索,对论文进行相关性过滤(结果有1947篇论文),根据重叠术语构建论文网络,对网络进行聚类以确定主题,然后绘制出网络以直观地表示知识景观。

图1是一个等高线图,展现了可复现性研究的全景。在这个图中,方向是无关紧要的;然而,在这个空间中相互靠近的聚类一般都有重要的内容,而地形着色中的差距则表明缺乏联系。显示的英文标签指的是语料库中确定的28个不同的聚类,覆盖了方法论、研究中的不当行为和实质性的研究主题(包括健康、政策、犯罪和语言)。在图的顶部中心,我们发现了一组与数据窥探(data snooping)有关的论文,这指的是用不同的变量组合或编码策略多次使用同一个数据集来测试一个特定的假设。有四个与开放科学(OS)问题有关的集群。地图的右侧和底部显示了涉及特定实质性领域的研究。地图的左中部区域显示了统计问题(SI,statistical issues)的共同主题,包含关于显著性检验、统计检验力(power)等的集群。左上角的集群包括了不当行为以及一些特定的数据丑闻。下面我们将详述集群的内容。

源自原文Figure 1,对图中重要的、文中讨论过的概念进行了翻译。

实质性研究主题集群

在语料库中,最大的实质性研究聚类包含应用临床心理学的工作,主要是对酒精、人格和药物使用障碍的研究。许多研究集中于量表构建与测试,以前工作的实证复现,或者呼吁进一步公开的复现研究。很少有关于复现问题本身的呼吁;相反,复现研究看起来已经进入了这一领域日常的工作关注中(这一集群中有13%的论文标题中有‘replication and expansion’及其变体)。与这一集群接近的是心理障碍、学习、神经心理学和犯罪研究,同样有相当数量的论文是‘a replication study’。

教育、商业、经济学集群是内部连贯的。我们将它们放在一起描述,因为其位置相互接近,但更重要的是:因为它们是社会科学领域中关注复现性“元问题”的学科,而不是报告具体复现工作的结果。例如,经济学中的论文有这样的标题“经济学中的复现研究”和“复现还是不复现?”,商业和教育研究中的核心文献同样具有相似的一般性,即强调关于复现性本身的关注。

方法论集群

方法论集群中,最常见的批判是关于显著性检验和p值分布的。显著性集群中最有代表性的工作是显著性检验如何导向科学研究中的错误观点(Sterling 1995)或反复讨论统计检验的认识论基础(Rodgers 2010)。基本的困难广为人知:实质性的效应量(effect size)论证常常是主观的,所以小于0.05的p值变成了一项重要的裁决标准。这导致研究者太过重视统计显著性检验,不管是裁剪数据得到小于0.05的p值,还是并不考虑效应(effect)的实质性含义。

文献同样包含关于p值替代方案的讨论。例如,许多研究者提出报告置信区间(Schmidt 1996)、采用贝叶斯统计方法、将更多精力放在解释效应量(而非关注效应量是不是通过了显著性检验)。其他作者提出了关于科学研究应该是怎样的广泛观点,包括放弃完全偏好于“预测未来结果”的假设检验(Billheimer 2019)。显著性检验作为出版偏好(publication bias)的一个重要因素,导向了三个密切相关的话题:与统计检验力(power)相关的问题,p曲线分析,以及贝叶斯解决方案。检验力集群中讨论的问题有两类:一,较大的样本量夸大了检验力,导致对微不足道的效应大小进行精确的、因而具有统计学意义的检验。例如研究者发现,在心理学研究中,效应大小和样本量之间存在一致的负相关。二,一些小的或者没有通过检验的研究有时会偶然报告显著的结果,但是由于选择性的报告偏见,这些低检验力但显著的结果可能在复现研究中被否定。

p值曲线(p-curve),指的是显著性p值的分布曲线,一般用于解决p值操纵(p-hacking)的问题——通过调整分析结果,有选择地只发表有意义的分析结果,直到效应变得有意义为止。P曲线的思路是:评估报告的结果是否是选择性的,其核心思想是,如果结果真实,那么我们能看到0.001附近的p值多于0.04,而那些选择性报告的p值更有可能有边缘的p值分布。这项研究被广泛引用,对该模型何时适用也有很多讨论(Bruns & Ioannidis 2016)。这里还包括关于如何评估一般的复现研究的论文,重点是出版偏好;其中一个关键点是:原始论文中的效应大小强于复现论文中的效应大小,这是由于发表中对新颖结果的偏好。

统计学议题的一个共同主题是发表偏好,即发表无效结果的可能性较低。Gerber & Malhotra(2008)回顾了发表在《美国社会学评论》(ASR)、《美国社会学杂志》(AJS)和《社会问题》(Social Problems)上的论文,发现有强有力的证据表明存在普遍的出版偏见——在出版记录中观察到的p值和效应大小分布不太可能是由无偏见的选择过程产生的。在这组研究中,以及在整个出版偏好主题中,很多人关注的是新颖性和准确性之间的权衡(Cropley 2017),但这是一个错误的二分。

一组论文专注于数据准备和模型建立,在snoop群组中得到体现。术语“数据窥探”(data snoop)是金融和经济学作者最常使用的,指的是对相同的数据反复进行模型拟合。在这种情况下主要担心的是,在样本内的良好预测能力可能没有什么样本外的预测效力。

不当行为集群

不当行为集群中主要包括“欺骗”“伦理”“标准”等关键词。核心文献是关于撤稿的、政策如何影响学界研究的不当行为、谨慎的操作应如何促进、研究者为什么会欺骗。值得注意的是,对编辑和审稿人的调查显示:故意的不当行为并不常见,也不是无法复现的主要因素,尽管它是撤稿的主要因素。

不当行为中还有两组文献:一是harking,指结果已知后再假设。这一行为是否是不当行为,有许多争议,因为探索性数据分析和稳健性测试是有用且必要的。数据窥探、harking、p值操纵在本质上是相似地:它们都是指调整分析,以获得预期的结果。第二个关键词是ego,指的是试图复现心理学中自我消耗效应(ego depletion effect)的工作,这是心理学中一个很有名的争议。不能复现一个至今仍被认为长期存在、众所周知的结果,说明了心理学现在的复现危机。

启示:社会学家在哪里?

也许对社会学家的文献进行系统回顾的第一个收获是,发现社会学工作的代表是多么的罕见。社会学期刊只占我们语料库中期刊的2%左右,而且发表的论文比例更小。事实上,根据Web of Science搜索,1970年至2020年间在AJS\ASR\Social Problems上发表的985篇文章中,只有6篇在核心搜索词中包含“复制”、“可重复性”或“再分析”。虽然我们可能会预期在该领域最著名的期刊中会有对新颖性的偏爱,但作为Socius的前编辑,我们注意到同样很少有直接以复制先前工作为目的的投稿(除了专门用于该主题的特刊),而且当此类作品被提交时,作者通常很难说服审稿人这种工作是有价值的。因此,我们的第一个观察结果是,社会学家似乎倾向于新奇而不是复现,以至于评估复现是否成功是困难的。如果没有人看到复制初始工作的价值,我们就不太可能找到失败的案例。

尽管缺乏清晰的复现工作尝试,但至少有三个理由让人怀疑复现常常失败。首先,社会学文献中报告的显著性检验分布同出版偏好一致,即倾向于勉强显著的结果。其次,在没有仔细复现的情况下,研究工作会有各种错误,例如数据选择(截止日期、异常值)、编码或建模问题等。最后,社会学界缺乏对复现的关注(例如与心理学界相比)。

复现的经验性尝试和这种尝试的元分析都指出了简单的p<= 0.05决策规则所产生的问题。这里的问题十分困难。出版是学术成功的关键,所以出版的压力很大。同时,期刊的投稿量很大,这意味着审稿人也同样负担过重。p值为作者和审稿人提供了一个简单的决策规则。如果某样东西没有统计学意义,那么它就可以被忽略。不幸的是,这个决策规则在随机数据生成过程中失效了,因为有些结果仅凭偶然性就会有统计学意义。由于作者需要发表文章,所以他们强调有意义的结果,而审稿人看不到,即使他们能看到,也没有时间去审查大量未被报告的测试。当统计检验力低下时,假显著性的实质性影响就更不稳定了。完全取消显著性检验的论点很诱人,但并不完全令人信服——第一轮决策规则的实用价值实在太高,尽管提高阈值的论点可能有说服力。这是一个老问题,有一个类似的众所周知的解决方案。显著性检验应该是关于实质性意义的决定的一部分,而不是唯一的决定因素。效应大小和置信区间应始终以突出实质性重要性的方式呈现。在我们看来,无论这些是贝叶斯主义还是频率统计流派的风格,都不如理解效应大小在所考察的理论背景下的实质意义来得重要。

结语

我们的研究强调了两个广泛的问题。首先,有一些针对特定领域的研究主题,突出了研究如何可能系统地偏向于发表假显著性结果。社会学家应该关注这些例子,是因为没有办法确保阶级、种族或文化的模型不会受到同样的出版偏见的影响(尽管证据显示这些影响常见于其他学科),这种偏见可能是不可复现结果的基础。这个问题涉及到社会科学中深层次的激励结构和出版压力,这些都是不可能改变的。因此,任何解决复制问题的方案都需要关注理论的清晰性,我们认为,除了统计学意义外,还需要关注效应大小和效应的实质性意义。发表偏偏好问题应该被关注的程度取决于研究类型。那些旨在直接为政策提供信息(如干预试验)或测试先前已确立的或公认的理论的研究人员,应该对有利于虚假显著性的做法的危险性非常谨慎,并尽可能地采取回避措施。什么样的行动会因研究的类型而异,但使用预先登记、分割样本和进行模型稳健性检查都是有希望的选择。然而,旨在发现社会行动或组织的新方面的工作应该被赋予更多的探索性评价,尽管我们同意真正的新发现应该有一个高的统计标准(Benjamin et al,2018)。科学的根基是在发现与检验之间,我们不想以检验的名义阻止发现,正如我们不想假装任何单一的研究是确定无疑的。

我们的研究所发现的第二个广泛的问题是关于可复现性。也就是说,数据的构建和分析中的错误似乎太常见了。这意味着不同的研究者使用相同的数据很可能不会得出相同的结果。科学作为一种权威的声音在公众中的地位取决于保持严谨的程度,而不幸的是,这种严谨的程度往往没有得到满足。现在,第三方经常有可能发现这种错误,如果我们不尽可能地纠正这种错误,就会危及科学的权威声誉。通常提出的开放科学模式依赖于人们自愿做这样的工作(即将自己的数据、分析过程开放获取),有时这当然有帮助。但是我们怀疑,如果我们真的要发现和纠正这种错误,我们需要对工作本身进行考察。出版前的严格审核使诚实的研究人员与公众的利益保持一致;这样会使得作者有动力提供帮助,自然会缓解数据获取问题。总之,在可复现性问题中,社会学家明显缺乏关注,使我们在某种程度上处于黑暗之中——我们根本不知道社会学调查的结果有多大可能被复现。因此,可复现性问题应得到更多关注。

编译 | 范屹槟

审核 | 苏志翔

二审 | 林陌声

终审 | Mono

前沿追踪/理论方法/专家评论

ID: ThePoliticalReview

原标题:《顶刊编译 | 社会科学研究中的可复现性》

阅读原文

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报
            查看更多

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2026 上海东方报业有限公司