下载客户端

心理学的危机：为什么超六成的实验无法重复？

隔壁老郭

2015-09-16 09:55

来源：澎湃新闻

可重复性是科学之所以成为科学的一项重要定义。然而，最近一期科学（Science）杂志上刊登的一篇论文显示，研究者尝试重现发表在三份顶级心理学期刊上的100项研究，结果超过六成无法成功再现。[1]事实上，心理学实验的可重复性近年来在学界受到了极大的关注，而大量实验无法复现的现象不仅引发了对这一领域是否存在学术不端的广泛讨论，整个学科的合法性也受到了一定程度的挑战。

研究心理学为什么需要做实验？

行为科学（Behavioral Science）主要指代研究人或动物行为的学科。而其中，关于人的行为的研究，主要关注人内部或者人与人之间的思维过程及其外显表现，例如：决策、判断、人际交流，以及做出行动上的选择。其中，心理学（为简化阐述，此处只讨论人类心理学）是一种典型的行为科学。学术意义上的心理学并不等同于民间传说中的“读心术”或者“面相学”，而是一门以科学手段探索人类认知、情绪、人格与行为的学科。

与经济学、社会学等其他社会科学学科类似，心理学采用定性（qualitative）与定量（quantified）结合的手段。在定量研究方法中，行为实验（Behavioral Experiment）又是心理学的主要研究方法之一。

行为实验的目的，在于证明因果关系。例如，有些研究需要探明喝咖啡对于人认知功能（如：注意力）的影响。最直接的办法就是比较喝咖啡的人和不喝咖啡的人在要求集中注意力的任务（如：计算、分类整理资料）上的表现差异。此处，我们将喝咖啡与否称为自变量（Independent Variable），这代表了我们想要探索的“起因” （IV），而人在任务中的表现，则被称为因变量（Dependent Variable），这代表了我们想要探索的“结果”（DV）。这个因果关系如下所示：

IV (自变量) → DV（因变量）

如果我们想要证明的确是喝咖啡（自变量）影响到任务表现（因变量），必须先行满足以下三个条件：

（1）自变量和因变量存在着时间序列上的关系，自变量的发生应该在因变量之前（时序定律）

（2）自变量和因变量之间存在相关，即自变量的变化也伴随着因变量的变化（相关定律）

（3）在自变量到因变量的因果链条中，需要排除其他混淆因素对因变量的影响（排他定律）

如何设计一个实验来验证这个因果关系呢？我们需要一群实验参与者，然后把他们随机分配在两组中。在第一组（实验组）中，我们让实验参与者喝更多的咖啡。而在另一组（对照组）中，我们让参与者不喝咖啡。接下来对所有的实验参与者，我们考察他们在同样的任务上的表现差异。在这个实验中，通过人为让一组人多喝，一组人少喝，再测量他们的任务表现，我们控制了因果链条中的时间关系（自变量发生在因变量之前）。而通过比较两组的任务差异，我们观察到了自变量（喝咖啡量）和因变量（任务表现）之间的关系。最后，把参与者随机分配到两组，则最大可能地降低或平衡了其他因素（如：性别、年龄、饮食习惯）对他们任务表现的影响（排除混淆因素的作用）。

心理学实验中的“可重复性”问题有多严重？

如上文所述，一个严谨的心理学实验，旨在通过巧妙的实验设计来验证自变量到因变量的因果关系。过去几十年间，一系列精彩的实验研究，极大地推动了心理学的繁荣与发展。

学术研究是一个承前启后的过程，前人可能会通过实验发现一些独特的现象，而后人则会在前人研究的基础上延伸出一些新的研究想法，这就对前人研究的真实性和可靠性提出了更高的要求。所以，越来越多的研究者希望看到前人的研究可以被重复。毕竟，如果一个研究能被越多人重复，就越证明这个发现的稳健和可靠。

近年来，一些研究机构和个体开始向之前发表文章的原作者索要实验材料，然后试图在与原作近似的实验条件下重现前人的发现。然而，不重复不知道，一重复吓一跳。一系列的重复研究纷纷显示，不少心理学实验正在遭遇“不可重复质疑”。

网站“开放科学架构”（Open Science Framework）在2013年对心理学中的一些重要效应进行了重复实验，结果显示一些经典的行为决策研究结果具有较稳定的效应，但是一些社会认知领域的经典效应则被发现难以重复[2]。

《自然》期刊（Nature）在2015年发表了一篇对于100个发表在心理学期刊上的研究进行重复研究的报告 [3]。结果显示，只有39个研究很好地重复了前人的发现，而在剩下61个研究中，有部分研究显示了和原作相似（但不等同）的结果，甚至还有一部分研究结果则与原作几乎完全不同。

除了机构的参与，一些个体研究者也陆续向对前人的经典研究发难，导致一系列曾经让人兴奋不已的研究纷纷中枪。其中最受诟病的领域来自于社会认知中的启动效应（Priming Effect）和具身认知（Embodied Cognition）。

以启动效应为例，启动效应指的是人在上一个情境中接触到的实验刺激会影响到他们在接下来另一个情境中的判断和行为。其中一个经典(但又在今天饱受争议)的例子来自于耶鲁大学约翰巴奇（John Bargh）的研究[4]。在巴奇最初的研究中，他们让实验参与者先玩一个重新排列打乱的字母以组成正确单词的任务。其中一半实验参与者（实验组）需要重排的这些单词恰恰可以被用来描述与“老人”相关的情景，而对照组的实验参与者则排列一些更加中性的单词。那么根据巴奇的理论，当人们在玩这个游戏的时候，相对于对照组，实验组中的参与者已经在不知不觉中受到这些单词的影响。接下来研究员要求所有实验参与者走到一个特定的地方，并同时暗中记录下他们步行到目的地的时间。实验结果显示，实验组中的研究参与者走得比对照组更慢，说明他们受到了“老人”这个概念的影响。然而近年来，这篇引用率达数千之巨的经典著作却遭遇了挑战。其他研究者的一些重复研究陆续发现这一社会认知中的经典效应不能被重复[5]。由于巴奇的这篇论文堪称是社会认知的经典之作，这一挑战无疑对社会认知领域产生了极大的冲击。

事实上，对“心理学实验的可重复性”的忧心甚至延伸到其他采用行为实验方法的社会学科。自从赫伯特西蒙和卡尼曼开始挑战经济学的“理性人”假设以来，行为经济学成为冉冉上升的明星。在经济学领域的顶级期刊美国经济评论（The American Economic Review，AER）和经济学季刊（The Quarterly Journal of Economics，QJE）中也出现了更多的行为经济学实验。而最近加州大学伯克利分校的何德华教授(Teck-Hua Ho)等人就计划对2011-2014年间发表在AER和QJE上的18个行为经济学实验进行重复检验，至于结果，就让我们拭目以待吧。

实验不能被重复等同于学术不端吗？

越来越多的研究者、期刊和媒体开始关注心理学实验的重复性问题，并有不少人称之为心理学的道德危机。不过，这一说法本身值得商榷。

首先，实验的无法被重复并不一定等同于学术造假。一个实验无法被重复，除了学术造假，可能还有其他因素：首先，重复实验的操作与情景本身可能会对一些研究结果造成影响；其次，参加重复实验与原始实验的样本本身也存在差异；这些不同样本之间的个体差异（如文化、年龄、经济水平、教育背景）也可能对实验结果产生影响，此外，人的进化、社会环境的变化，也可能使那些多年前发现的效应不再稳健。行为科学的最大魅力在于，人和社会都是动态变化的有机体，因此新的理论出现，旧的理论消失或者不再适用，都是有可能的。

另一个可能被忽视的情况是，由于近几年一些社会心理学领域的知名教授被发现数据造假，当“一些人造假”与“另一些人实验无法重复”的新闻消息同时占据版面，读者就往往会自然而然地把两者联系在一起。但事实上，前者是明显的学术不端，但是如果因此就把实验无法重复和学术不端等同起来，就很可能犯了心理学所说的判断谬误，即误认为同时出现的两件事一定是相关甚至是存在因果联系的。

尽管实验无法重复并不等同于学术不端，但是这场风波也确实应该让心理学研究者与学术期刊警醒。例如，为了尽可能减少因为“学术不端”而造成的实验无法重复，期刊需要采纳更加严格的审稿体系，要求研究者提交原始数据、原始研究材料以及分析方法。再者，近些年来心理学研究越来越向追求“问题新奇”的方向发展。虽然这会给这一领域带来更多乐趣和聚焦，但是这种猎奇心一旦过了头，研究者就可能更多去追求热闹，而忽视对一些真正接近人类思维本质的问题的研究。事实上，只有从“搞个大新闻”到回归踏实做研究，才能催生更多经得起检验的研究成果，也才能推动整个学科的前进。

从研究的方法论上看，研究者自身也应该争取在一篇论文中重复自己的结果。现如今优秀的心理学杂志往往要求4个及以上的重复实验。而为了进一步证实自己研究的可推广性和可重复性，研究者应该考虑在一篇文章中融入多种情景（更替实验材料）和多种方法论（实验室实验、真实生活中的田野实验、二手数据、甚至是像经济学一样的理论模型），这本身也是一个自我检验和取信于人的过程。

总而言之，尽管心理学实验的可重复性问题对心理学造成了巨大冲击，但是这本身并不意味着心理学的危机或者末路，反而为这一学科的规范化和严谨化提供了方向。而对于心理学研究者而言，最应该保持的态度还是“清者自清”，抛开那些浮华但是经不起检验的议题，去真正探索值得研究的基本理论问题。

[1] Science 28 August 2015: Vol. 349 no. 6251 aac4716

[2] Investigating Variation in Replicability: A “Many Labs” Replication Project https://osf.io/wx7ck/

[3] First results from psychology’s largest reproducibility test http://www.nature.com/news/first-results-from-psychology-s-largest-reproducibility-test-1.17433

[4]Bargh, J. A., Chen, M., & Burrows, L. (1996). Automaticity of Social Behavior: Direct Effects of Trait Construct and Stereotype Activation on Action. Journal of Personality and Social Psychology, 71(2), 230-244.

[5]Behavioral Priming: It's All in the Mind, but Whose Mind? http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0029081

澎湃新闻报料：021-962866

澎湃新闻，未经授权不得转载

我要举报

#心理学 #行为实验 #因果关系 #可重复性 #学术伦理