不要全盘相信任何单个的研究成果。最好的态度是:挺有趣的,先记着,再看看。
(资料图)
看什么?
看研究是怎么做的,看研究的进展和全貌——那正是优质科普所应当努力提供的内容。
撰文 | 向睿洋(阿姆斯特丹自由大学心理学硕士)
你可能经常从各种书籍、媒体看到一些心理学科普,介绍一些研究发现。
比如一篇文章说保暖、多喝热水会改善你的人际关系,因为一项研究表明,物理温暖会提升人际温暖,相比于拿冷咖啡,拿一杯热咖啡会让你对陌生人有更积极的评价。
另一篇文章说在设计调查问卷时,最好把落款签名设计在问卷的开头而不是最后,因为一项研究表明这样可以提高被调查者回答的诚实度。
还有一篇文章说应该多给孩子听莫扎特的音乐,甚至应该从孕期就开始把听莫扎特的音乐作为胎教,因为一项研究表明听莫扎特的音乐能提升人的认知能力。
……
图1. 畅销几十年的经管类书籍《影响力》是许多人的社会心理学启蒙
我们总是倾向于相信这些研究结果,有心的话还会主动运用到生活中。毕竟心理学不是一门科学吗?研究者不是专家吗?这些研究不都经过同行评审发表在国际知名期刊上吗?
然而,近年来,研究者越来越多地发现,心理学或范围更广的社会科学研究,常常是不可重复的。也就是说,一些此时此地这些人身上发现的现象,在彼时彼地那些人身上就消失了!可重复性是科学的一个重要特征。这些不能重复的现象并不是真正的科学效应。
如果不能重复的研究只是孤例,那倒也没什么。不幸的是,2015年的一项大规模重复研究发现,能成功重复的心理学研究的比例,竟然不足40%![1]超过一半的研究结果都并不可靠。这就是近十年心理学界广泛讨论的“可重复性危机”。
可重复性危机
可重复性最早进入心理学研究者的视野,大概是在2011年。这一年心理学界发生了两件大事:
荷兰著名社会心理学家斯塔佩尔(Diederik Stapel)被发现数据造假,他的那些“著名“发现 ”都是虚假的,发表的58篇文章被撤回;美国著名社会心理学家达里尔·贝姆(Daryl Bem),享誉大半生后,以73岁高龄在社会心理学顶级期刊《人格与社会心理学》(Journal of Personality and Social Psychology,JPSP)上发表了一篇对超感官知觉,也就是所谓的第六感(预测未来)的实证系列研究,报告了9个实验来说明超感官知觉现象的存在。[2]JPSP的编辑和审稿人认为贝姆的这项研究符合当时心理学界对研究方法的一切要求,可是他的研究结果却扯上了一个争议极大的、被认为是伪科学的命题。
这篇研究甫一发表,便激起了激烈的讨论。批评者重复了贝姆的实验,未能成功重复出显著的结果,这项重复失败的研究一年后同样发表在JPSP上。[3]
心理学顶级期刊所认同的研究方式,却催生了如此有争议的发现,那么其他已发表的研究是不是也可能不可靠呢?从此以后,心理学界逐步对研究实践进行反思,越来越多的研究者开展了重复性研究。
其中最有代表性的,当属美国弗吉尼亚大学的心理学家诺塞克(Brian Nosek)领导的开放科学合作计划(Open Science Collaboration),在2015年进行了第一项大规模重复研究,对三大心理学顶级期刊《人格与社会心理学》(JPSP)、《实验心理学》(Journal of Experimental Psychology,JEP)、《心理科学》(Psychological Science,PS)上的100项研究进行了重复,发现只有36%的研究得到了成功重复。
重复一遍,在心理学顶级期刊上发表的研究,能被成功重复的只有大约三分之一!社会心理学尤其是重灾区,而普遍认为比较“硬核”的认知心理学研究的重复率也只有大约50%。
图2. 心理学顶刊文章的可重复性。(来源|nobaproject.com/modules/the-replication-crisis-in-psychology)
未能成功重复意味着什么
需要注意的是,一项研究的结果未能成功重复,并不能说明效应一定不存在。
研究重复失败,可能有4种原因:
1.原始研究存在问题,研究者动了手脚,如篡改了数据;
2.原始研究得到的结果是巧合,最常见的情况是原始研究的被试数量太小,相当于抽取小样本,很容易抽到并不能代表总体的巧合样本。
3.原始研究得到的结果是真实的,但只适用于当时当地参加研究的被试群体,而不适用于重复研究的被试群体。
4.原始研究得到的结果是真实的,是重复研究出了问题,比如实验流程未能完全重复原始研究。
前三种原因导致的重复失败,都可以说明原始研究得出的结果是不可靠的。
而第4种情况当然是有可能出现的,所以单独一项重复研究可能并不能说明问题,对一项研究结果进行重复验证是必要的。不过,第4种情况出现的比例不会很高,说明有大量心理学研究结果确实不可靠。
所以心理学就不靠谱?
如此低的可重复率,是在宣告心理学作为一门科学的失败吗?
其实重复失败在科学界很常见。一个著名的例子就是1989年的室温核聚变悬案,两位科学家宣称在室温下实现了持续的核聚变,但其他科学家未能重复出其研究,这一令人欢欣鼓舞的重要发现没能进入科学的殿堂,至今争议不断。
在医学界,尤其是基因与疾病的关联方面,也存在严重的重复失败问题。只有大约4%的关于基因和疾病之间关联的研究结果被成功重复。曾经,研究者普遍相信存在与抑郁症有关的基因,但2019年美国科罗拉多大学的研究者进行了一项大数据研究,并没有发现数据支持所谓的“抑郁基因”,20多年间的上千项研究一下子没有了根基。[4]
可重复性危机的出现,恰恰说明了心理学和社会科学正走在成为一门硬科学的道路上,只是学科内部存在一些需要解决的问题。
问题其实很简单:期刊鼓励发表原创研究,不鼓励发表重复研究。于是大多数研究都是探索性的,研究者初步发现一个现象,马上发表,然后就把这个现象当成一个确实存在的效应,不再进行检验、重复。在所有人都追逐着发表新的研究、发现新的现象,而大量发表的结果是来自于巧合,或只适用于特定人群,甚至是篡改数据而得到。基于这些并不真实存在的效应,大量后继的新研究成了没有根基的空中楼阁。
发现问题就解决问题。可重复性危机并没有压垮心理学,而是促使研究者对研究实践进行调整改进,重视重复研究,期刊也开始鼓励重复研究的发表。大家这才发现,越来越多经典研究,甚至是写进了心理学教材的研究得到重复,其中很多都未能成功重复。
追踪最新的重复研究结果
随着重复研究越来越多,即使是心理学教授和研究者也很难追踪到所有最新的重复研究结果。为了帮助更多人了解重复研究的进展,一批心理学家组建了“开放和可重复研究训练框架”(Framework for Open and Reproducible Research Training, FORRT)。他们整理了上百个心理学效应的重复情况,目前还没有完成(2024年才全面完成),但已具规模,可以在网站[5]上看到他们总结的结果。
图3. 开放和可重复研究训练框架,网站首页截图
FORRT目前罗列出了130多个受到重复研究检验的心理学效应,涵盖社会心理学、积极心理学、认知心理学、发展心理学、市场营销学、神经科学等各个心理学分支。
对于每个效应,FORRT列出了原始文献、批评文献(包括重复研究、综述、元分析等),以及原始研究和重复研究的效应量,并给出了一个标记:replicated(成功重复)、not replicated(未能成功重复,有的甚至效应出现了反转)或mixed(部分重复成功,部分重复失败)。
需要注意的是,因为目前还在资料收集阶段,未经过review,所以网站上一些效应给出的标记有误,不过参考列出的文献也能自行得出结论。
在这130多个效应中,只有不到20个得到成功重复,40多个标记为mixed,未能成功重复的多达近70个。我们姑且认为mixed算部分成功重复,那么replicated和mixed加起来也还不足50%,可见确实有很多效应无法被重复。
成功重复的“优等生”
我们先来看看哪些效应是“优等生”,被标记为replicated,其中比较知名的有:
亲社会花费:为别人花钱比为自己花钱会产生更强的幸福感。
最小群体效应:被试被分入无意义的群体(如掷硬币得到正面的小组、喜欢红色而不是蓝色的小组)后,也会更偏爱自己所在群体的成员。
邓宁-克鲁格效应:在某方面知识或能力有限的人,往往会特别高估自己的知识或能力,过度自信。但要注意,广为流传的“愚昧山峰”、“绝望之谷”的图并不是邓宁-克鲁格效应本身包含的内容,还没有接受仔细的检验。
损失厌恶:人们面对同样数量的收益和损失时,损失带来的负效用大于收益带来的正效用。
曝光效应:重复接触同样的事物,会让人对这个事物评价更高。
旁观者效应:在有其他人在场的情况下,会出现责任分散,每个人向需要帮助者伸出援手的可能性会降低。
高于和低于平均效应:人们把自己和他人进行比较时,在比较简单的能力方面会高估自己的能力在人群中的位置,而在比较难的能力方面会低估自己的能力。
著名的反面教材
很不幸,有一些广为人知的效应未能被成功重复:
皮格马利翁效应(又称罗森塔尔效应、期待效应):在罗森塔尔1966年的研究中,研究者随机挑选一些学生,告诉老师这些学生在IQ测验中表现得最好,最有潜力。研究报告称,因为知道了预言,老师对待这些学生会有所不同,导致这些学生的IQ平均提高3.8,并且效应会随时间累计越发明显。但后续研究发现,教师期待的影响确实存在,但远小于罗森塔尔的报告,且影响是暂时的,不会随时间累积。
力量姿势:2010年的一项研究发现,摆出有力量的姿势,也就是伸展、开放的姿势(比如双手叉腰),会使体内睾丸素水平升高,皮质醇水平降低,让人更自信、有力量。这一著名的具身认知效应,未能得到成功重复。面部表情反馈:1988年的一项研究发现,摆出微笑的姿势(如嘴里横着咬住一支笔)会让人心情愉悦,而噘嘴会让人情绪低落。这一具身认知效应也未能成功重复。
自我损耗:著名心理学家罗伊·鲍迈斯特(Roy Baumeister)在1998年的研究中提出,自控力是一种有限的资源,抑制一种想法、情绪或行为会消耗自控力,在做了一项这种抑制任务后,被试会出现自控力损耗,在后续的任务中坚持的时间更短,表现更差。由于鲍迈斯特的争议发言(重复失败是因为做重复研究的人能力不行),这一效应受到了多次重复检验,最后发现实验室中历时几分钟的损耗任务无法真正让人自我损耗。
无意识思维优势:2006年的一项研究发现,在做需要考虑很多因素的复杂决策时,不仔细思考往往能让人做出更好的决策。重复研究中这一现象并未出现。还有本文开头提到的三个研究发现:物理温暖提升人际温暖、落款在前提升作答诚实性、莫扎特效应,都未能得到成功重复。其中,关于落款位置的原始研究,还因为数据作假的问题被撤回了。[6]
除此之外,有一些已被我们当作常识的效应被标记为mixed,至少说明这些效应的重要性和影响力被高估了:
成长型思维:著名心理学家德韦克(Carol Dweck)在1995年的研究中首次提出,成长型思维——即相信能力是可以提高的而不是固定的——可以让人在任务中表现得更好。在教育领域,很多研究指出,成长型思维能让学生取得更好的成绩。畅销书《终身成长》即以此为基础写成。但重复研究普遍发现,成长型思维的影响其实并不大。
助推:2017年诺贝尔经济学奖获得者理查德·塞勒(Richard Thaler)于2008年的研究中提出了助推的概念,即通过正向强化和间接建议来影响人们的行为和决策,而不要使用直接教育、强制或惩罚的手段。一个很有名的例子是荷兰阿姆斯特丹史基浦机场在每个男士小便池里印上一只苍蝇,此举的效果远好于“向前一小步”的标语。不过,助推效应近年来受到元分析的质疑,即使助推效应确实存在,效应量也很小。
图4. 虽说这两种效应不见得显著,但这两本书也许还是帮到过你。
同类不同命
有趣的是,有一些同领域的密切相关的效应,其中一些得到了成功重复,一些却重复失败了。
比如“稀缺效应”,其中包含了一系列效应,都是说真实资源或者想象资源(财富、时间等)有限的人,会表现出的一系列倾向,包括:
时间折扣:收入骤减的变故会让人更偏向于即刻获得的低额奖励,而非一段时间后才可获得的高额奖励;
生理疼痛:经济上的不安全感会让人感到更强的生理疼痛;
过度借贷:感受到的缺钱会让人过度借贷;
物质商品偏好:穷人会偏好物质商品,而非体验性商品;
幸福感:想象在一座城市停留的时间即将走到尽头,会提高人的幸福感;
有意识思维:相比于富人,穷人会更经常产生与财务担忧相关的想法;
竞争/威胁:商家的饥饿营销会使消费者将其他消费者感知为有威胁的竞争者;产品使用创造性:资源稀缺会使人更有创造性地利用产品;
偏好极化:感知到的稀缺会让人产生偏好极化,即更强烈地偏好某一选项,排斥其他选项;
……
以奥唐奈(Michael O’Donnell)等研究者2021年发表的、对20项研究的大规模重复检验为代表的重复研究,发现以上列出的这些稀缺效应中,1~4得到了成功重复,而5~9均没有得到成功重复。[7]
可见,即使是同一领域、强关联性的研究结果,也可能有的靠谱,有的不靠谱。我们需要批判性地看待每一个研究结论。
对于心理学应持怎样的态度?
大量心理学研究结果无法被成功重复,面对这个现实,我们应该怎么办?
是不是要弃心理学如敝履,从此不再相信心理学,不把心理学当成一门科学吗?
正如前文所说,可重复性危机并没有压垮心理学,研究者们正在积极地改变研究实践,一方面通过重视重复研究和元分析,检查以往研究的可靠性;一方面通过鼓励预注册(即在研究开始之前就详细登记研究方法和预期结果,防止研究者对数据进行操纵),以及增加样本量(提高统计检验力),来提升新研究的可靠性。
但整个学科迈向更严谨的科学还需要时间。目前,我们对哪些心理学知识靠谱,哪些不靠谱仍难有十足的把握。在这样的情况下,我们需要具有批判性的思维。
或许可以这样说:任何单个研究的成果都不能全盘相信。对于那些吸引眼球的标题、让人眼前一亮的研究成果,最好的态度是:挺有趣的,先记着,再看看。
要批判性地看待研究结果,首先需要对研究有基本的了解。如果一个研究说,让被试想到老年人,就会让被试行动变得迟缓,那么我们需要了解被试是什么样的人(可能是歧视老年人文化下的美国大学生),需要了解“让被试想到老年人”是怎么让他们想到的(也就是具体的研究方法),然后才能判断基于这些被试的结果对我们是否适用,研究中的操作对现实生活是否有参考价值。
更重要的是,我们需要看到研究的进展和全貌:类似的研究、重复研究取得了怎样的结果?其他研究者怎样看待这项研究?(比如上面这个“想到老年人”的研究,就没有得到成功重复。)
当然,以上两点对科普作者提出了较高的要求。优质的科普并非只传达零星的研究发现,而需要呈现研究的全貌,甚至最好能呈现关于一个话题研究进展的全貌。
科普作者的工作方式或许需要来一个转变:不是为了传达一个观点,去寻找支持这个观点的研究,来说服读者;而是针对一个话题,把研究的进展和脉络梳理呈现,再整理出一个最受支持的观点。
以上种种,听起来都很严肃、很累。严谨是一种科学态度的追求,不过对于心理学这样的学科,或许也可以留有一些模糊的空间。
人性、人心本来就极其复杂,我们希望尽可能地揭示心理的客观规律,但也不应该期待简单的理论、浅显的效应就能解释一切,并奢望这些理论和效应适用于所有人。看到心理学的局限,承认人性的幽微与复杂,或许也是一件浪漫的事情。
我个人的观点是,尽可能批判性地了解更多心理学知识和研究发现,但也不必对一些看起来还不够严谨的畅销书、科普文持批判一切、否定一切的态度——信不信本来就是个人的事,有时候信则灵也说不定呢。
参考文献
[1] Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349.
[2] Bem, D. J. (2011). Feeling the future: experimental evidence for anomalous retroactive influences on cognition and affect. Journal of Personality and Social Psychology, 100(3), 407-425.
[3] Galak, J., LeBoeuf, R. A., Nelson, L. D., & Simmons, J. P. (2012). Correcting the past: Failures to replicate psi. Journal of Personality and Social Psychology, 103(6), 933–948.
[4] Border, R., Johnson, E. C., Evans, L. M., Smolen, A., Berley, N., Sullivan, P. F., & Keller, M. C. (2019). No support for historical candidate gene or candidate gene-by-interaction hypotheses for major depression across multiple large samples. American Journal of Psychiatry, 176(5), 376-387.
[5] https://forrt.org/reversals/
[6] Retraction for Shu et al., Signing at the beginning makes ethics salient and decreases dishonest self-reports in comparison to signing at the end. https://www.pnas.org/doi/10.1073/pnas.2115397118
[7] O’Donnell, M., Dev, A. S., Antonoplis, S., Baum, S. M., Benedetti, A. H., Brown, N. D., ... & Nelson, L. D. (2021). Empirical audit and review and an assessment of evidentiary value in research on the psychological consequences of scarcity. Proceedings of the national academy of sciences, 118(44), e2103313118.
本文受科普中国·星空计划项目扶持
出品:中国科协科普部
监制:中国科学技术出版社有限公司、北京中科星河文化传媒有限公司
特 别 提 示
1. 进入『返朴』微信公众号底部菜单“精品专栏“,可查阅不同主题系列科普文章。
2. 『返朴』提供按月检索文章功能。关注公众号,回复四位数组成的年份+月份,如“1903”,可获取2019年3月的文章索引,以此类推。
版权说明:欢迎个人转发,任何形式的媒体或机构未经授权,不得转载和摘编。转载授权请在「返朴」微信公众号内联系后台。