- +1
统计好的数据也有陷阱?你是否被数据欺骗过?| 科学世界·探索
我们经常在广告、杂志、电视等上看到各种信息。这些信息很多都是基于统计学的分析得出的结果。然而,统计数据有时会被曲解,从而使我们被误导。接下来,让我们通过几个具体的例子来了解在日常生活中常见的数据“陷阱”吧。
操纵数据的手段
我们身边有很多经过客观数据包装的信息,它们总是试图将人们引导至错误的结论。这些操纵数据的手段通常具有几个典型的模式。
比如,某一天你看到一则广告声称:
X医生:这款牙刷得到92%的牙医推荐!
你会对此产生怎样的印象呢?也许你会认为,既然这款牙刷能够“得到92%的牙医推荐”,那么肯定绝大部分牙医都认为这是一款非常好的牙刷。
但如果现在告诉你,参与试用这个牙刷的牙医其实只有13个人,其中的12个人认为好用
此时你又会怎样看待这件事呢?你是否会认为,也许只是恰好在参加试用的牙医中,认为这款牙刷好用的人数比较多而已。
这样的例子在我们的身边比比皆是。例如,“喝了这种饮料,我的体重比喝之前减轻了15%”“吃了这个保健品的学生,模拟考试的成绩提高了15分”。尽管广告中展示了看起来很真实的数据,但也许参与产品效果试验的人数非常有限。当我们看到这种试图通过数据展示效果的情况时,应该先质疑其数据是否充分。
数据陷阱一:仅呈现少量数据
为什么数据量太少就无法得出正确的结论呢?让我们用抛硬币的例子来思考一下吧。
首先,我们准备一枚硬币。通常来说,只要是普通的硬币,正面朝上和反面朝上的概率应该都是二分之一。

图源:pixabay
接下来,请试着将硬币往上方抛掷10次。
正面朝上的次数真的刚好是10次的一半吗?
可能抛掷10次,其中有8次是正面朝上,2次是反面朝上;又或者是4次正面朝上,6次反面朝上。然而,如果抛掷的次数达到100次,甚至是1000次,那么正面朝上的概率就会更加接近二分之一。通过这个抛硬币的例子,我们可以得知,数据的量越多,才越可能导向正确的结果。
数据陷阱二:有选择性地使用数据
有目的性地选取一部分数据使用,同样会导出错误的结论。
让我们回到开头提到的牙医的例子
xx牌牙刷广告推广的群里,发生着这样的对话:
老板:大家的调研数据怎么样
小甲:报告老板,我们组有1位医生觉得好用
小乙:老板,我们组有俩
小丙:老板,我们组有12个
老板:️这么强,那我们就只用小丙的数据吧!就说“得到92%的牙医推荐”
于是,该公司做出了这样的广告:

我们还应该警惕以图表形式呈现的数据。

假设有上图这样的图表,看上去它传递的信息是“销量在不断减少,需要采取相应的对策”。
然而,仔细观察的话,就会发现这个图表的纵轴只是从整体截取出来的一部分。如果将这部分数据放回完整的图表中,就能看到销量的变化其实并不大。像这样用图表呈现的数据,别有用心的人只需要改变其横轴或纵轴的宽度,或者截取局部进行呈现,就会引导我们得出错误的结论,需要格外注意。
不过,数据范围是否越广泛越好呢?
让我们介绍一个著名的例子

这是一张体现鸢尾花花萼长度与宽度关系的图表。从图表上看,花萼长度越长,宽度就越窄,也就是说两者之间呈“负相关”关系。
但实际上,这张图表使用了两种不同种类的鸢尾花的数据。当我们用不同的颜色将这两种鸢尾花的数据分别标记出来,就能看到在每个品种内,花萼越长,花萼宽度就越宽,即两者之间呈“正相关”关系。但如果用相同的颜色标记数据,花萼的长度和宽度就会呈“负相关”关系。
像这样,将跨度较大的数据合并在一起处理,可能会使原本应该显现的特征变得难以辨别。也就是说,数据的范围并非越广泛越好。上面提到的鸢尾花数据是由英国的统计学家兼遗传学家罗纳德·费希尔(Ronald Fisher)用来说明他自创的统计方法时运用的例子。
在很多情况下,要分辨选用的调查对象的数据是否在合适范围内都是一个复杂的问题。此前曾多次发生因人们使用的数据范围错误而被引导至错误结论的事情。其中一个例子,是1936年美国总统选举的结果预测。当时,备受信任的舆论调查杂志《文粹》(The Literary Digest)曾在1924~1932年的3次总统选举中准确预测结果。然而,他们却在1936年的选举结果预测中栽了跟头。

图片源自网络
《文粹》是根据其订阅者的问卷调查结果进行预测的。人们认为,1936年预测错误是因为问卷调查的对象主要集中在富裕阶层的订阅者上。在他们预测的第4次选举中,出现了一个新的情况,即富裕阶层与非富裕阶层在投票倾向性方面呈现显著的差异,这直接导致了预测的失败。因此,要准确预测总体趋势,就需要慎重选择调查对象。
数据陷阱三:因果推断
假设存在这样一组数据,它向人们展示了一种相关性:饮酒量越大,罹患肺癌的概率就越大。当看到这样的数据时,你会怎么想呢?

我们往往会认为,饮酒量与肺癌之间存在因果关系,即饮酒量多是导致肺癌的原因。但事实未必如此,也许是因为罹患肺癌之后,会比以前喝更多的酒。又或者是虽然看起来“饮酒量”与“肺癌”的数据之间存在关联性,但这可能只是一种巧合,实际上它们之间没有关联。还有可能存在第三种因素,它会导致“饮酒量”和“肺癌”都增加。这样的第三因素又称为“混杂因素”。例如,在本案例中,吸烟可能会被考虑为潜在的混杂因素之一。
当看到看似存在因果关系的数据时,应该还要仔细思考一下是否存在混杂因素,这对避免掉入数据陷阱是非常重要的。
例如,在探讨“冰淇淋销量”和“溺水事故发生的次数”之间的关系时,如果我们按照月份查看数据,会发现冰淇淋销量上升时,溺水事故发生的次数也会增加,也就是说这两者之间存在“正相关”关系。冰淇淋销量和溺水事故发生的次数都是在夏季比较多,在冬季最少。那么,我们是否应该停止销售冰淇淋以减少溺水事故呢?

溺水事故发生的次数与冰淇淋销量之间真的存在因果关系吗?实际上,我们通过常识可以判断,吃冰淇淋不会导致溺水事故增多,溺水事故发生的次数增多也不会导致冰淇淋销量增加。在这种情况下,我们应该想想是否存在同时影响溺水事故发生的次数与冰淇淋销量的混杂因素。研究后发现,一天中的最高气温越高,冰淇淋销量就会越多。同样,溺水事故发生的次数也与最高气温呈正相关,因为天气炎热时进行水上活动的人就会增加,从而导致溺水事故增加。也就是说,在这个例子中,最高气温是混杂因素,而冰淇淋销量与溺水事故发生的次数之间并没有因果关系。
因此,如果有人对你说,基于数据可以得出“A是导致B的原因”这个结论时,你应该再考虑一下,除了A和B,是否存在第三个混杂因素,这将有助于帮助你识别“因果推断的陷阱”。
你的工资可能跟企业平均工资有不小的差距、统计分析的标准究竟是什么......想知道更多日常生活中常见的“数据陷阱”?欢迎阅读《科学世界》2025年第7期探索——统计数据的陷阱。
本文摘编自杂志2025年第7期,文章内容略有删改。
新媒体编辑 | 周濛
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。





- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2026 上海东方报业有限公司




