下载客户端

AI大数据抢人饭碗？是什么让人类产生了AI无所不能的错觉

2020-01-07 16:30

来源：澎湃新闻·澎湃号·湃客

你相信以某地天气数据可以预测美国总统大选吗？

你相信半个地球外的虔诚祈祷可以治疗癌症吗？

你相信智能手环的大小可以评定偿债能力吗？

你一定认为这些问题的逻辑关系太荒谬了，但对于人工智能来说，所有的大数据只是数据，如果你拷问数据的时间足够长，选取的数据量足够大，没有任何逻辑关系的数据也会告诉你期待的答案。这也正是经济学教授加里·史密斯希望通过《错觉：AI如何通过数据挖掘误导我们》一书传达的核心思想——大数据并非是理性决策的灵丹妙药，人工智能尚无法超越人类智慧。目前的“人工智能”距离可与人类相媲美的通用智能还相去甚远，“只有理解所要表达的意思才能称其为智能”，这才是人类智能和计算机智能的本质差别。

让我们回到2012年12月，当时大数据研究权威之作《大数据时代》出版，该书作者维克托称其最具洞见之处在于：明确指出大数据分析不再拷问“为什么”的因果关系，而是快速尝试各种可能模型，寻找“是什么”的相关关系。这种通过大数据挖掘“相关关系”而作出快速决策的方式颠覆了千百年来人类思维的固有模式。

现在的很多互联网购物公司普遍利用大数据挖掘技术，已经可以根据用户消费习惯和浏览网页留下的数据痕迹预测用户下单的可能性，并且提前发货至前置仓，以便在用户订购当日即可收货，为用户提供了极致的购物体验。然而，这种数据挖掘真的能称得上是智慧吗？同样是2012 年的美国，一名男性顾客怒气冲冲地来到全美第二大零售超市Target 投诉，理由是Target 给他还在读高中的女儿邮寄婴儿和孕妇用品的优惠券。由于故事极其具戏剧性——亲生爸爸居然比不上一台电脑更了解自己的女儿，相信不少人都听过这个刊登在《纽约时报》上的荒谬新闻。是的，这就是大数据分析的结果，但最终数据只是告诉Target该顾客可能怀孕了，却并没能判断出这仅仅是一名高中女生。很明显，大数据分析只是分析设定好的数据，而忽略现实中其他需要考量的事情，籍此提醒人们：这是“大”数据的傲慢，而非聪慧。

也许你可能会想这是多年前的事了，当时的数据分析可能还没那么精准，现在应该就不会这么荒唐了吧。那你可知道全球最大的搜索引擎公司——谷歌曾经发布的 “谷歌流感趋势” 预警系统么？其利用网络检索关键词的大数据分析预测流感，多年的预测结果与美国疾病预防控制中心的监测报告相比对后，其结果被《自然》杂志判定为失败的。深究其原因，只能说大数据太具欺骗性了。且不说数据本身的质量如何，哪怕输入的数据是精心整理过的有效数据，但问题的根源在于，复杂精美的数据模型根本不知道搜索关键词和流感之间有何关联，而谷歌工程师也并没有去挖掘数据关联背后的因果关系，仅仅是在一堆纷繁复杂的数据中找出了具有统计特征的相关性：很多关键词只是看似与流感相关，但实际上却并无关联。谷歌这次失败的预测正是典型的因“数据为先，理论靠后”所导致的“得州神枪手谬误”。关于这个谬误，诺贝尔奖得主罗纳德·科斯的评论最为一针见血——“只要拷问数据的时间足够长，它就会屈打成招。”

为了将“得州神枪手谬误”这一理论所展现的荒唐逻辑夸大到极致，本书作者史密斯教授做了一些“恶作剧”。他发了几张股价图给一名股票技术分析师，请他帮忙判断哪些股票是好的投资。经过一系列高级又复杂的技术分析，这名分析师欣喜地发现利用这些股票模型赚大钱的机遇。而极具讽刺意味的是，这几张股价图只是史密斯教授让学生以抛硬币的形式捏造的一堆虚假数据伪装而来的。善于恶作剧的史密斯教授还曾在课堂上给学生列出了三个完全符合1980-2016 年10 次美国总统大选结果的统计模型，其中第一个是以候选人的背景信息作为解释变量，比如候选人是否担任过美国副总统、是否担任过美国参议员，这都让这个模型看似十分合理，甚至让学生相信史密斯教授找到了预测大选结果的神器。而第二个模型则是教授挑选的自己喜欢的城市天气数据，第三个就加荒唐了，纯粹是计算机生成的随机数据。而最终看似有理有据的第一组模型，与后两组莫名其妙的模型一样，仅能符合这10次的美国大选结果，对之前和之后的大选结果都无能为力。

正如便利店领头者7-11所推崇的“假设-执行-验证”的单品管理方式，恰恰是逻辑判断指导数据分析的最佳例证。7-11的店员无论是在订货还是货架陈列之前，都要被要求先根据往期销售数据以及近期的天气、活动信息等实际情况对顾客心理进行预判，再以此为依据上货，然后再根据当天销售业绩来验证假设，调整假设，如此循环往复。同时7-11 也非常重视相关关系的应用，比如当面包、三明治等即食食品销量上升时，咖啡、牛奶等配套饮品的订购量也会随之增加。足以见得已经营50 余年的7-11 的成功的确离不开数据分析的支持，但其长盛不衰的零售秘诀还是在于洞察人心的人类智慧。

书中使用如此多的事实、案例和实验，列举了许多反面例证，但史密斯教授并不是为了将大数据分析批判得一无是处，他积极肯定了计算机算力的提升和算法的优化对数据分析的极大助益。史密斯教授倾尽多年研究想要说明的是：大数据分析、人工智能被越来越多地应用于重大决策，极大地提升了社会效率，这是好事，但不应被奉为圭臬，不能凌驾于人类的逻辑思维之上，更不应该对人类智慧做出的独立价值判断失去信心。

归根结底，笔者认为这仍是逻辑推理中关于归纳法和演绎法的辩证分析。显然人工智能可以快速从大数据中寻找出某种相关关系，这是归纳法得出的“知识发现”。而人类智慧无可替代的可贵之处正是在于对相关关系的辩证思考。天气是否真的能预测总统大选？这是一个具有思想的“人”才能提出的假设。用数据去验证假设是否成立，则是在演绎法指导下方可得出的信度更高的结论。

本书的最后，史密斯教授也再次强调对计算机能够出色完成指定任务的肯定，并承认自己也很痴迷数学模型的迷人之处和计算机的高性能，但仍然希望能够通过这本书来惊醒世人切勿盲目沉迷于具有迷惑性的数据模型中。尽管在这看似是大数据时代下，对一大部分科学家奉为圭臬的数据分析的批判可能显得吃力不讨好，然而我们也必须承认数据的智能至少在这个时代还无法离开人类辩证思维下的价值判断。