大数据的傲慢

刘远举

2015-06-16 16:51 来源:澎湃新闻

字号
  2018年,苹果8发布,此时的手机已经不叫手机,而叫个人信息终端,人们可以在这上面完成一切。
  2025年,打车软件的大数据系统已经不需要个人发出打车需求,你出门的时候,就已经有车停在门口,并且知道你要去哪里。
  2032年,一个无远弗届的信息收集机制被建立起来,同年,国家统计局改名为国家信息中心,一切已经不需要统计,一切发生的时候就已经被统计。
  2050年,市场取消,在大数据与智能制造的配合下,一切个性化的需求都可以被满足。
  这一切可能发生吗?应该不会,但不可否认的是,数据收集已经深入人们的生活。特别是当下的大数据热潮。
  对于“大数据”(Big Data),简单的定义是,在新的技术条件下,不再使用人类之前限于成本的抽样分析方法,而是存储一切,分析一切。
  随着摩尔定律不断延展,人们具有了越来越强的运算能力。移动互联网的出现,使得收集信息的机制贴身而行,加上云,更进一步把运算能力连接了起来。
  在这个热潮中,人们似乎开始相信,只要足够好的技术,足够多的数据,计算机能够比人更了解他们的自己。
  一个非常经典的例子。一位男性顾客到全美第二大零售商塔吉特店中投诉,声称商店竟然给他还在读书的女儿寄婴儿用品的优惠券。经过这位父亲与女儿进一步沟通,才发现自己女儿真的已经怀孕了。
  一家零售商是如何比一位女孩的亲生父亲更早得知其怀孕消息的呢?每位顾客初次到塔吉特刷卡消费时,都会获得一组顾客识别编号。日后凡是顾客在塔吉特消费,计算机系统就会自动记录消费内容、时间等信息。再加上从其他管道取得的统计资料,塔吉特便能形成一个庞大数据库,运用于分析顾客喜好与需求。
  塔吉特的统计师通过对孕妇消费习惯的一次次测试和数据分析,得出了一些非常有用的结论:孕妇在怀孕头三个月过后会购买大量无味的润肤露;有时在头20周,孕妇会补充如钙、镁、锌等营养素;许多顾客都会购买肥皂和棉球,但当有女性除了购买洗手液和毛巾以外,还突然开始大量采购无味肥皂和特大包装的棉球时,说明她们的预产期要来了。
  在塔吉特的数据库资料里,统计师根据顾客内在需求数据,精准地选出其中的25种商品,对这25种商品同步分析,基本上可以判断出哪些顾客是孕妇,甚至还可以进一步估算出她们的预产期,在最恰当的时候给她们寄去最符合她们需要的优惠券,满足她们最实际的需求。
  依靠分析消费者数据,塔吉特的年营收从2002年的440亿美元扩大到2010年的670亿美元。这家成立于1961年的零售商能有今天的成功,数据分析功不可没。
  实际上这个例子并不是大数据的例子,甚至不需要太强的计算能力,一台电脑就能分析,不过由于其戏剧性,往往被用来作为“数据比人更了解人”的证明,并在当下,被用来论证大数据。在有的媒体上,这个例子的标题就是《大数据冲击大卖场 比父亲更了解女儿》,大数据的傲慢跃然纸上。
  但我认为,这并不是数据比人更了解人的例子,恰好相反,这证明了计算机、大数据,并不了解人。还在读书的女儿,显然并不想父亲知道,但“愚蠢的计算机”却自作主张,把婴儿的优惠用品寄给了女儿,还寄到了她家里。
  当然,可以说这是由于数据的收集还不完全,如果多加两个变量,一个年龄,一个职业,做一个简单的逻辑判断,计算机也不难发现这是一个敏感顾客。但是,计算机并不能自己判断,而程序员、产品经理,能加入一切要素进行判断吗?显然不可能,因为,每一次判断,都是有成本的。
  相对而言,单纯的生产过程(不包括市场活动)是一个理性的、目标单一的过程,只需要更高效率、更低成本地生产出既定产品。在这个过程中,计算机的规划能高效地发挥作用。相对生产过程,人们的市场活动更加复杂,有很多非理性因素,也是受多目标约束的。在这个过程中,程序员与产品经理不可能预先预估一切,这就意味着计算机替代不了人,最终人自己做出的决定才是最适合的决定。这就使得,花费很大成本收集的数据,经过挖掘得到的结果,不如直接弹出一个对话框,或者用人工智能温柔得一问:你想买吗?
  可以预见的是,随着技术更深入的渗透到人们的生活中,必然之中的偶然事件,必然会引起人们的警觉与反感,更严厉的隐私与个人数据收集管制必然出现。大数据的傲慢,可能不会仅仅只违背女儿的意愿把婴儿用品优惠券寄到家里。
  亚当·斯密认为:每一个追求自身利益的人被一只看不见的手所指引,达到一个并非其意图的一部分的目标。允许竞争自由发展是国家的工作。社会的目标是扩大生产以及最好地分配资本、劳动力和其他资源。其理论是,市场如果不受垄断的阻碍或者法律与习俗的限制,就能够最好地按照需要分配资源。
  一直以来,许多社会主义者认为,市场体系的主要不足之处在于缺乏计划,对经济活动未能进行有目的的协调。由于计划经济实验在全球的彻底失败,这种观念已经没有市场。但是,随着大数据的出现,过去的失败很可能被归咎于技术的失败:数据的不完全、模型变量少、要素之间逻辑关系少、计算能力不足。在今天,技术发展滋生的大数据之傲慢,很可能会成为理性的傲慢的又一次机会。
  应该承认的是,信息革命为集中控制创造了新的可能性,今天,我们已经看到了这个可能性。计算机、互联网、移动互联网技术的出现,使一个集权的官僚机构能够记录下关于个人的大量事实。除了那些人们意识到的隐私信息,比如对话、文字、图片,还包括一般人认为相当不敏感的信息,比如银行账号、购买的商品,即便只是对后者的分析,也可以得到个人动向与活动的信息。
  不过,技术是市场的一部分,一个要素,自然非常重要,但是,不能简单地说,技术发展等同于市场发展。市场与社会的根本决定因素以及发展,是生产、交换过程中人们的自由意志。

  不管什么信息系统,都是由人建造、由人操作的,而这些人也生活于这个信息系统之中。打个比方,一个硬盘可以储存反映自身,精确到原子与夸克级的一切信息吗?显然不可能。因为这是一个自我调用的递归过程,而不断的自我调用,会吞噬掉一切计算能力。信息系统的规划与预计,正是这样的一个自我调用系统。
  虽然今天的互联网产品是由程序员与产品经理主导,他们虽然崇拜技术,但是,投资人却要讲究成本。所以,在针对投资人的PTT中,虽然充满了大数据的傲慢,但这种傲慢之下,实际上是熙熙攘攘皆为利的市场小心思。真正值得警惕的,是这种傲慢被不计收益的动机所利用,最后,反过来吞噬市场。
  (作者系上海金融与法律研究院研究员)
探索
我是百度研究院大数据实验室的吴海山,做一名数据科学家有怎样的体验,问我吧!
吴海山 2015-06-16 115 已关闭提问
责任编辑:张俊澎湃新闻报料:4009-20-4009   澎湃新闻,未经授权不得转载
关键词 >> 大数据 Big Data 摩尔定律 塔吉特 互联网

相关推荐

评论(128)

热新闻

澎湃新闻APP下载

客户端下载

热话题

热门推荐

关于澎湃 在澎湃工作 联系我们 版权声明 澎湃广告 友情链接