不靠谱的交通大数据乱象

郭继孚

2016-12-15 20:44 来源:澎湃新闻

字号
【编者按】
各种针对城市运行的专业研判,来到了新的数据环境。大数据交通指数就是一例。这意味着什么?公众和专业人士,又应该如何看待这些运算和排名?
本文来自北京交通发展研究院院长、教授级高级工程师郭继孚在第11届中国智能交通大会上的演讲。可以给我们很好的启发。

前面几位专家谈了很多交通大数据应用问题,我谈一个不大不小的问题,指数乱象。哪里乱呢?先说个具体的例子。
这个指数(下图)大家在网上看到很多回了。
具体是哪些公司的,我就不直说了。尤其是,有些数据的结果不怎么样,也不好指名道姓。
乱在哪里呢?这(上图)说的是同一个时间、同一个城市的拥堵情况排名,但两个公司的结果不一样。大家要知道,他们号称的算法是一样的。但最后结果不一样。为什么呢?
这(上图)是另一个排名,它们的差距是挺大的。
这(上图)是一个国外公司的排名,看前12位,跟我们的排名的结果差距挺大的。这基本上都是互联网公司做的结果。
我们还有很多专业的研究报告,包括北京在内,也是五花八门(下图)。
就连用指数表征的拥堵范围,都不一致。在北京,指数是0到10,上海是0到100。还有0到5的,以及不知道到多少的。
如果公众看到,在北京拥堵指数是这样,到了上海却是那样的,一定感到无所适从。最主要的问题是,这指数范围不同,只是为了不同而不同。我们当时研究了一下,从0到10有一定的道理,而其他人就讲,从0到5有道理。但本质上并没有什么不同,是为了不同而不同,所以造成了大家的困惑。
另外,这些分析的结论也完全不一样。这都是大数据:一个说拥堵加剧,一个说速度上升,意味着拥堵缓解。说的是同一个事情。所以,我们不要过度盲目崇拜大数据。
其实非常简单,他们的分析,连时段都不一样。这个分析2小时,那个分析3小时,所以结果不一样(下图)。
这个是号称大数据说话:专车没有导致交通拥堵(下图)。大家可以搜一下,就这么一个结论,在互联网上传播量非常大。
灰色线,是专车的数量增加了;黄色线是速度,它说没有变化,没有导致拥堵。但我看,它确实是有变化,而且变化很滑稽:这是在北京,在7月份的时候,速度居然是降低的!
看看我们的数据(下图)。
这不是要吹嘘我们的数据多准。只是想要说明一个状况——这个状况不止在北京,全国交通系统都如此:一年12个月,每个月的交通状况是有变化规律的,最低点在2月份,因为过春节,次低点是在7、8月份,这是因为学校放假了,交通就好走了。9月份最堵,是因为刚开学,大家都要送孩子上学,连高中都送,送一个月就好了,再加上过中秋节,送月饼。这些特征大家都知道。
可是那个数据结果是反的。我都不知道那个数据是怎么出来的。
这是刚出现的一个报告(下图)。
看这个数据,还是说北京,白线是速度。得出的结论还是,网约车的数量增加了那么多,但速度没变,说明速度和滴滴的订单量无关。潜台词是,北京的交通拥堵跟网约车没有关系。
我想跟大家讲的是,这超出了常理。什么是网约车?网约车不就是出租车吗?网约车不就是坐在汽车里把你运到目的地,难道不占用道路流量吗?如果你原来是开车的,现在不开车,改坐网约车了,他们就说不堵了,但你不还是坐在小汽车上到达目的地了?有人原来是坐公共交通的,发现网约车这么便宜,那么打车吧,这种人肯定是有的。所以,会不堵吗?
我们的数据结果是,2015年全国的城市中,北京最先发现拥堵指数上升了20%。广州、深圳等地,有指数的地方,都发现了这个问题。结果,上面的大数据报告,告诉我没有这回事。这么唬人的结果都是大数据的结果。为什么呢?
我猜,是因为这些互联网公司,不知道这些常理。因为,用专业的判断和结论,就知道那些大数据研究是对还是错。大家一定不要丧失自己最基本的判断。
你如果仔细注意,就会发现,(上图是)把北京市域总行程速度与滴滴订单量比较,要是拿全国路网速度的数据去跟北京比较,那完全对不上关系。我们说的拥堵,说的是北京市中心的拥堵,郊区不堵。把郊区的数据与市中心的数据放在一起,就出现了问题。就这么简单的道理。但这种简单的错误,导致非常滑稽的结果。这就是我们的乱象。
从科学的角度,这种乱象是不应该出现的。我们不能把等级统一一下,不能把数值归集到一起吗?是可以的。需要大家坐下来研究,而不要为了不同而不同。
这背后还是存在一些科学问题。我不相信,大数据来了以后,就能告诉你一切。这还是需要一些方法的。
拿拥堵本身来说,有各种各样的算法。我们用这些算法对北京都做过。为什么我们要坚持用拥堵比例来反映拥堵?非常浅显的道理,看(上图)右下角这个图,一边堵一边不堵,你的感觉是什么?如果我们用平均值来计算,这种拥堵就会被严重弱化。
实际上,无论你在哪边走,都会和别人说北京真堵。
人们会放大自己感受强烈的这部分。这在传播学上也有依据。这就是我们推荐这个方法的原因。而且我们经过了社会调查,发现这个方法和社会调查的结果一致。
通过这个小现象,大家可以强化一下、思考一下交通的大数据到底应该怎么用。
传统的浮动车数据更能说明问题
我们北京交通发展研究院,2005年开始采用浮动车数据。
我们发现,这背后有很多事情,需要扎扎实实去做。
比如,采样频率。出租车公司的数据是不同频率的。隔五分钟采集一次,跟一秒钟采集一次的结果是不一样的。要进行分析。
到底有多少车的时候,才能让数据得到一个可靠的结果,又在什么情况下有怎样的置信度。

比如说,这个样本的代表性到底行不行。我们当时在做这个实验的时候,闹过一次笑话。因为此前都没有数据,有了浮动车之后,能让领导看到实时信息,领导看到之后,就直接从办公室选了一条路线回家,结果发现,这是最堵的一条。
为什么会发生这样的情况?因为那时浮动车比较少,被选中的这条路上没有出租车,没有信息,就显示成了畅通的一条路。实际上那条路很堵,出租车司机都知道。如果数据代表性不够,就会发生这样的结果。
再一个,很多城市的出租车跟正常的驾驶不一样,可以绕着红绿灯过马路。这样的结果,可以反映小汽车的交通吗?不能。不能直接拿来就用。车牌识别的数据,也不能直接拿过来就用,因为我们不知道车辆在两个摄像头之间做了什么,其实是可以用的,但一定要深入分析,看看有没有代表性。
当然,还有很多技术细节,需要认认真真地考虑。最后,经过数据清洗以后,才能得到一个比较可靠的数据。
另外,我们做出的结果,是干什么用呢?我们要为用而想,我们在做交通指数设计的时候,是要把一天24小时的交通特征反映出来,让决策者和市民能够感受到真正的拥堵水平。让大家看到这个交通指数,就知道交通状况是什么样。北京用这个数来定工作目标,年度这个值必须控制在一个位置——如果这个数据没有说服力,区长就会来找我。因此,这个数据要足够敏感。北京一到尾号4、9限行的时候就会堵,因为尾号4的车比较少,原先老百姓不知道,为什么每隔几天就会堵,后来我们发现这是尾号限行闹的。这些数据的结果,要与一些宏观的感受一致。
北京连续这么多年,不断和拥堵做抗争,不断起起落落,每一步措施与交通特征都是对应的,我们可以找到关系。
奥运会的时候,北京交通畅通。我们的结果要能反映出这样的特征。如果反映不出来这样的特征,全天都是畅通的。有什么意义呢?
另外一个精细的结果如下。
​2011年整体的交通拥堵指数,年前还是涨了,过了年降下来了。到4月份又下来,是因为,我们路边停车费从2块钱提高到10块钱,但两个月后作用丧失了。我们不敢相信这样的数据结果,要到现场去做调查,为什么停车新政持续了两个月以后,指数又反转了。我们发现,原因是收费的停车场空着,旁边可以乱停了,执法没跟上,影响了政策的效果。

另一个政策措施的关联验证如下。
2012年底国家实施八项规定后,节前晚高峰交通拥堵情况有所缓解。2013年春节、中秋节、国庆节前晚高峰交通指数分别同比下降12.8%、4.0%、19.8%。
公交IC卡的数据也不是拿来就可以用的。有上车没有下的信息,不同POS机的时间点都不一样,需要一系列的过滤清洗,补充信息。特别是需要经过交叉验证。
大家现在对信令数据比较痴迷。
但信令数据就能告诉我们一切吗?其实也不是的。信令数据的结果和我们真正的交通调查结果还是有一定偏差的。
再和大家介绍一个和道路交通应用关联的新数据:智驾数据。
这是个OBD终端,装在车上,每一辆车每一刻的数据都返回来。点火时间、结束时间等等数据全都有。这个可以准确地知道车辆的出车率有多少,行程时间是多少。
有些结果超乎我们的预料(下图)。
在北京,路网上最高峰的时候,仅有20%的车在路上,你能够想象吗?北京有600万车,最高峰的时候100万车在路上,就能把城市的路堵成这样。这些数据说到底,是要验证我们所做的工作是对还是错。因为,出租车有出租车的特征,网约车也有网约车的特点。他们的特征是和小轿车不一样的。
通过数据,我们还可以知道哪位司机在什么地方突然急刹车,有不良驾驶行为。这里是不是设计的问题,还是红绿灯控制的问题,等等。
也有区域的分析(下图)。
居住区这一时刻有多少车,和办公区域这一时刻有多少车,完全是不一样的。
交通大数据的未来
大数据一定有一个美好的未来。我相信,未来我们每一个人需要的交通出行,是全方位的信息化,到目的地的每一个过程,都需要信息化。而不是仅为买一张票,在路上堵着。移动互联网技术使得交通能做到这一点,以前不能做到,现在可以了。
未来的交通,我们需要解决的问题很多。当出行者要在出行中与中心进行交互的时候,以及中心对出行者进行干预的时候,这些数据应该掌握在谁手里?如果这些技术被某个公司掌握之后,我们会是怎样一个结果?给谁优化,不给谁优化?数据仅被某些人利用,是不公平的。我们交通工程师的责任是什么?我相信大家都有一个深度的思考。
这是任何大数据都代替不了的工作,数据背后的智慧还是要靠我们。特别是未来响应式的交通系统、全方位信息化的交通系统,更需要我们的智慧。我完全相信,未来的交通系统,一定是控制在云端、交通参与者互动的系统,中心端可能要为全城交通负责。
所以,在这方面,我们要坚持我们自己最基本的判断力。最基础的东西、最基本的规律是没有变的,我们不要被这些数据搞晕了,自己要有定力,定力在于我们专业的判断。我们希望业界规范起来,少花一点“为不同而不同”的时间,去做一些延展、深入的事情。数据共享固然重要,行业协作更加重要。
(作者系北京交通发展研究院院长、教授级高级工程师。本文来自作者在第11届中国智能交通大会上的演讲,标题为编者所拟。原题为《交通大数据分析亟待规范:从指数乱象谈起》)
责任编辑:王昀澎湃新闻报料:4009-20-4009   澎湃新闻,未经授权不得转载
关键词 >> 交通,大数据,智能交通,数据,交通指数

相关推荐

评论(50)

热新闻

澎湃新闻APP下载

客户端下载

热话题

热门推荐

关于澎湃 在澎湃工作 联系我们 版权声明 澎湃广告 友情链接