澎湃Logo
下载客户端

登录

  • +1

市政厅|春运迁徙地图哪家更强:基于数据视角的点评

李栋
2015-04-16 16:48
来源:澎湃新闻
市政厅 >
字号

        数据是中性的,没有好坏善恶。同样的数据,既可能回答问题,也可能产生误导——不幸的是,现实中似乎后者更多见。在大数据浪潮中,若不仔细辨别,很容易被呛到。我们需要多一些冷思考。

几家迁徙地图,格局不同?

        2014年初第一次上线的百度迁徙,是利用移动端定位技术,即时展现春运期间中国人出行的大数据可视化项目。创新、交互表现的形式,引发社会各界巨大关注,多次登上电视、报纸、网络等主流媒体,成功火了一把。

        2015年春节,各大互联网公司纷纷出示自家的迁徙地图,或对原有地图升级。百度、腾讯、360……这些描摹着一年一度的全球最大规模周期性人群迁徙的地图,持续吸引着关注。

        但在华丽的动画之下,让人纠结的是,几家迁徙展现的格局有明显差异。

        笔者以自己熟悉的昆明为例,随机选取了一个时段,发现在百度和腾讯两家的迁徙地图中,出入昆明的前10位城市名单很不一样。春节前后,笔者也查阅了很多相关报道,也许因为技术门槛,大部分评论,都是基于片段的、图面上的直观观察,未见对核心数据的评判。

同一时刻,以昆明为例,百度和腾讯两家迁徙地图的对比(上为百度,下为腾讯)

        迁徙数据是否可以用于严肃的科学研究?哪家迁徙数据更可靠?带着这样的问题,笔者从百度和腾讯两家迁徙项目网页上持续采集了所发布的数据,转换到一个尽量相同的口径下进行比较,试图从全量的角度来回答这些疑问。

初步认识

        笔者重点对比的是百度“百度迁徙”[引用1]和腾讯“全国城市人群迁徙分析”(下称“腾讯迁徙”)[引用2]。虽然360“中国人返乡地图”(下称“360迁徙”)[引用3]基于其抢票工具的统计,推出了很有特点的铁路春运运输情况,但360对人群迁徙的刻画仅到省级层面,与百度和腾讯两家下探到地市级有非常大的不同,故暂不纳入比较。

        具体来看,百度迁徙提供了4项功能:人口迁徙、实时航班、机场热度、火车站热度。

        其中,“人口迁徙”即一段时间内用户在两两城市间出行的数量(下称“OD量”。OD:Origin-Destination的简称,也即出行起止点。本文中表示用户从一个地区迁徙到另一个地区而形成的联系。基于OD的出行量调查和统计,是交通研究中重要的基础资料)。

        “实时航班”是飞机在空中的位置。“机场热度”和“火车站热度”表达的是该场站点位上的聚集程度(即该场站当时有多少人)。

        腾讯迁徙也给出了两两城市之间的OD量,同时还直接注明了其中汽车、火车和飞机所占比重。

        以笔者所知,目前通过用户出行行为(如移动速度、起止时间、起止点等信息)来判别出行方式,存在一定误差。百度迁徙表达交通场站热度的方式较严谨,但不能直接回答用户出行方式的问题,腾讯迁徙直观给出了出行方式比重,但准确性尚待检验。

        时间粒度方面,两家均给出了出入每个城市的前10组OD量,但百度是以小时为单位进行统计,腾讯是按天统计。作为出行研究中的重要参数,统计时段的设置在此类大规模持续性观测情景下,显得异常重要。这也成为两家数据无法直观对比的主要障碍。

        

        网络覆盖方面,可以看到一个典型的长尾系统,也即少数人口大市之间的出行占据了全国总量大部分。在这一点上两家是一致的。百度迁徙在提供每城市前10组OD外,还给出了按量排序的全国前4000组OD,丰富了数据,能更全面地表达整体格局。大致统计可发现,前10组口径下的出行量,约占前4000组口径的83%、全国总量的64%。总体来看,依靠每城市前10组OD来研究全国整体的出行格局基本可行,但若想深入局部探讨具体城市或区域,依然会显得会有些力不从心。

        回到客观对比两家数据这一出发点,笔者尽量按照对等原则进行处理,具体方式如下:

        1.时段可比:两家均截取2015年2月9日至2015年3月12日的数据,也即从除夕前1周至元宵节后1周共32天;

        2.时间粒度可比:将百度逐时OD量加和后,转化为逐日OD量;

        3.空间粒度可比:两家均统一为365个地市级统计单元;

        4.OD矩阵网络可比:百度换算为逐日OD量后,取每个城市最大的前10组参与比较(不足10组者从全国前4000组中提取补充),将两家均统一为逐日365 X 10的OD矩阵。

        需要说明的是,由于缺乏计量单位的具体信息,严格来说,不能直接比较两家数值的大小。因此接下来的讨论主要集中在数据趋势、结构等方面的差异上。

时间趋势的比较

        从迁入迁出量和汇总量的时间趋势看,百度迁徙每日变化相对平稳,但迁入迁出两个序列在走势上存在明显差异。腾讯迁徙在收假前一天2月24日(正月初六)出现了可疑的突变,但迁入迁出两个序列的相似程度较高。由于在给定时间间隔里迁入与迁出仅只是交换了起止点,趋势形态上应该是接近的,因此初步判断,百度迁徙统计方式上的问题更为突出。

百度逐日迁入量、迁出量和总出行量变化趋势

腾讯逐日迁入量、迁出量和总出行量变化趋势

        由于官方并没有公布全国每日出行量的具体数值,因此难以评判两家数据谁更能反映真实情况,只能从一些相关报道中尝试寻找蛛丝马迹:

        “(2015年春运)全国旅客发送量(预计)将达到28.07亿人次,其中道路约24.2亿人次、铁路约2.95亿人次、水运约4430万人次、民航约4750万人次。”[引用4]

        “(2015年春运)据民航局统计,全国民航共运送旅客4915万人,……,2月24日运送旅客142万人,创历年春运单日旅客运输量新高。”[引用5]

        “2月23日、24日,民航单日运送旅客均超过135万人次,创历年春节假日运输新高。” [引用6]

        “(2015年春运)全国铁路累计发送旅客2.95亿人次,……,2月24日,全国铁路春运旅客发送量达946.8万人次,创历年春运单日客流新纪录。”[引用7]

        由上述新闻,可获知以下几点客观信息:首先,收假前一天的2月24日,确是铁路民航发送旅客的高峰,超出日均水平约15~30%;其次,从民航来看2月24日并不是一个突变,23日的发送量同样较大;最后,与总量相比,铁路民航合计也仅占约12%,约86%的绝大部分出行还是依赖公路完成。

        百度迁徙的出行总量整体呈现波动下降,峰值是春节前的2月15日(腊月二十七),其次是2月25日(正月初七),然后才是2月24日(正月初六),与官方报道透露的特征出入较大。腾讯迁徙方面,2月24日虽准确呈现了峰值,但增幅较大,超出日均水平约175%,增长有些过于突然。

        当然,还有一种可能的解释是,由于占大头的公路出行变化很“任性”,才使两家迁徙序列的趋势与官方报道产生了较大差异。

        空间格局的比较

        测算两个网络的相似性,有很多方法,如比较中心性、关键节点位置、次级网络等等。这些都超出了本文讨论的范畴。鉴于此,笔者分别将两家迁徙春节前后32天的迁入迁出量加和,用相同的方法对数据分级简化(自然断点法),对分级后的累积出行格局,采取描述性的方式比较。

        从累积格局看,两家迁徙依然存在较明显的区别。腾讯迁徙中,可以很明显地观察到覆盖中国中东部的“钻石结构”;而在百度迁徙中,则表现为北上广成渝周边的热点区域,并不能看出“钻石结构”。

        “钻石结构”是指,由北京、上海、广州、成渝这几个全国层面发展核心区,在空间上所围合的菱形。它构成了当前中国城镇体系的一个典型形态特征。“钻石结构”中人口、货物、信息的流动,也构成了整个国家流动网络的主体。这个形态特征,在许多文献和研究里,已被大量传统数据(航班、车次等)和新兴数据(LBS、微博等)交叉验证。因此,从空间格局表达的效果来看,百度迁徙也存在不足。

百度迁徙的累积格局

腾讯迁徙的累积格局

        由于缺乏说明文档,笔者仅能做出初步推断,这个问题很可能是由于统计时长设置所导致的。百度发布了每个小时的数据,乍看似乎更加精细,但由于春运期间用户出行耗时往往超过1小时,每小时一次的统计方式,实际“切断”了许多尚未结束的出行过程,虚增了大量尚在半途中的OD点,其结果将直接导致短途出行数量增加,而在北上广等出行量较大的地区,这一影响会尤为明显。再看长途出行,如出入乌鲁木齐、京广、京沪等典型的热点OD对,在百度迁徙中的等级远低于腾讯,有的甚至微弱到无法观察。反观腾讯每天一次的统计方式,虽然发布的数据量少,但理论上可完整捕获到用户大部分长、短途出行行为。考虑到春运的背景,笔者认为腾讯的设置显得更加合理。

        结语:一点期待

        基于数据事实,本文从时空特征的角度,初步对比了2015年百度和腾讯两家春运迁徙的差异。应该说,目前两家公布的数据,在可用性上互有长短,若要全面完整反映春运出行情况,都无法获得满分。对百度迁徙来说,虽然其发布的数据规模和密度远超腾讯,可惜统计方法存在偏差,使结果与现实出入较大,造成了无法克服的缺憾——主要表现在长途出行的缺失和短途出行的虚增两方面。可惜,一般用户浏览时查看的都只是当时截面情况,无法分辨出其中差异,各类主流媒体的大量引用和背书,则进一步扩大了这种误导的影响。

        要说明的是,写作本文的出发点,并非想批评哪家迁徙做得不好,恰恰相反,作为一名关心区域和城市发展的规划师,笔者非常感激这些新兴企业运用数据的社会责任意识和大胆尝试。他们掌握的数据源于用户,在去掉隐私和商业信息后,完全能以一种恰当形式回馈社会,扩展传统统计资料的不足。这对区域发展、城镇化、产业转型、消费升级、公众参与等众多社会问题,都具有前所未有的重要参考意义。对百度、腾讯这样的企业而言,原料早已齐备,需要只是一种更加开放和发展的心态,与政、研、学界的现实问题和需求进行对接。

        最后,笔者倡议,建立一套基于互联网用户数据的全国人口迁徙观测开放标准,各大互联网公司、运营商等企业可据此持续、定期发布自家结果,形成完整序列,催化和提升大数据应用的社会价值。从人口流动和城镇化研究的角度出发,笔者也抛砖引玉,提出几项基本指标,作为讨论基础,希望得到各方进一步的参与和完善(下表)。

        让我们一起,共同期待来年的春节!

        

        引用:

        1.百度“百度迁徙”:http://qianxi.baidu.com/

        2.腾讯“全国城市人群迁徙分析”:http://hot.qq.com/qianxi/

        3.360“中国人返乡地图”:http://vis.360.cn/open/traffic/

        4.人民网. 民航局:2015年春运民航运送旅客4915万人:http://society.people.com.cn/n/2015/0316/c1008-26701578.html

        5.新华网. 2015年春运民航运送旅客4920万人次:http://news.xinhuanet.com/travel/2015-03/16/c_127584552.htm

        6.人民网. 铁路春运收官 共发送旅客2.95亿人次:http://society.people.com.cn/n/2015/0316/c1008-26700676.html

        7.中国新闻网. 春运大幕今开启 28亿人次“大迁徙”日均7000万:http://finance.chinanews.com/life/2015/02-04/7031845.shtml

        

        致谢:

        本文初稿得到了香港大学城市规划与设计系助理教授刘行健博士、中国城市和小城镇改革发展中心交通院赵延峰所长、百度研究院大数据实验室数据科学家吴海山博士的热忱反馈和建议(排名不分先后),在此向他们表示衷心感谢。作者对本文的内容承担全部责任。

        

        [作者系中国城市规划设计研究院高级工程师(微博 @规勒个划),虚拟学术网络北京城市实验室(Beijing City Lab,BCL)成员]

    澎湃新闻报料:021-962866
    澎湃新闻,未经授权不得转载
    +1
    收藏
    我要举报

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈