澎湃Logo
下载客户端

登录

  • +1

城市边界|谷一桢:基于通勤数据定义中国都市区

李扬 整理
2023-03-28 10:46
来源:澎湃新闻
市政厅 >
字号

陈婷、谷一桢与邹奔等人的研究,利用百度地图乡镇街道间的通勤矩阵,定义了经济意义上的中国都市区。研究得到的基于通勤联系定义的都市区,很少跨越地级市边界,且与其它国家相比较小。其反映的状况,和中国的通勤模式较一致,即通勤总体较短,且受行政边界制约。研究还比较了通勤都市区与其他城市定义,并说明采用不同定义会得到不同的城市体系特征。

3月16日,北京大学汇丰商学院副教授谷一桢,在北京市规划设计研究院进行了专题讲座,分享了此项研究。以下基于报告内容整理。

2021年夏,上海,上班的人。澎湃新闻记者 周平浪 图

今天的主题是,基于通勤流定义中国城市。规划行业目前面临挑战,但在拥抱新数据方面走在最前列。报告主题是“基于通勤流定义中国城市”。原本想讲“都市区”,但担心带来误解。有时都市区、都市圈以及一些不同概念混淆在一起,索性明确为——让我们来定义中国城市的边界。

关于到底做不做这件事,我们犹豫了两年。因为,研究论文肯定不能在特别好的期刊发表。但我们觉得这个研究特别有意义,研究成果可以成为很好的公共产品。

动机

在美国的一些文献中,会提到一些不同的城市。美国可能更重视MSA的概念,即都市统计区(Metropolitan Statistical Area)。所谓都市统计区,是从经济意义上对城市做的定义。而中国并没有与之对应的关于城市的定义。比如,我的老家连云港,大家身处的北京,抑或深圳,大家可以自问,这些城市的真正边界到底在哪里?就北京而言,应不应该把燕郊纳入北京的都市区范围内?

追问这个问题,重要性在于两方面:第一,从公共产品提供的角度。比如,疫情期间居住在燕郊,但要往返北京城区通勤的人,会遇到什么困难?一个合适的、经济意义上的城市边界的定义,对政府政策制定者提供公共产品做参考,是很有必要的。第二,出于统计分析的考虑。如果我们经常做统计分析,每个样本可能是一个城市。但选取某个城市做样本时,确定每个城市的边界来统计城市人口,究竟依据的是什么?就北京而言,只计算北京市中心多少人口?是否应把燕郊或廊坊算上?以我老家连云港来说,包括若干城区,也包括一些县,应不应该把这些县作为城市的一部分?这其实是今天试图解答的问题。虽然算不上多么重要的研究,但从公共产品的提供而言,具有重要性。我的两个合作伙伴,是香港浸会大学的陈婷老师,以及普渡大学的邹奔老师。

众所周知,自1978年以来,中国的城市化浪潮非常之快。放眼任何一个国家,城市化速度都不曾达到这样一种水平。1978年,中国城市人口只占不到18%,但不久前公布的城市化率已达65%。与此同时,(城市)建设用地已扩增八倍之多。这样的速度,让人印象深刻。

但是,如果深入分析中国城市的特点、不同城市体系的特点,我们其实所知甚少。因为,欠缺最重要的量度:怎么定义这个城市?并没有官方的城市定义,去匹配城市的功能。比如,从劳动力市场的角度看,如何定义城市,并没有官方定义。中国的城市定义,是行政区划,实际包含很大的农村范围。而且有不同概念的“市”,如地级市、县级市,它们之间存在相互重叠的关系。这带来很大的困扰。

这就带来一个需求:中国MSA的边界应该在哪?我们怎样用劳动力市场定义城市?此时需要依赖通勤数据。

通勤的数据,就是我们所需要的新数据。美国有两类通勤数据来源。其一,是美国社区调查。美国社区调查类似我们的人口普查,公布每个地方有多少人,有多少比例的人口到另外的地方去工作。但中国并没有类似数据。唯一的一次例外,是2015年的小样本人口调查。小样本人口大概是100多万人或200多万人(取决于不同版本),给出每个人的工作地和居住地,精准到乡镇街道尺度。但如果用100万除以中国大概3000个区县,则每个区县平均有300个人,完全无法描绘全国区县层级的通勤模式。

美国第二类通勤数据来源,是全美交通出行调查。北京等中国大城市有五年一次的交通调查,但如果基于此定义中国的MSA,目前并没有可用的数据。这就给我们提供了机会,把这样的交通调查深入到乡镇街道尺度,覆盖全中国。美国的统计中,会做一些很漂亮的图,呈现人口分布、就业分布等。但之前没有办法在中国这样做。这同样给我们提供了填补空白的机会。 

因此,我们研究的贡献,就在于首次对中国的都市区加以定义。研究方法并不稀奇,是非常标准的基于通勤进行定义,使用的数据来自百度地图的位置信息,可提供任意两个街道之间的通勤矩阵。中国大概有4万个乡镇街道,可想象一个4万乘4万的矩阵,当然大部分值都是零。我们主要获取的是2017年11月的数据,同时也获取了2019年11月的数据,但这两组数据比较近,没有太多变化。

我们定义了中国的都市区,做了一些比较分析,比如中国城市体系特点如何。然后,和其他国家开展比较,比如美国、巴西、墨西哥,看跟其他国家比,中国的都市区究竟相对偏大还是偏小。这个研究的重要应用,就是可以根据这一经济上的城市定义提供公共服务,这样所提供的公共服务才是最为恰当的。

如果以50万人口为阈值,中国大概有超过500个都市区。这些都市区加在一起,超过了全国面积的15%。大多数通勤都市区,相对地级市而言要小得多得多,这和其他一些事实是相对一致的。

比如,中国的通勤时间和距离总体是偏短的。当然,北京的居民也许会抗议,因为长距离通勤让北京人饱受折磨。但如果用2015年人口普查的数据看,其实中国大部分通勤时间和距离都很短。比如,我们看中国3000多个区县级单元,绝大多数劳动者都在同一个区或同一个县里居住和工作,通勤距离很短。

另一个事实是,中国行政边界对通勤施加了很大的阻碍。举个例子,比如,夫妻俩分别在深圳和广州工作,有个比较好的选择,是可以在东莞居住——当然,前提条件是,子女教育、医疗可以在东莞解决——那完全可以选择住在东莞。但现在做不到。

中国都市区规模比较小,可归为若干原因。比如,我刚才提到,地方劳动力市场的组织方式,还有公共产品的提供方式,都会受行政边界影响。如果想在A地工作,在B地生活,就会遇到各种困难。

中国的都市区有明显的层级结构。从地级市,再到区、县、县级市等,都市规模和行政级别都高度相关。我们比较城市时,有时会用地级市,有时会用市辖区,还有时会用市辖区加上一些独立的县级市。如果基于不同的城市定义,得到的结论差之千里。这意味着,以前的一些结论或依据可能存在偏差。

另外,我们发现,基于通勤定义都市区,最符合齐夫定律。城市经济学里,很重要的是城市规模红利。就是说,在大城市工资会更高,但也有缺点,就是房价更高。如果采用不同定义,这些规模红利的大小也有很大区别。以前有中国城市化增长的相关文献,直接采用地级市的数据,但地级市与通勤都市区这类经济意义上的城市完全不是一码事。还有个比较有意思的方法,用夜间灯光定义都市区,但会发现这之间也存在较大的区别。

关于城市定义的研究,方兴未艾。比如,两年前《城市经济学期刊》(Journal

 of Urban Economics),有个关于定义城市的专辑。前两篇是基于建筑密度定义城市,基于卫星影像识别建筑密度和高度,如果一个地方的建筑密度显著高于一个阈值,就定义这个地方为城市单元,再加上连续性之类条件来进行划定。我们与定义哥伦比亚和日本都市的方法相同,采用通勤数据来定义。另外,手机的位置数据给我们带来新的机遇。可以利用这些新的数据,回答一些以前无法回答的问题;还可以了解互联网带来的冲击,看它如何改变生活,影响福祉。

再举一个种族隔离的例子。美国会有详细数据,比如,某些地方黑人和白人的比例。隔离不仅指居住隔离,还存在日常生活的隔离,比方说消费模式。现在有了手机数据,可以识别城市中的隔离,这对规划也意义非凡。比如,公租房应怎样配建,相关政策是否合理,居住隔离的情况目前到底如何,采取的措施到底多大程度上能改变这个事情,都需要严谨的研究。基于证据去检验政策,非常重要。

数据与方法

规划师们应该比我更熟悉,中国有多少个省级单元,多少个地级单元,多少个区县单元,多少个乡镇街道单元。我们以前的定义,是直辖市加地级市这种最常用的做法。

我们使用的数据来自百度地图。它是位置服务提供商。来自百度、阿里和腾讯等公司的位置数据的好处是,可覆盖中国几乎所有样本;如果是运营商,样本都是有偏的,要进行组织扩样(对每个样本的权重重新进行赋值)。但运营商的手机信号的好处,比如联通,每天可以汇报200个位置数据。我们可以据此,把每个人每天精确的位置变动、行程和停留都描绘出来。这样可以挖掘如上列出的消费隔离等问题。所以,不同数据适合于不同的研究问题。

百度会基于每台手机过去三个月的历史位置的记录,把日间和夜间最常出现的位置分别视为居住地和工作地。百度每月会更新这些数据。我们拿到的数据,其实是乡镇街道层面加总的通勤数据。

使用新数据,首先要让别人相信你的数据质量可信。比如说,2017年移动互联网用户数量到了12亿,在工作者通勤方面,使用移动互联网比例更高。但存在一些区别,不同城市之间存在一些系统性偏差。经过不同方式的验证,我们有了信心。

我们的算法,其实也很简单,就是迭代聚类方法。优点是什么?首先,不需要确定一个中心。比如北京,我们不需要确定天安门或国贸等作为中心。但需要先确定一个阈值的比例。

这个比例可以怎么来呢?比如,北京的西城和东城,如果西城有100个人,其中20个人住在西城,去往东城上班,就可以认为西城到东城的比例是20%。如果选定15%作为阈值,那么好,西城到东城的20%超过15%,那我们就把西城并到东城那边。这样下一步,我们就更新这个组团,西城到东城成为一个新的单元。不停滚动这样的过程,直到所有比例都小于阈值15%。基于这样的算法,给出了一组所谓通勤组团。

接下来做两件事。第一,以区县为单元来做这个滚雪球的过程。又或者,以乡镇街道为单元开展这样滚雪球的过程。各自有各自的好处。以乡镇街道为单元,会更精确,边界会更准。但我们大部分统计数据,只有区县街道才可得到。所以,我们把通勤组团跟区县的地图做了叠合。

如果每个区县里,超过50%的人在某个通勤组团内,我们就把这个区县列入这一组团。这就相当让边界是以区县边界为单元。其实是为了让人方便用这个产品,让以后大家用我们的定义时,手中的数据可以一并使用。然后,加入若干人口规模和人口密度限制。我们就得到了都市区的边界。

就像之前举例,西城到东城工作的居民达到15%的比例,这个阈值就是所谓限制。随着设定阈值的变化,用通勤数据定义的都市区数量也会出现变化。基于经验,我们最后选择的是10%。

给大家看这个图。不同颜色的组团,就是我们所定义的经济都市区。最明显的特点是,大部分城市里,那个组团都非常小。都市区要比它对应的地级市小得多得多。只有少数几个,如北京、广州、深圳、成都、西安、武汉,可能会超过自己地级市的范围。

我们为什么喜欢10%?也不是完全拍脑袋。如果是2%,整个川渝片区完全连成一块,不太合适。如果选择5%,情况差不多相同。如果选择20%或30%,都市区的数量好像太少,所以我们觉得,10%是比较好的。当然你可以说11%、15%可能也差不多。

再来看,中国排名前十的都市区在哪里。这时上海是第一的,其次是北京,然后广州排到第三,随后是成都、深圳和重庆。如果还是按照地级市来算的话,重庆肯定第一,对吧?有三千多万人。

一些发现

我们发现了什么?之前已提到,大部分这种城市,都位于地级市边界内,而且要比对应地级市的面积小得多。然后我们看,中国的单程通勤时间,中位数只有15分钟(北京当然例外),这远小于美国的27.6分钟(主持人询问后,报告人解释数据来源:来自2015年人口普查数据。学者们使用的是一个较小的抽样样本)。另外,中国跨越行政区通勤很少,区县级单元内部通勤的比例平均是88%。这很令人惊讶。88%的人在区县内部生活和工作,类似一个区县大院。当然,比如北京这里,燕郊、廊坊,固安那一片,跟北京市中心区的通勤联系非常紧密。再看上海,上海的通勤联系集中于行政辖区内部。珠江三角洲,广州已经跟佛山联系紧密。重庆的话,主城区九个区,以及少数邻近区县进入了通勤联系中。成都的话,与邻近的眉州、阿坝,从通勤而言关系会较为紧密。

然后比较一下区和县。区和县在内部通勤比例上差异分明。如图所示,橙色的都是县,内部通勤比例很高。如果是区,正如之前所列西城、东城、海淀之间的联系,区与区之间的通勤联系会很紧密,而区内通勤比例相对较低。这也说明,我们所使用数据的质量符合预期。

另外有趣的一点是,发现存在所谓边界效应。就我国区县而言,如果两个区县同属一个地级市内,通勤情况如何?比如,从燕郊到朝阳和从大兴到朝阳,距离可能是一样的,但燕郊到朝阳通勤人数比例就要小得多的多。因为有行政边界这样一个阻碍。 

导致边界形成的效应,可以怎么分解?我们考虑到几种可能。比如,跨城市边界的公共交通不足可能是一个问题。另一个问题可能是类似户口的作用。由于户口因素存在,就不能在一个地方居住,在另一个地方上班。如何对这些因素加以分解?很难找到一个清晰的框架,没有很好的机制去识别。正如我今天所讲,都是描述性的,并没有因果推断在其中。

比较

我们从官网下载美国、墨西哥、巴西的通勤数据,这些数据是公开的,用同样的算法去定义他们的都市区,把这些都市区按人口从大到小进行排序,按不同都市区人口占全国人口比例的高低进行排序。可以看到,美国这条曲线是最高的,说明他们的大都市区域人口的占比非常高。再看墨西哥2015年数据,然后是巴西2010年数据,可知中国大都市区人口占比远低于它们,不管是以乡镇街道为单元,还是以区县为单元来进行比较,差距都极为显著。

当然可能有人认为,中国面积太大。所以,我们把中国分成几个组团,比如华东、华北、华南。其中华东、华南跟美国人口比例接近。但可以发现,仍然比美国数据低得多。再按面积排列。中国都市区的面积累积分布曲线,跟巴西差不多,但仍远低于美国和墨西哥。美国15个最大城市,其人口之和可占全美人口41%。中国只有18%。

可能有哪些因素导致这种情况发生?我们尝试寻找一些证据,但并非那么严谨。首先,是行政边界,中国537个都市区之中,只有18个跨越了地级市边界,比如北京、深圳。只有一个算是跨越省界,北京。但在美国,排名前100的都市区里,36个是跨州的。比如纽约-新泽西都市区。十个最大的都市区,有七个是跨州的。

我国地方政府有各种规则,让比如住在东莞到深圳上班很难。首先,各种不同的社会福利,分别与居住地、工作地、户口所在地绑定。比如,孩子的教育是跟户口所在地绑定,医疗是跟工作所在地绑定。当然,现在有了异地医保互认,是一个重大进展,可以看看对人口流动的影响。

另外,就是之前提到的,公共交通网络通常不会跨越行政边界。有兴趣可以看看,公共交通怎么改变都市区的边界和大小。另一点就是行政层级。可以看到,我国最大的十个城市都是直辖市或省会,深圳例外,是经济特区。27个省份中,25个省份的最大都市区都在省会。有学者使用中国历史数据研究发现,这种强相关性在历史上普遍存在。

行政层级较低的城市,会有一些不利的政策待遇。按说1978年改革开放以来,外向型经济占上风,意味着港口、海边的城市会占据很大的地理优势。但1978年至今,每个省最大的城市仍是内部的城市,因为大部分省会都在内部城市。这说明我们的市场力量也许相对于政府并没有那么强。此外,可以看到,某区成立的时间越晚近,它归属中心组团的比例就越低。换而言之,如果某个区设区时间越晚,其内部通勤比例就越高。来看县的情况,如果这个县离市中心越远,内部通勤比例也会越高。

如果没有诸如通勤数据来定义城市,别人可能说,你可以用基于夜间灯光的数据进行比较。可以看我们用灯光画的这个图。图看起来很棒。但有什么缺点?图中整个珠江三角洲和旁边的福建连在了一起,整个长三角都连在一起,上海与旁边的江苏、浙江都连在一起。这些地方看起来都是连片特别亮的。虽然这些连片区域都可定义为“城市”,但如果看内部通勤联系,其实分属不同组团。

基于定义的经济都市区,我们可以考察城市体系的特征。齐夫定律是说什么?如果把国家中所有城市从最大到最小进行排列,存在一定规律。比如,居于首位的最大城市人口规模是2400万,第二位城市就应该是2400÷2,也就是1200万。第三位城市就应该是2400÷3,也就是800万。一些经济学家,比如爱德华·格莱泽,《城市的胜利》作者,有篇文章说中国情况并不符合齐夫定律。大致说是因为中国城市规模小,受到诸如户口因素的阻碍。但论据其实并不对。如果使用我们用通勤数据所定义的都市区排序,你可以看到,齐夫定律还是成立的。

我们还计算了所谓城市规模红利。比如说,城市的规模增加10%,这个地方的平均工资或生产率会高多少?最近二十大报告还强调要提高全要素生产率。可以看到,采用不同的城市定义,其系数的大小是不一样的。要针对不同研究目的,选择最合适的一种城市定义。城市边界在哪的问题,我觉得是比较重要的。这项工作对我们国家非常有意义。

问答环节要点

我们有非常多的通勤方面的研究。我们现在比较关注的是广州佛山的通勤,因为这对北京副中心发展极具启发。广佛的距离,跟北京城区到通州的距离较接近,是30公里。另外,广佛属于双向通勤状态,广州到佛山的通勤和佛山到广州的通勤基本是一样的。大家知道,生活在燕郊,到北京上班很痛苦,我们不应让这样的事发生。规划应把燕郊这些地方都划进来做。这种调整并非规划师说了算。但我们需要共同呼吁:在一个最合适的范围内,去考虑公共产品的提供,去考虑规划的编制。

关于量化的空间均衡模型。修建基础设施,比如修地铁,不仅会改变人们的出行方式,改变道路的拥堵状况。还会改变人们的居住选择,改变公司的区域性,最终会改变整个城市的通行模式。比如,就通州而言,有很多大公司进入。大企业过去之后,会怎样带动当地经济增长?

另一个感兴趣的研究,是地铁对城市空间的影响。你可以知道,一条新地铁线开通后,哪些人坐这条地铁,这些人是原本就住在这儿,还是从别的地方搬过来后才用这个地铁,这是用其他任何数据所不可比较的。我希望能跟规划师们就此合作:北京最近这一年间开通那么多地铁线路,在交通网络完备度不同的情况下,到底会如何改变周边人的出行的模式?到底会如何吸引人们搬到地铁线周边?

之前提及中国、美国、巴西的国际比较。相当于采用了同样的算法,使用了同类型的数据,亦即通勤交通数据。有时我们需要做时间维度的比较。因此,如果数据的统计口径一致,使用的方法也一致,任何比较都是有意义的。如果从政府部门的角度,采取制度化的方式从公司获取数据,会事半功倍。

我们的研究,关乎两个方向:其一,新数据如何回答传统的问题;其二,互联网给我们带来何种改变。美国沃顿商学院开展了全美各个城市的土地管制的统计。每个城市的土地管制强度不一样。土地管制越强,这个地方房价越高,因为限制了土地供应。

我们也应该做一些有意义的跨城市的比较,理解不同城市的土地供应。关于房价,关于住房市场,我们真的有太多东西不知道。住房关乎需求和供给,要知道需求弹性是什么,供给的弹性又是什么。比如,房价增加了10%,我们土地供应能增加多少?忽略城市政府的若干因素,市场需要做出何种反应?北京弹性多少,上海是多少?——我们都不知道,因为没有合理的数据,没有合适的方法来做。我的意思是,基础工作方面需要做的太多。

    责任编辑:王昀
    校对:刘威
    澎湃新闻报料:021-962866
    澎湃新闻,未经授权不得转载
    +1
    收藏
    我要举报

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈