- +1
城市好视图|在中国组织数据可视化竞赛,最大的挑战是没数据

在这方面,中国的城市政府恐怕还任重道远。
近日,澎湃新闻和微信公众号“一览众山小-可持续城市与交通”(简称“一览众山小”)共同主办的首届“城市好视图:出行的秘密”挑战赛报名截止。175个参赛队都收到了包括15个城市的数据包,以进行可视化处理,讲一个关于城市出行的故事。
本次数据可视化挑战赛,意在让市民更好地理解城市交通,思考如何才能达致可持续的城市,并得到了北京交通发展研究中心、北京智诚智达交通科技有限公司和世界资源研究所中国可持续城市项目的支持。
但这15个城市的数据,得来却不容易。早在3月,由澎湃新闻的员工以及“一览众山小”的志愿者们组成的赛事组委会,讨论确定了若干典型城市及相应的分析领域。随后,负责数据工作的志愿者蒋冰蕾便开始“满中国地搜寻”,可是,与一开始的设想不同,她发觉,中国的这些城市,“压根就没数据”。
沉默的数据,难求的数据
不过,中国城市政府不可谓不重视“数据”。诸多城市都在进行系统信息化建设的工作。但这可能还不够。
“一览众山小”的创始人刘岱宗,正是本次挑战赛的发起人。在他看来,中国城市目前的重心仍然放在“信息基础设施建设”上,即硬件层面,至于对待数据,“思维还停留在单纯的囤积,深入挖掘和运用数据的能力仍有所欠缺”。
据记者了解,很多时候,因为政府部门过去收集到的历史数据,其存在统计口径不一致、数据缺失等种种问题,需要进行清洗,那么,与其花费成本,不如干脆不公开——如果公开不够完善的数据,还有遭受公众质疑的风险。总之,多一事不如少一事。由于上述种种不情愿,大量庞杂的数据在档案中沉默着。
不过,某种程度上,本次挑战赛正是要挑战这一现状。既是数据可视化比赛,就要考察参赛者对数据的交叉分析能力。尽可能全面地搜集相对准确的数据,就是筹划期最重要的工作之一。
数据怎么找?这无疑是功夫活儿。
除了可购买到的各城市年鉴和网络上零星发布的数据,其他公开可靠的途径,可谓付之阙如。于是,动用“私人途径”去寻找数据成为最后一个办法。
通过筛选整合,蒋冰蕾选取了各个城市2011年的数据。之所以选取这一年,是因考虑到2011年的交通分担率数据已属最新版本,且各城市的相关数据在2011年也最为齐全。由此,组委会得以全面搜集到15个城市的相关数据。
但是,即便是这一年,仍有几项数据缺失,组委会采取了相近年份的数据补充。例如,疾病、交通运行信息和城市空气质量信息公开指数等数据,以其他年份的信息做了补充。最终形成这15个城市的基本信息,以及交通、道路、空气、绿化、疾病等项目的数据。
筛选数据不易
城市统计数据的准确细致程度,也与其经济实力相关。一些三线城市,同一年份的GDP数值,都在网上呈现不同版本。比如,马鞍山2011年的GDP,在当地的城市年鉴和安徽省年鉴中显示的数值就不尽相同,类似的情况并不鲜见。甚至,每个部门公布的数据也有差别。例如,城市人口,统计部门和民政部门的数据有时就会对不上。而北京、上海、广州等城市,状况就好很多,几乎小数点后的数值都能对上。
即便一个城市各项数据齐全,也还需要横向和其他城市比较。不同城市、不同部门,都自行定义了一套统计数据的概念和口径。有些搜集到的数据,统计选取范围的差别很大。
比如,地方对城区的概念很模糊。蒋冰蕾介绍,各个城市年鉴中,关于“城市基本信息”和“车辆保有量”的数据统计,口径不同,有基于市域的、市区的、建成区的——“市域”是包括城市所辖县或县级市的地区;“市区”不包含这些地区;“建成区”指的是城市建成区,一般指城市建筑集中连片的市区,但有些城市近郊已建设的分散地段,虽未与市区连成一片,但联系紧密,也被视作城市建成区。其中,在人口、面积、机动车使用的统计数据上,“城区”的概念就时常令人困惑。
类似这样的定义,“在政府部门的数据报告中一般不会标明”。在蒋冰蕾看来,“这是个约定俗成的行业规则,每个部门都会对自己的数据有一套传统的理解,外人是不了解的”。
不仅如此,整理这些数据时,蒋冰蕾等人甚至察觉到,其中一些数据,也是按不同的统计者自己的理解填写的。搜集而来的数据存在很大偏差,同样是依赖组委会成员多年的从业经验来筛选。
“之所以数据质量不高,也与中国城市发展速度太快有关。”蒋冰蕾认为,现实状况变化相对较快,而统计数据的成本太高。
要对这些数据进行关联比较,参赛者也会面临一些挑战。当然,数据可视化工作,在起步阶段,就是校核数据本身。参赛者在“城市好视图”的QQ群里,可以获得关于数据来源等方面的详细答复。
参赛者也表示理解。“数据本来就不完美,我们尽可能周全地去分析和呈现。”一位参赛者说。
环境和健康
论及“可持续交通”,自然需要考虑环境方面的可持续。但与环境有关的数据,中国城市似乎格外缺乏。中国相对较晚才开始监测并公布PM2.5,这方面的历史数据存在缺失。
最终,蒋冰蕾找到几项2011年上半年和2012年的排放数据:二氧化硫、二氧化氮、PM10、AQTI(城市空气质量信息公开指数)。对一些城市而言,数据本身可能存在不够全面和准确的问题。
蒋冰蕾告诉记者,一个在环保部工作的朋友曾对她表示:“在中国,用于统计空气污染状况的监测探头太少,数据哪里收集得全面准确呢?”这里所说的监测探头,用于监测空气质量,会得到二氧化硫、二氧化氮、可吸入颗粒物等数据,升级后的探头,则可以监测煤、油燃烧过程中产生的有机化合物。据介绍,在邻国日本,往往相隔几百米,就会安装一个监测探头。而在中国,一些对此重视的城市,探头密度稍高一点儿,数据相对准确。而经济不发达的西部地区,探头有时几乎找不到。
环境直接影响市民身体健康。卫生健康数据的公开,在美国不是问题,美国城市很重视分析交通对健康的影响,常用到超重率、心血管疾病、糖尿病等数据,分析城市交通的合理性。这会成为交通规划等决策的重要依据。
本次“城市好视图”挑战赛,主办方自然期待能请选手结合健康状况讲讲城市出行的故事。但问题是,在中国城市人口健康方面,组委会几乎找不到公开的、标准一致的可用数据。
虽然有些地方政府部门、研究机构或个人因各自的研究目的,进行过相关统计,如针对糖尿病或慢性疾病等,但这些数据并无统一的标准,无法在本次挑战赛中使用。比如,一些城市的疾控中心曾发布了本市某年的糖尿病发病情况数据,但另一些城市发布的是癌症相关数据。这些就没有办法比较了。
最终,蒋冰蕾从互联网上找到了一份“2012年中国肿瘤登记年报”,其中采用了2009年的数据。这已经是六年前的“老”数据了。
为什么要参赛
事实上,尽管收集数据的过程困难重重,但参赛者对此仍然抱有极大的热情。
报名参赛的175支队伍来自全世界,拥有IT、规划、交通、景观、媒体等多元背景。有的就职于知名大公司,而有的还是高校学生。他们还会给自己的队伍取一个时尚有趣的名字。
花果山队队长王颖来自世界资源研究所(WRI)——一家非营利性研究型智库。她告诉记者,该队成员都是同事,研究中国的可持续交通,参与这次比赛,也希望能把自己在研究时的一些“好思路”和研究成果呈现出来。在她看来,这个行业需要关注如何更好地面向公众:“政府制定一些交通政策时,比较忽视与公众之间的交流,这个状况现在正在改变”。
另一位参赛选手李立超,从事交通行业技能培训及技术咨询,同时在负责一个交通领域技能培训平台。他希望,通过这个比赛,“引起我们专业学生对数据处理分析的兴趣”。“作为交通行业的从业人员,数据处理分析能力是必须要掌握的”。
来自北京城垣数字科技有限责任公司的参赛队——CITYIF,其成员是几位初入规划行业的“新人”。领队茅明睿表示:“现在正处于城市规划转型期,无论是工作模式,还是思维方式都在转变之中。”他认为,让大家利用业余时间参与这次比赛,也“能够训练一下新人们的数据分析、可视化制图等专业技能,学习媒体经验”。
在庞大纷杂的数据背后,市民显然是弱势群体。推动“数据可视化”的工作,让这些尽管不完美、却仍有价值的数据发挥其作用,把城市出行的秘密展现给公众,无论如何,这都是一件值得尝试的好事儿。
8月1日,是作品提交截止日期。期待这些数据最终促成能启迪公众及从业者,被广为传播的视图作品。






- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2026 上海东方报业有限公司




