澎湃Logo
下载客户端

登录

  • +1

专访霍普金斯新冠追踪网站创始人:如何突破不可靠信源收集数据,服务超10亿日点击量

2020-04-19 19:39
来源:澎湃新闻·澎湃号·湃客
字号

大数据文摘

大数据文摘出品

来源:Science

编译:刘俊寰

全球疫情走势仍然没有放缓的趋势,国外不少网站也纷纷开始追踪病毒的传播以及致死率情况,比如世卫组织的全球地图(global map),《纽约时报》对县级病例的统计等。

其中,约翰霍普金斯大学(Johns Hopkins University)是最早建立疫情资源网站的组织之一,早在1月,就迅速跟进数据来源,建立了可视化网站,在抗疫初期起到了非常重要的作用。在几个月的数据累积和报道中,网站已经建立起了自己的资源路线,即使在美国政府没有提供可值得信赖的数据的前提下,也能收集到最新的疫情数据。

疫情全球蔓延期间,这个看似简单的网站每天点击量超过了10亿次,世界各地的新闻机构和政府机构都在引用其数据。该网站俨然已经成了COVID-19病例数据的最权威来源。

网站链接:

https://coronavirus.jhu.edu/map.html

从上图可以看到,网站没有花哨的设计,黑色底色的世界地图,各国和各地布满了红色小圆圈,旁边的数据图表中明确地表示出了感染、致死和康复情况,疫情的走势等。

这个网站是在霍普金斯大学系统科学与工程中心的联合主任Lauren Gardner的主导下建立的,Gardner此前的工作涉及到了麻疹和寨卡病毒流行病的空间建模。

4月3日,Gardner接受了ScienceInsider的采访,当天,全球COVID-19病例突破100万,死亡人数超过5万人。

在这次访谈中,Gardner说了向读者透露了哪些内容?和文摘菌一起来看看吧~

现在市面上有很多追踪COVID-19的网站,在你看来,你们的网站为什么能够脱颖而出?

可能因为我们的网站最早建立的吧。

我们在1月着手建立网站的时候,病毒还没有扩散到全球,我的一名来自中国的研究生Ensheng Dong对这个课题很感兴趣。我们花了几个小时建立了一个简单版本的网站,第二天,我把链接分享到推特上,突然就火了起来。

网站有数百个来源,从世卫组织的数据到新闻报道的汇总和社交媒体上的报道。如何确保准确性和不重复计算?

由于人们对疫情的关心,一旦我们离线,就会有人来联系我们,目前我们已经收到了数千封电子邮件。人们会在电子邮件中向我们披露一些最新情况,比如提醒某地新增了两例确诊。现在,我们有一个异常检测系统,可以提醒注意系统自动收集的病例报告中的差异。

有人会将我们的数据作为原始案例反馈给我们,因此我们确实也会担心重复引证。美国有一个新闻聚合平台1point3Acres,我们经常从他们那儿获取美国数据,作为交换,我们会给他们提供全球数据。

不过,我们也必须对该网站提供的数据保持足够的审慎态度。

如果所有的地方卫生当局能够持续改进疫情报告,那么我们就可以直接从他们那里而不是从当地媒体报告中提取数据了。

你们无法从疾病控制与预防中心(Centers for Disease Control and Prevention)获得美国的疫情数据吗?

CDC只会提供州级的数据,有时甚至会延迟24到48小时,县级的数据是缺失的。

目前,团队有多大?

最开始只有我的实验室团队,六个人的样子。

早期,因为数据处理量过于庞大,Amazon云服务器不堪重负。现在,霍普金斯大学向我们提供了帮助,学校的应用物理实验室提供了后端数据管理和技术的支持,拥有地图软件的公司Esri也来帮助管理平台,霍普金斯大学的员工管理媒体和通讯。

尽管如此,目前小组的规模和我们正在做的事相比,还是小了很多。

平时的工作量如何?会轮班工作吗?

两个多月的时间里,我们一直在想,应该从哪里收集数据,应该信任哪些数据,应该如何汇总这些数据,又应该如何进行验证。

最初,这些都是由我们手动操作完成的。现在,几乎所有东西都可以进行自动的交叉检查,网站数据每小时自动更新一次。我们还将在24小时轮换工作中处理服务器和数据管理等问题,一些现居英国的博士可以值早班。

这其实是一项基于志愿者的大型公共服务,我们也知道它并不完美,但我们想尽力把它做到最好。

随着COVID-19确诊患者的增加,是否面临着更多的工作?

实际上,系统是自动化的,现在的人工工作已经减少了很多。

我们正花费更多时间进行其他类型的研究,目前我几乎90%的兴趣和工作都回到了围绕这种疾病的数学模型上。我们正在对美国发生的情况进行实时风险评估,旨在将这些结果反馈给决策者,“这些地方我们第二天应该重点关注”。

我认为我们可以做到这点。

你睡得好吗?

做这件事很累。从一月份至今,我们的行程表基本一直都是满的,我们已经把一些家居物品都搬进了实验室,这种状态至少还会持续几个月。

在我看来,我们还需要追踪病毒至少一年的时间,关注病毒在世界各地的传播情况,对此肯定要付出110%的努力。

我认为在这个领域工作的所有公共卫生人员都是一样的。

相关报道:

https://www.sciencemag.org/news/2020/04/every-day-new-surprise-inside-effort-produce-world-s-most-popular-coronavirus-tracker#

实习/全职编辑记者招聘ing

原标题:《专访霍普金斯新冠追踪网站创始人:如何突破不可靠信源收集数据,服务超10亿日点击量》

阅读原文

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈