• +1

貌似强大的中国互联网公司为何如此脆弱?该花的钱没有花

澎湃新闻记者 杨鑫倢 李淑平
2015-05-29 08:10
10%公司 >
字号

遭遇威胁并不可怕,可怕的是,当我们遭遇威胁时,有没有一套完备的应对措施。

        一连两天,中国互联网公司支付宝、携程先后中招瘫痪,尽管原因各不相当,但仍不禁让人发问:貌似已经强大的中国互联网公司为何在安全风险面如此脆弱?

        其实,此前不久的5月11日,网易也突然出现大面积服务瘫痪问题,网易新闻、云音乐、网易游戏等多款服务均无法使用。有人说,这是中国互联网的“黑色五月”来了。

        遭遇威胁并不可怕,可怕的是,当我们遭遇威胁时,有没有一套完备的应对措施。

假如携程有一个完善备份

        如果备份做好了,携程会这样吗?

        360安全专家林伟对澎湃新闻(www.thepaper.cn)记者分析,如果是一般的系统故障,一旦出现故障,按照预案,系统会自动用备份恢复数据,然后人工进行检测和修订。系统恢复大约几分钟到半个多小时的时间。

        “但是,照携程这种8个小时才逐步恢复的状况,估计是备份数据也丢失了,才导致时间这么长。”林伟说。

        一般情况下,互联网企业数据会有三四个备份,包括本地服务器同城机房、跨城机房、云端以及内网。即使其中一份出现问题,也会有别的备份补上。

        “虽然像携程这样规模的企业访问量很大,但是其数据存储量不会太大,多做几个备份也不会有多大的成本。”林伟说。

        一名携程技术人员告诉澎湃新闻记者,“备份也一并被黑了。”

        “携程的BCP/BCM(业务连续性)做得肯定是有相当大的问题。”前艺龙信息安全负责人说,在各个行业内,金融客户对于BCP/BCM是最最重视的。互联网公司和传统的金融机构并不是一个量级的,还需要进一步努力。比如,大型银行的重要系统,一套运行、一套热备、一套测试,所有数据做到同城和异地备份,恢复时间是以小时计算的。互联网公司讲究快速迭代、灵活性、可扩展性,往往要牺牲稳定性和安全性。

光缆也该“备份”

        在支付宝事件以及更早的微信瘫痪事件中,一把铲子把它们给挖趴下了。

        5月28日,据新华社“我在现场”客户端报道,光缆承建方中国电信杭州公司给阿里巴巴发函,由于市政建设工程在电信管道上方野蛮施工,导致电信管道内4条大光缆中断,影响阿里巴巴集团业务。5月27日20:40至5月28日03:57,光缆陆续抢通。

        按照一般情况,大型企业为了保证机房数据安全,都会实行“双光缆”保护。一旦其中一条光缆出现故障(比如地震、洪水等),可以迅速接入另一条光缆。

        而且,两条光缆应该保持一定距离。在2013年微信宕机事件中,腾讯与运营商把双光缆放在了同一管道中。打个比方,现在是一条路上开了两辆车,这条路断了,两辆车都开不过去。

        一名运营商人士当时坦承,他们为很多企业客户所建的双光缆都是单路由,但也并非不会做双路由,“只要出得起钱,就能做。”

        腾讯之前在广东采用“双光缆同路由”的机房发生过QQ连接故障的教训,所以目前腾讯一些重要机房已经按要求换成“双光缆双路由”,以保万全。

        目前尚不明确阿里是如何与运营商布置光缆方案的。

光缆被挖断,为何淘宝没事

        值得注意的是,到5月28日晚上19时,支付宝服务恢复正常。也就是说,在光缆抢修完成之前,支付宝就已经凭借自己能力给用户提供服务。

        支付宝称,支付宝的异地多活系统架构在此次意外中发挥了巨大作用。断网发生后,支付宝紧急将用户请求切换至国内其他机房。

        据阿里技术保障部微博,此次受光缆挖断影响的其实不止支付宝,还包括淘宝。

        那么,为何淘宝用户没受影响,而支付宝用户受影响?

        阿里技术保障部说,淘宝于去年8月完成异地多活的架构改造,经历了双十一的洗礼,技术已经非常成熟,所以能及时切走流量,用户没有任何感知,业务毫发无损。而支付宝目前正在部署异地双活的阶段,等到架构完全改造完成后,将不会出现此类问题。

        所谓异地多活,一位专家解释道,与传统的灾备技术相比,异地多活系统的特点是:在不同地点的数据中心都可以同时支持业务,而且每个地点发生的交易都是真实业务流量,而不是常见的一主一备。如果主中心没有问题,备份中心永远都是“备胎”。在传统灾备方案中,一般提的都是同城灾备、异地灾备、两地三中心。

        这种多活数据中心的好处是:因为所有的数据中心都在支持交易,所以能节约IT成本;另外传统方式中备份系统都不在真实的交易活动状态,所以很难判断它的状态到底怎么样,在出现问题时,都不一定敢切过去。

        可以比较的是2013年工商银行ATM机宕机事件。2013年6月23日上午,中国工商银行在全国多地的柜台、ATM、网银业务出现故障,用户报告无法正常使用。故障持续至少近1个小时,波及北京、上海等多个城市。

        当时,一名IT业内人士此前告诉澎湃新闻(www.thepaper.cn),银行等金融机构的容灾系统不会轻易启用整体切换,因为切换的成本非常高。一般,非极端情况(如地震、机房着火等)不会进行切换。

        另一位专家表示,大部分公司和网站都是没有备份的。小部分公司做了同城灾备还有一些公司做了异地灾备,比较难的就是异地双活。大规模的“异地多活”,目前在全球仅谷歌、脸书(Facebook)等少数几家互联网公司实现。 

    澎湃新闻报料:021-962866
    澎湃新闻,未经授权不得转载
    +1
    收藏
    我要举报
            查看更多

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2026 上海东方报业有限公司