又一个1个半小时后,腾讯微信团队11点在官方微博上公布了宕机原因:
“机房两路光缆出现硬件故障,导致部分用户无法正常登陆和收发信息”。据《财经国家周刊》记者了解,在光缆被挖断之后,微信团队做出的补救方案,是进行数据迁移。30%的用户数据被迁移到其他的机房,但由于华东、华南地区的机房冗余不足,不堪重负,扑天盖地而来的数据请求,让各地机房的数据处理能力也迅速达到饱和,最终导致了微信业务的几乎全线崩溃。此时,唯一的解决办法,只剩下了全力抢修更换光缆,并通过技术手段逐步恢复用户使用。当天下午14点23分,微信团队终于发布微博表示,全面恢复通讯。
微信为何中断
实际上,这并不是微信第一次发生宕机事故。4月10日,微信曾因机房故障发生10分钟的中断。
但与上一次的短暂中断不同,此次长达6小时的严重事故,具有更大的影响与意义,仅其引发的7月23日股价波动,就让腾讯蒸发了近百亿市值。
作为中国最大的互联网公司之一,腾讯究竟为微信配置了怎样的基础架构,是如何保证机房数据安全、顺畅的?为何因为2根光缆的中断,就出现如此致命的网络问题?
《财经国家周刊》记者了解到,腾讯在上海设有多处机房,分别与不同运营商合作,出于成本考虑,这些机房既有合建,亦有自建。微信机房采用分布式架构,通过云平台实现多机房互联。此次被挖断的光缆正是连接微信在华东区核心服务器所在机房,另一头连接着具有索引功能的机房。
实际上,微信在全国的机房架构均是遵循交互式的布局方式,因为不能将所有的鸡蛋都放置到同一个篮子里。面对4亿用户群体,微信不可能、也不会将所有的用户集中在一家服务器上。也就是说北京的用户数据不全存储在北京的机房里上,有可能存储在上海、广东等地的机房。而上海的光缆断了,会影响到存储到本地的北京、上海、广东、浙江等地的用户。
一般来说,大型公司为保证机房数据安全会设置光纤通信双保护,一旦其中一条光缆出现故障,可迅速切入另一条光缆,以保证数据传输。《财经国家周刊》记者了解到,此次,腾讯与上海运营商合作,已明确要求使用双光缆。
但从此次的宕机故障来看,这两条光缆却还是被放在了同一个管道中,变成了“双光缆、单路由”。
这就好比为了防止堵车,运营商应该为腾讯提供两条不同的路,一旦A车被堵在了A路上,任务可由B车通过B路完成。但现在,两条路却重叠在了一起,并且同时中断。
据悉,之前因为双光缆单路由的设置,曾导致QQ连接故障,所以腾讯一些重要的机房被改为双光缆双路由。但这个经验显然未被复制到微信上。“同时受到光缆被砍断影响的业务还有QQ的其他一些业务。”腾讯公关部总经理助理张军电话里对《财经国家周刊》记者说。
对于用户规模越来越大的腾讯,其在基础设施的花费也变得庞大起来。腾讯财报显示,“移动及电信收费以及频宽及服务器托管费”位列开支项目中前三。从2004年到2012年期间,增长超过10倍,从3.16亿元增至34.08亿元。
2/3 首页 上一页 1 2 3 下一页 尾页 责任编辑:guanliyuan
|