亚太日报 沃克
本周二一大早,全球大量网站突遇断线故障,包括新闻网站《纽约时报》、“BBC”和“CNN”、购物软件亚马逊和“eBay”、英国政府官网、音乐软件“Spotify”、社交软件“Pinterest”和“Reddit”、游戏影音软件“Twitch”在内的众多平台一时间都出现了无法访问的问题。
马上,来自美国云端运算服务商“Fastly”公司的调查人员开始寻找故障发生的原因。“我们在1分钟内就检测到了网络中断的问题,”该公司的工程和基础设施高级副总裁尼克·洛克威尔在博客文章中写道。
然而,最终的调查结果却令人难以置信——触发本次大规模断网事件的根源,竟然只是Fastly平台上一个未命名用户的操作。原来,Fastly公司在5月中旬曾进行了一项软件部署工作,其中存在一个特定情况下将被触发的错误,只是这个漏洞一直处于休眠状态,直到本月8日,一名客户提出了一个“有效配置更改”的请求,无意中触发了该漏洞,导致该公司85%的服务器都出现了网络返回错误。
人们抱怨道,他们点开这些网站的客户端后,只能看到页面显示“503错误”的状态码。那么,“503错误”是什么意思?科技新闻网站“CNET”称,“这个错误的通常原因包括两种:一是托管该网站的服务器进行了停机维护,二是网站过载,比如有太多人同时访问它。如果您看到网页出现这个代号,意味着托管该网站的服务器尚未准备好处理您的访问请求。不过,这个代号也说明问题只是暂时的,应该很快就能被解决。”据悉,CNET网站在8日也遭遇了断线故障。
“事件发生49分钟后,经过我们的修复工作,95%的网站都恢复了正常,”洛克威尔写道,“这次网络断线的规模很广泛,我们真的很抱歉。”
但是,为什么Fastly公司的一个失误会让如此多的网站都受到牵连?对此,CNET称,Fastly公司的服务对于很多网站来说都是必不可少的,而能够提供这些服务的公司并不多,因此,大量网站不得不依赖于极少数公司,以维持运营。此前,类似的事故也曾多次发生,例如,去年7月,全球内容传递网络CDN加速服务商“Cloudflare”公司就曾出现故障,导致许多网站断线,访问时出现“502错误”代号。
接着,有人可能会问,类似的技术故障在未来还会出现吗?为了确保历史不再重演,Fastly公司表示,他们目前除了修复错误,还在仔细回顾5月的软件部署操作,试图弄清楚为什么当初没有在测试过程中就发现错误。此外,该公司还在试图提高修复该类故障所需的时间。
(来源:亚太日报 APD News)