完美是一个崇高的浮“云” 没东西是完美的。公司也一样。但是现在的客户越来越在应用和数据访问方面依赖云,完美则正好是这些客户所要求的。下面列出完美童话破灭的10大浮“云”例子,这种事发生时用户唯一能做的无非也就是在互联网上发一发火愤怒一下而已。 Amazon.com 元月31日,假日后的在线购物治疗受亚马逊断网影响中断约一个小时。受影响的似乎主要是孤立的网站主页,所以很多人猜想是由于分布式拒绝服务攻击导致的。不过有关的猜测并未得到确认。然而,这次断网显示了正常服务对于像亚马逊这样的大公司的极大重要性。据分析人员计算,服务中断一小时大概可以换算成5百万美元的收益损失。 苹果iCloud 4月23日,苹果公司的iCloud断网,影响到包括登录、电邮、GameCenter和iTunes的各种服务。多数重要业务应用似乎并没有受到影响。用户在访问受影响服务时多数会因验证问题而失败。多数服务几小时后恢复正常,但这以前整个4月苹果用户曾提及过很多小规模的故障。 还有,云发生断网时,很多用户肯定会给渠道合作伙伴打电话。Jim McCool是弗吉尼亚州尚蒂利市一家名为CWPS的系统整合和云服务渠道合作伙伴。他在谈起4月的断网时告诉CRN说,“这种事发生时,会有很多人给我们电话。其实,这些人无论什么事都会给我们打电话的。但是很多时候,最后是我们给客户打电话。我们会随时对系统做预防性的监视,所以有时候断网前我们已经知道这事要发生。” CenturyLink CenturyLink是总部设在路易斯安娜州门罗的一家跨国通信公司。5月7号CenturyLink发生大规模断网,影响到至少20个州的客户。后来发现问题的原因是一个核心路由器发生毛病,而公司没有公布更详细的细节。断网后公司的电话总机被打爆,所以客户要得到信息就更加困难。 此类服务中断时,客户常常会给渠道合作伙伴打电话查询其他解决方法以及恢复正常的具体时间。西雅图的解决方案提供商Semaphore Corporation总裁跟CRN说起5月7日的断网时说,“我们确实接到过几个电话。我很开心我们这问题还不是太大,很明显其他地方的情况要糟糕得多。” Dropbox Dropbox是个很有用的工具,可以让用户从不同的设备访问文件。但是要真的实现其价值,正常运行时间是关键。元月10日,Dropbox不幸成为2013年大公司断网的第一家,提供的服务受到重大影响。服务中断了15多个小时,原因是用户终端软件和服务器之间的同步问题。断网期间,Dropbox严重低估了恢复服务的时间,进一步导致了用户的不满,互联网上到处是无奈的用户因为不能访问自己文件而在发泄愤怒。 Dropbox为了让用户实时了解情况,利用推特定时发布推特消息。Dropbox的营运团队元月10号的推特消息说:“受影响的还有:建造目录、访问分享目录及产生分享链接,我们非常感谢各位在我们解决问题恢复服务期间表现的耐心。” Google鼓励用户多使用Google Drive, Google Docs和 Gmail, 因而服务中断时对依赖这家总部在加州山景城公司的用户影响就更加深刻。4月17日的断网就是一个例子。当天发生了一个短暂的小故障,却显示了服务正常时间比例对Google这三个服务的挑战。据Google说,发生故障的是Gmail云电邮服务,影响到其他三个服务。登录设置里一个缺陷导致服务器超载,据信至少是问题的原因之一。Google说,4.25亿用户里只有“不到0.0007”受到影响。Google发布问题后不到一小时,服务回归正常运作。但是,接下来的几天陆续有不少问题,因而有Google断网两部曲的倒霉事…… Google两部曲 ……还是说两、三、四部曲?今年3月,Google在仅仅一个星期内遭受了三次断网。主要原因起始于3月18日,一开始只是一个孤立的小故障,后来导致了大问题。范围之大以至三分之一的客户群收到影响,互联网上基本上是一片叫骂声。3月19日断网2小时,接着3月20日服务中断的时间更长。Google对3次断网的原因三缄其口。不过用户指近几周的服务相对稳定。 微软电邮 微软的在线服务名声3月14日这天受到一点打击,当天Hotmailhe和Outlook.com双双遭受服务中断达16小时之久。在同一段时间内,还发现微软的SkyDrive有稳定性问题,不过这些问题得到及时矫正。后来有报道说,问题的起因是某个固件升级导致服务器过热。 微软Windows Services部测试和服务工程副总裁Arthur de Haan在一篇博文中写道,“这个升级以前有成功完成过,但是这一次却出乎意料地没有成功。升级失败导致数据中心温度急剧地大幅度上升。上升得确实太快……最后导致数据中心很多服务器的防卫系统启动。” 各种服务在3月14-15之间逐步恢复,午夜前大多数邮箱回归正常运行。 SCORM 3月14日,SCROM升级一个云服务提高稳定性和性能,最后却导致降低稳定性,引起3个小时的云服务中断。SCORM隶属Rustici Software,是旨在推广电子学习软件产品兼容性的一套技术标准。升级里的一个错误引起一系列的连锁反应,最后影响到公司在亚马逊服务里几个区的服务。Rustic Software的客户支持经理Joe Donnelly在SCORM支持论坛写道,“我们对SCORM Cloud做了一些改变,目的是增加系统稳定性和性能。由于这些改变的引入,一个亚马逊服务器发生导入问题。这个问题导致了一系列的失败,主要是因为过度的CPU负载,最后出现亚马逊Web Service上SCORM几个区的服务发生不稳定的情况。” Telstra 据报道,澳洲大型通信服务提供商Telstra的高端云计算3月底遭受了大规模的长达一天的断网。公司发言人一周后在一个发言中对媒体证实了断网事件。据澳洲技术通讯网站Delmiter报道,发言人说,“上个星期,我们的云平台有间歇的服务中断,影响到少数——约20个——客户。”问题的原因似乎是公司在墨尔本的数据中心里一个存储层出现问题,导致一些关键客户在相当长时间内不能使用服务。这位发言人说,“3月25日,我们发现数据存数设备出现问题,使用这些支持设备的客户受到影响。发现问题后,我们立刻联系了我们的存储合作伙伴并开始恢复服务。”据报道, Telstra目前正在进行一个8亿美元的扩展项目,用来做支持云基础设施和市场营销用。 Windows Azure 2月22日,微软的Azure Cloud全球服务中断差不多一整天,影响到安全网络交通。互联网上不少人报告说在此期间,Azure项目组合里的服务完全不能用,也有人说能用但速度特别地慢。Azure储存据信是受影响最大的服务。问题的起因经确认是由一个过期的SSL证书引起的。非安全HTTP连接仍然可用。据Kaspersky的Threatpost博客说, 微软是在2月23日的Windows Azure Service指示板上公布服务中断的。这条信息写道,“Storage的全球服务出现中断,影响到HTTPS运作(SSL交通),是由一个过期证书导致的。”除了“认错”外,微软2月24日在Windows Azure博客上发了一条消息,说会给受影响的客户发放信用值。Windows Azure业务和运营总经理Steven Martin写道,“鉴于这次的断网规模,我们会根据服务水平协议主动为受影响的客户提供信用值。” |