-->
保存您的免费座位流媒体连接今年八月. Register Now!

亚马逊EC2和索尼PSN的失败凸显了教育的必要性

The outage of the 亚马逊弹性计算云(EC2) 两周前,企业陷入了混乱, 在上周的数据泄露事件中,同样的事情也发生在消费者身上 Sony's PlayStation Network (PSN). Between the two incidents, 消费者和企业都看到了云计算颠覆性潜力的基本本质, 我们认识到,对云的依赖绝不是盲目的信仰,而是要对普通的web性能问题有很好的理解, reliability, scalability and security.

围绕每个事件的问题—amazon丢失了许多硬盘驱动器(卷),这对单个数据中心中的许多其他计算机产生了连锁反应, 索尼的安全漏洞泄露了数百万个密码和数千张信用卡——理解这一点很重要.

索尼的问题既是一个公共关系问题,也是一个安全漏洞, 该公司隐瞒了有关密码泄露的信息, credit card, 以及其他个人信息. Since then, according to the company, 在数据存储和安全特性方面,它是“手工重建网络”. Separate services, 比如在PlayStation 3上观看Netflix, 没有受到PSN漏洞和随后的中断的影响,因为它们是从不同的基于云的服务交付的, such as Amazon's EC2.

亚马逊的EC2问题有点复杂, 这涉及到对基于云计算的重型计算服务的依赖. One issue, 被一位专家称为“云仇恨者”的人群提出, 挑战了云计算比一般企业服务器群更适合可伸缩性和冗余的前提. 

误导性云营销

A big part of the blame, 根据“云恨者”的逻辑, 营销和销售方法是云吗. 云的一个强大卖点是,数据可靠地保存在云中——不需要本地化备份——随时可以访问. 这几乎是一种“上传后忘记”的方式,就是说客户的数据准备好了,只要他们需要,就可以随时使用, 而且客户不应该真正担心云的内部工作.

对这一论点的反对意见通常集中在网络中断和间歇性网络连接是消费者问题这一事实上, 很少有企业的互联网连接完全中断. Yet the FCC's broadband studies 讲述一个参差不齐,有时连通性不可用的故事.  很少有消费者生活在一个永远在线的世界里, 经历频繁的间歇性连接, 虚拟企业和农村企业都面临着同样不稳定的网络连接. 

在流媒体世界里,我们总是准备好内容,通过间歇性的网络来传递, 从早期的真正RTP流到最近的MPEG-4片段或自适应比特率视频的HTTP传输.

没有详细讨论过的事情, 至少在亚马逊EC2中断之前是这样, 是数据中心的间歇性可用性和故意在数据中心之间缺乏冗余吗.

考虑到围绕云的营销, 人们可以很容易地认为,“上传后忘记”模式为每个EC2客户提供了内置的冗余. 亚马逊的回应打破了这个神话,尽管该公司正在努力解决这个问题.

亚马逊EC2宕机:发生了什么

EC2本身并没有完全崩溃, 但是,由于这个问题,对存储的网站数据的影响可以在许多网站上看到, according to Amazon:

,主要涉及单个可用区中Amazon弹性块存储(“EBS”)卷的一个子集.g.(数据中心).S. 无法提供读写操作的东部区域."

罪魁祸首不是节点本身,而是亚马逊说的网络设备升级

“作为我们在美国东部地区的单个可用区中正常的AWS扩展活动的一部分执行."

这些失效的驱动器在整个EC2基础设施中引起了连锁反应, 因为每个受影响的节点(和节点集群)都会搜索具有足够存储空间的其他节点来复制数据. 在复制内容期间,对内容的访问将被锁定. 亚马逊在其事后调查报告中表示

“无法找到新节点的节点在找不到空间时不会积极后退, but instead, 继续反复搜索. 在EBS节点上的代码中还有一个竞争条件, 概率很低, 导致它们在同时关闭大量复制请求时失败."

和任何冗余系统一样, 人们会假设内容存储在异地的多个位置——这是企业服务器解决方案中的常见做法. Yet, 对于所有的云营销, 跨多个位置或可用区域的冗余并不一定适用于EC2, 因为亚马逊对跨多个可用区存储的收费更高.

In its report, 该公司似乎将部分责任归咎于客户没有选择多区域选项, 或者不编写应用程序来利用这些多个区域.

Still, 如果冗余和可靠性的营销是可信的, 客户不需要理解或跨多个可用区工作

在最近的全美广播协会(National Association of Broadcasters)在拉斯维加斯举办的一场新媒体/广播圆桌会议上,我主持了一场讨论,随后亚马逊的服务就中断了. 这次圆桌会议是由微软赞助的, iStreamPlanet, and Interxion, 后者是一家数据中心设施提供商,使用每个城市两个数据中心的方法覆盖欧洲城市.

圆桌会议上提出的一个问题是云的可靠性. 甚至在亚马逊停电之前, 有人对关键任务应用程序的传输速度和云服务的可靠性提出了质疑. 一位与会者甚至打趣道, 而他们则依靠技术合作伙伴推荐久经考验的解决方案, 云计算的一个问题是在云中断的情况下确定责任.

“我们不能起诉云,”该参与者打趣道.

Amazon's Response

然而,在亚马逊的例子中,该公司了解中断对客户的影响. 虽然为几天的中断退款并不能挽回许多公司所面临的收入损失, 亚马逊似乎会放松对在多个可用区存储数据收取额外费用的政策.

亚马逊也有自己的工作要做,既要教育潜在的EC2客户,又要纠正和扩展其软件代码, 并在宣布一系列 webinars:

我们将介绍的第一个主题是设计容错应用程序, Architecting for the Cloud, 和网络托管最佳实践. 未来两周的网络研讨会将每天举办几次,以支持我们在全球多个时区的客户. 我们将留出相当一部分的网络研讨会来进行详细的提问&A. 还将安排与客户或合作伙伴的后续讨论."

除了网络研讨会, Amazon正在发布关于AWS架构最佳实践的白皮书, 并将修改其服务,以允许自动多区域平衡, 没有客户干预. 

In other words, 亚马逊希望通过一系列的行动项目来解决停机问题,以一种大多数企业客户多年来已经习惯的方式,在云中实现自动恢复和冗余.

这让我想起了一首古老的儿歌:当它起作用的时候, it is very, very good, but when it doesn't, it is awful.

Streaming Covers
Free
for qualified subscribers
Subscribe Now Current Issue Past Issues
Related Articles

教程:构建用于vMix的远程AWS EC2服务器

您是否对AWS EC2服务器是什么以及它能为您做些什么感到好奇? 假设您当前的计算机设置低于标准,或者您可能需要使用vMix进行远程生产的第二个单元. EC2是一个可行的解决方案.

学校和大学正在从在线视频中学习

流媒体视频对教育产生了巨大的影响,无论是对年轻的还是年长的学习者.

美国联邦通信委员会的研究表明,消费者没有得到宽带速度广告

研究还指出,视频是带宽使用的主要驱动因素, 而且大多数移动数据都是通过无线网卡消耗的, not mobile devices

提及的公司及供应商