AWS服务大规模中断，基础设施故障影响全球企业

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户，每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序

FreeBuf+小程序把安全装进口袋

基础安全

全球性服务中断源于AWS基础设施故障

亚马逊云服务（AWS）今日发生的大规模故障导致全球网站和应用程序出现严重中断，影响范围从美洲延伸至欧洲和亚洲。该公司随后确认问题已得到缓解，多数受影响平台恢复正常运营。

此次故障始于AWS位于弗吉尼亚北部US-East-1区域的技术问题，最终演变为全球性中断。凌晨时分，AWS报告其多项服务出现高错误率和延迟。经排查，问题源自其DynamoDB服务的DNS解析故障，该服务为众多全球客户处理数据库查询。这导致从娱乐到金融领域的大量流行平台出现服务中断。

由于众多在线服务依赖AWS基础设施，即使在美国境外也未能幸免。当US-East-1区域出现问题时，通常会影响到通过该区域进行数据库或流量管理的全球网络。AWS解释称，事件源于内部DNS问题，这些问题阻塞了对DynamoDB API端点的访问，导致依赖系统出现超时和服务故障。

受影响的主要服务与地区

美国东部时间凌晨3点左右首次出现故障迹象。用户开始报告Reddit、Snapchat、Signal、Venmo等应用以及《堡垒之夜》和Roblox等游戏平台出现问题。金融服务机构如Robinhood和Coinbase Global也出现离线情况。多家航空公司报告其预订系统临时中断，甚至亚马逊自家的Alexa和Ring服务也受到影响。

在英国和欧洲，用户整个上午都面临类似中断。英国政府网站（包括HMRC登录和福利门户）与劳埃德银行、哈利法克斯银行和苏格兰银行等在线银行平台短暂下线。Duolingo、Canva和Wordle等流行消费类应用同样遭受冲击。中断追踪网站报告显示，该地区用户投诉激增，仅英国就记录了超过百万起事件。

亚太地区的澳大利亚、新加坡和日本用户遭遇服务延迟和连接问题。当地报告指出，托管在US-East-1区域的全球应用程序数小时内无法访问。尽管AWS在全球设有多处数据中心，但许多应用使用共享的全球基础设施，这使得故障影响范围远超其起源区域。

英国时间上午晚些时候，AWS确认"底层DNS问题已完全缓解"。公司表示服务已恢复，但警告称随着系统稳定，部分客户可能仍会遭遇响应变慢的情况。AWS状态页面随后显示，EC2实例启动和数据库连接等核心功能正恢复正常。

除Snapchat、《堡垒之夜》和Signal外，此次中断还影响了Venmo、Robinhood和Coinbase等金融工具，Slack和Airtable等生产力应用，甚至麦当劳等快餐应用。

非首次发生的重大中断

这并非AWS问题首次导致影响全球大型企业的服务中断。2017年3月，据Hackread.com报道，AWS同一弗吉尼亚设施的技术问题曾使多个流行网站离线数小时。受影响方包括RunKeeper、Medium、Trello、Imgur、Giphy、SoundCloud、Quora、Business Insider、Coursera、Time Inc.等众多企业。

AWS发布最终更新时，多数服务已恢复正常，用户报告开始减少。公司尚未提供事件原因的完整技术细节，但表示将继续调查以防止复发。目前所有系统均已恢复在线运行。

专家谈数字基础设施依赖性

Freeth律所数据保护法律专家Mona Schroedel评论称，此次事件凸显现代生活对数字基础设施的高度依赖。"这并非我们近期经历的首起重大中断。就在一年多前，微软的服务中断曾导致机场和银行陷入瘫痪。现代生活，尤其是疫情后，已严重依赖虚拟系统。不久前大多数人还携带现金，能够轻松应对银行问题而不受重大影响。如今无现金支付成为常态，我们中很少有人会随身携带现金。"

她补充道，法律和监管框架未能跟上数字服务的快速扩张。"正如该领域的法律一样，实际审查和调整的需求无法跟上技术进步的速度。这使得当少数大型提供商面临技术故障或针对性事件时，终端用户容易受到负面影响。我们需要采取更多措施确保(a)关键服务具备备份系统，(b)对我们现代便捷虚拟生活的实际方面进行定期审查和监管。"

参考来源：

Major AWS Outage Now Mitigated: Global Impact and What Happened

本文为独立观点，未经授权禁止转载。
如需授权、对文章有疑问或需删除稿件，请联系 FreeBuf 客服小蜜蜂（微信：freebee1024）