全球性服务中断源于AWS基础设施故障
亚马逊云服务(AWS)今日发生的大规模故障导致全球网站和应用程序出现严重中断,影响范围从美洲延伸至欧洲和亚洲。该公司随后确认问题已得到缓解,多数受影响平台恢复正常运营。
此次故障始于AWS位于弗吉尼亚北部US-East-1区域的技术问题,最终演变为全球性中断。凌晨时分,AWS报告其多项服务出现高错误率和延迟。经排查,问题源自其DynamoDB服务的DNS解析故障,该服务为众多全球客户处理数据库查询。这导致从娱乐到金融领域的大量流行平台出现服务中断。
由于众多在线服务依赖AWS基础设施,即使在美国境外也未能幸免。当US-East-1区域出现问题时,通常会影响到通过该区域进行数据库或流量管理的全球网络。AWS解释称,事件源于内部DNS问题,这些问题阻塞了对DynamoDB API端点的访问,导致依赖系统出现超时和服务故障。
受影响的主要服务与地区
美国东部时间凌晨3点左右首次出现故障迹象。用户开始报告Reddit、Snapchat、Signal、Venmo等应用以及《堡垒之夜》和Roblox等游戏平台出现问题。金融服务机构如Robinhood和Coinbase Global也出现离线情况。多家航空公司报告其预订系统临时中断,甚至亚马逊自家的Alexa和Ring服务也受到影响。
在英国和欧洲,用户整个上午都面临类似中断。英国政府网站(包括HMRC登录和福利门户)与劳埃德银行、哈利法克斯银行和苏格兰银行等在线银行平台短暂下线。Duolingo、Canva和Wordle等流行消费类应用同样遭受冲击。中断追踪网站报告显示,该地区用户投诉激增,仅英国就记录了超过百万起事件。
亚太地区的澳大利亚、新加坡和日本用户遭遇服务延迟和连接问题。当地报告指出,托管在US-East-1区域的全球应用程序数小时内无法访问。尽管AWS在全球设有多处数据中心,但许多应用使用共享的全球基础设施,这使得故障影响范围远超其起源区域。
英国时间上午晚些时候,AWS确认"底层DNS问题已完全缓解"。公司表示服务已恢复,但警告称随着系统稳定,部分客户可能仍会遭遇响应变慢的情况。AWS状态页面随后显示,EC2实例启动和数据库连接等核心功能正恢复正常。
除Snapchat、《堡垒之夜》和Signal外,此次中断还影响了Venmo、Robinhood和Coinbase等金融工具,Slack和Airtable等生产力应用,甚至麦当劳等快餐应用。
非首次发生的重大中断
这并非AWS问题首次导致影响全球大型企业的服务中断。2017年3月,据Hackread.com报道,AWS同一弗吉尼亚设施的技术问题曾使多个流行网站离线数小时。受影响方包括RunKeeper、Medium、Trello、Imgur、Giphy、SoundCloud、Quora、Business Insider、Coursera、Time Inc.等众多企业。
AWS发布最终更新时,多数服务已恢复正常,用户报告开始减少。公司尚未提供事件原因的完整技术细节,但表示将继续调查以防止复发。目前所有系统均已恢复在线运行。
专家谈数字基础设施依赖性
Freeth律所数据保护法律专家Mona Schroedel评论称,此次事件凸显现代生活对数字基础设施的高度依赖。"这并非我们近期经历的首起重大中断。就在一年多前,微软的服务中断曾导致机场和银行陷入瘫痪。现代生活,尤其是疫情后,已严重依赖虚拟系统。不久前大多数人还携带现金,能够轻松应对银行问题而不受重大影响。如今无现金支付成为常态,我们中很少有人会随身携带现金。"
她补充道,法律和监管框架未能跟上数字服务的快速扩张。"正如该领域的法律一样,实际审查和调整的需求无法跟上技术进步的速度。这使得当少数大型提供商面临技术故障或针对性事件时,终端用户容易受到负面影响。我们需要采取更多措施确保(a)关键服务具备备份系统,(b)对我们现代便捷虚拟生活的实际方面进行定期审查和监管。"
参考来源:
Major AWS Outage Now Mitigated: Global Impact and What Happened
本文为 独立观点,未经授权禁止转载。
如需授权、对文章有疑问或需删除稿件,请联系 FreeBuf
客服小蜜蜂(微信:freebee1024)