2025年6月13日,AWS、Google Cloud 和 Cloudflare 几乎同时遭遇服务中断,引发全球范围的社交媒体热议。“这三家公司管理着近90%的互联网活动和应用程序,怎么可能同时宕机?”一位软件工程师的质疑,迅速成为行业共鸣。

这次事件并非局部问题。谷歌云明确表示,这是一场全球性影响的事故。据其状态页通报,由于身份和访问管理服务(IAM)出现问题,GCP 多项产品受到波及,涵盖 Gmail、Google Docs、Drive、Meet、Voice 等关键服务,Google Workspace 亦不同程度受影响。这意味着,不仅是云端应用,连企业协作与通信基础设施也遭遇严重阻断。与此同时,并未有任何关于 DNS 或 BGP 的异常报告,互联网主干运行正常,指向此次问题源自云平台控制层的系统性故障。

 
 

AWS 和 Cloudflare:状态“正常”,但用户“感知异常”

 
AWS 在其健康仪表盘上并未显示异常,但用户在美国东部地区普遍报告出现访问缓慢、服务不可用等问题。AWS 回应称服务整体正常,强调官方状态页面是“唯一可信信息来源”。Cloudflare 则在声明中承认多个服务出现间歇性故障,包括 Access、WARP、Workers KV、Stream、AI Gateway 等。公司指出,受影响服务在缓存重试期间仍可能出现间歇性错误,团队正在评估并持续修复。

到了美国东部时间下午5点,谷歌表示已在 us-central1 和其他美国区域实施缓解措施,并开始观察到恢复迹象,预计服务将在一小时内全面回归。

 

去中心化的云世界,依然有“单点风险”

 
从市场与用户侧的视角看,这次事件揭示了一个耐人寻味的事实:尽管企业早已进入多云架构与边缘计算时代,但关键控制节点的集中性依赖仍旧存在。当 IAM 或平台控制层服务中断,现代云原生应用的“自恢复能力”将瞬间失效。更令人担忧的是,多个云厂商几乎同时出问题,难免引发关于“底层依赖是否存在共震链条”的疑问。

在企业纷纷追求 DevOps、自主可观测与 AI Ops 的当下,“只信官方仪表板”显然已不能满足运维团队对高频变动、异地可用性与真实用户体验的感知需求。

 

 

在不可控的“云波动”中,听云拨测如何提供确定性的答案?

 

从6月13日的集体宕机事件可以看出,无论是谷歌云IAM系统的失效,还是Cloudflare边缘服务的间歇性中断,又或是AWS状态页“无事发生”背后用户真实感知的反常,都指向了一个核心问题——企业无法通过云厂商的自有状态视角,获取真正的服务可用性状况。

在这类突发事件中,基调听云Network 拨测产品体系提供了一套“模拟用户真实访问路径 + 多云环境主动感知”的解决方案,让企业在混乱之中获得真正的“外部视角”和“用户视角”。

 

我们通过全球200+运营商/地域节点,在美国、欧洲、亚太等区域持续拨测多家云平台和业务应用,可有效完成以下任务:

 

  • 发现异常更早:

    在官方状态页更新前,通过 API 接口、登录链路、CDN 加速路径的探测,快速识别服务是否“功能性不可用”;

  • 明确是“你挂了”,还是“云挂了”:

    支持按地区/链路分布式对比,清晰判断问题是否出在自身业务系统、目标云平台,还是某段网络路径;

  • 支持多协议多场景监控:

    不仅支持 HTTP、Ping、DNS、TCP 等基础协议,还可模拟用户交互(如登录、上传、支付等业务关键路径);

  • 实时热力图与告警联动:

    通过拨测地图与自定义 SLA 阈值策略,实时展示全球服务抖动态势,并联动 APM/RUM 产品完成故障定位;

  • 支持多云/跨云平台统一监控视图:

    帮助企业建立 AWS/GCP/Cloudflare/Azure 等平台在各地的质量对比基线,支撑流量切换或多云容灾策略。

简而言之,在官方“报喜不报忧”的世界里,基调听云拨测可以做企业真正的“预警哨兵”,提前感知风险,快速做出决策,为全球业务连续性提供保障。

 

预告:基调听云即将推出针对手机厂商的全球用户体验相关分析报告,以真实拨测数据揭示云厂商服务质量波动,敬请关注。

 

推荐阅读