当前位置:网站首页 > 新闻 > 事故调查分析:2020 年 4 月 29 日和 5 月 9 日

事故调查分析:2020 年 4 月 29 日和 5 月 9 日

2025-10-15 18:29:29 |
过去两周,Coinbase 经历了两次服务中断,影响了我们为客户提供服务的能力。对于这两次事件,我们都迅速找到了根本原因并恢复了服务。然而,我们想更深入地了解问题所在以及我们未来的应对措施。我们致力于... 更多详细资讯请看下面正文


过去两周,Coinbase 经历了两次服务中断,影响了我们为客户提供服务的能力。对于这两次事件,我们都迅速找到了根本原因并恢复了服务。然而,我们想更深入地了解问题所在以及我们未来的应对措施。我们致力于将 Coinbase 打造为最便捷、最值得信赖的加密货币交易平台。

4/29事件

2020年4月29日太平洋夏令时间10:28至10:40.支持coinbase.com及我们移动应用程序的API对全球客户不可用。随后,服务稳定了30分钟,随后从太平洋夏令时间11:12至12:11进入不稳定期,在此期间,我们经历了20分钟的完全不可用和40分钟的性能下降,错误率也随之上升。太平洋夏令时间12:11.服务全面恢复,所有系统恢复正常运行。

此问题影响了客户访问 Coinbase 和 Coinbase Pro 用户界面的功能,但并未影响通过我们交易所 API 进行的交易或底层市场的健康状况。此问题是由两个独立但相关的根本原因造成并持续存在的。

0*qdSnVFGalSElDHjz

4 月 29 日期间 API 错误率 (%)(所有时间均为太平洋夏令时间)

最初的事件发生在太平洋夏令时间 17:28.原因是我们其中一个主数据库的连接速率突然增加。连接速率的增加是由于我们的系统在进行扩展以应对当时激增的流量时,部署创建了新的连接。当连接数激增时,数据库的主机操作系统开始拒绝新的 TCP 连接,这导致数据库的路由层操作性能下降并重启。当这种情况发生时,我们的监控系统开始报告所有涉及受影响数据库的 API 请求的错误率上升。

为了应对路由层故障以及相应的操作故障,我们的系统尝试重新连接以重试这些操作。不幸的是,由于关闭连接处理不当以及新连接创建时缺乏对时序抖动的支持,我们的系统“连接风暴”袭击了数据库。这场连接风暴引发了我们在路由层其他成员上看到的相同故障,导致新连接无法建立。虽然初始数据库能够在太平洋夏令时间 10:40 恢复,但同样的故障模式也发生在其他三个独立的数据库实例上,造成了从太平洋夏令时间 11:12 到 12:11 的第二段不可用期。

为了应对此次故障,我们正在推出一系列改进。首先,我们正在更改数据库部署拓扑,以减少总体连接数,限制连接峰值,并分离数据库的路由进程和守护进程,以限制对主机资源的竞争。其次,我们正在解决驱动程序关闭连接逻辑的问题,并实施更好的抖动机制,以防止在发生此故障模式时出现连接风暴。最后,我们正在推出安全措施,以便将未来数据库故障的影响控制在尽可能小的请求子集内。

5/9事件

2020年5月9日太平洋夏令时间17:17至18:00.支持coinbase.com及我们移动应用程序的API错误率升高。错误率在太平洋夏令时间17:24达到峰值,随后逐渐下降,直至18:00问题完全解决。该问题影响了客户访问Coinbase和Coinbase Pro用户界面,但并未影响通过我们交易所API进行的交易或标的市场的健康发展。

0*KoMl55L3iE4cp8RK

5/9 期间的 API 错误率 (%)(所有时间均为 PDT)

太平洋夏令时间 17:18.除了市场波动导致流量增加外,我们的监控系统还检测到 API 的延迟和错误率上升,并向工程团队发出了警报。在收到警报后,工程团队发现,在处理 API 流量的应用程序实例上,所有传出的HTTP 请求的延迟都增加了。这体现在我们的监控中,表现为每个 API 请求在传出的 HTTP 请求中所占的时间百分比急剧增加。

0*odu6KD7fc9 zbZYC

5/9 期间每个请求所花费的时间百分比(所有时间均为太平洋夏令时间)

由于延迟增加,我们在尝试发送这些 HTTP 请求时发现超时导致错误率上升。由于负载均衡器终止了未通过健康检查的原本健康的应用程序实例,错误率上升的情况更加严重。健康检查失败是由于请求队列由于请求形状的变化而饱和所致。

经过进一步调查,我们发现延迟增加是由于用于处理这些 HTTP 请求的 DNS 查询的实例级速率限制造成的。随着错误率导致流量减少,我们降至速率限制以下,导致错误率逐渐下降。与此同时,我们推出了一项之前正在进行的变更,添加了每个实例的 DNS 缓存,使全局 DNS 查询恢复到不受速率限制的范围,并确保故障模式不会再次出现。

除了解决此次事件的具体根本原因外,我们还在进行多项改进,以提高未来类似故障的可用性。首先,我们正在调整健康检查逻辑,以确保饱和状态但其他方面健康的应用程序实例不会被自动从负载均衡器中移除。其次,尽管此次事件影响了所有 HTTP 请求,但我们正在推出改进的工具,以确保我们能够快速识别并关闭导致延迟的错误外部服务。最后,与 4 月 29 日的事件一样,我们正在推出安全措施,以便将未来 HTTP 故障的影响控制在尽可能小的请求子集内。

展望未来

这两起事件都影响了我们在关键时刻为 Coinbase 客户提供服务的能力。我们公司的价值观之一就是持续学习,我们致力于从这些事件中汲取经验教训,以改进 Coinbase。如果您有兴趣解决具有挑战性的可用性问题并构建加密经济的未来,欢迎加入我们!

版权说明:本文章来源于网络信息 ,不作为本网站提供的投资理财建议或其他任何类型的建议。 投资有风险,入市须谨慎。

你可能感兴趣的文章

新闻快讯

  • 什么是 Axie Infinity?

    2025-11-08 14:20:55
    定义Axie Infinity是一款融合了加密货币和宝可梦元素的游戏,玩家在游戏中培育、对战和交易名为 Axie 的可爱 NFT 宠物。游戏包含两种原生加密货币: Axie Infinity Shar...
  • 什么是比特币减半?

    2025-11-07 09:33:08
    什么是比特币减半?文章有点长,请谨慎阅读下一次比特币减半预计将于 2024 年 4 月 16 日发生,挖矿奖励将降至每个区块 3.125 BTC。比特币减半大约每四年发生一次,旨在将新比特币的创建速度...
  • 什么是“工作量证明”或“权益证明”?

    2025-11-07 09:30:54
    定义“工作量证明”(PoW)和“权益证明”(PoS)是加密货币用于验证新交易、将其添加到区块链以及创建新代币的两种主要共识机制。工作量证明最初由比特币提出,它通过挖矿来实现这些目标。权益证明(被 Ca...
  • 付费 API:利用 x402 实现代理互联网的货币化

    2025-11-06 08:30:57
    作者:Dank Kim、Sid Coelho-Prabhu 和 Erik Reppel简而言之,现在任何 API 都可以轻松开始盈利,无需任何新的技术栈、计费系统或加密货币专业知识。x402 可与任何...
  • 什么是以太坊虚拟机(EVM)?

    2025-11-05 09:42:48
    以太坊虚拟机(EVM)是一个去中心化的计算引擎,用于在以太坊网络上执行智能合约。EVM 并非以太坊独有;其他区块链,如Polygon、Arbitrum和Avalanche也使用 EVM 。EVM 在维...
  • 查看更多