2024.4.8号,腾讯云发生重大故障,控制台完全不可用,腾讯云是中国TOP公有云平台,在全网引起了极大的舆论。对腾讯云服务口碑造成了巨大的负面影响。
腾讯云4.14号发布了故障细节复盘,本文是腾讯云故障复盘总结:
故障发生情况
-
时间:2024年4月8日15点23分。
-
初步发现:腾讯云团队通过告警系统监测到云API服务异常,并迅速收到大量客户反馈无法登录腾讯云控制台。
-
影响范围:云API异常导致部分公有云服务无法使用,如云函数、文字识别、微服务平台等。
-
持续时间:故障持续了约87分钟。
-
客户影响:腾讯云全网控制台不可用,共有1957个客户报障。
故障影响分析
-
数据面与控制面:数据面承载客户业务,控制面负责操作云产品。本次故障主要影响了控制面。
-
类比说明:将云服务比作酒店,控制台相当于酒店前台,而IaaS资源则相当于已入住的客房,故障发生时,客房(已部署的业务)不受影响。
-
流量趋势:除了API服务类产品受到影响外,全产品进出流量趋势没有明显变化。
问题复盘
-
故障发现与初步响应(15:23 – 15:47):监测到故障后,团队立即执行服务恢复并排查原因。
-
问题定位与修复方案设计(15:57 – 16:25):确定故障根因是配置数据错误,并设计数据修复方案。
-
地域恢复与流量调度(16:25 – 16:50):上海地域API服务恢复,控制台流量剧增并扩容。
-
业务稳定与持续观察(16:50 – 17:45):业务稳定运行,控制台服务全部恢复,持续观察确认问题解决。
故障原因
-
版本兼容性与灰度机制:新版本API接口协议变化导致旧版本数据处理异常,灰度机制不足导致异常数据快速扩散。
改进措施
-
强化变更管理与保护措施:完善自动化测试用例库,实施灰度发布策略,引入异常自动熔断机制。
-
增强故障响应与沟通能力:升级故障处理流程,清晰阐述故障信息,优化腾讯云健康状态看板。
原文始发于微信公众号(yangyidba):腾讯云4.8号重大故障复盘,核心原因是没有做好灰度测试
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/275626.html