• 发文
  • 评论
  • 微博
  • 空间
  • 微信

腾讯云4月8日事故原因曝光:因云API服务异常,导致中断时间近87分钟,1957个客户报障

奇偶派tech 2024-04-15 16:03 发布于湖北 发文

如何提升系统韧性,强化保护措施,成为云厂商们都需要思考的问题 

4月14日,腾讯云就4月8日发生的故障事件进行了详细的复盘和情况说明。 

在4月8日下午3点23分,腾讯云团队接收到告警信息,显示云API服务出现异常。不久之后,腾讯云的工单系统、售后服务群组以及微博等社交平台上出现了大量用户反馈,表示无法登录腾讯云控制台。经过详细的问题定位,腾讯云团队发现这一问题正是由于云API服务异常导致的。 

云API是云上统一的开放接口集合,客户可以通过API以编程方式管理和操控云端资源,云控制台通过组合云API提供交互式的网页功能。 

而事故根本原因在于腾讯云版本变更过程中,没有有效执行沙箱验证和预案演练,暴露了在变更管理上的不足,最终导致云API服务新版本向前兼容性考虑不够和配置数据灰度机制不足的问题。 

此次云API服务异常不仅影响了用户的登录,还导致部分依赖该服务的产品功能失效,包括云函数、文字识别、微服务平台、音频内容安全以及验证码等公有云服务。 

故障发生后,腾讯云方面表示,依赖云API提供产品能力的部分公有云服务,也因为云API的异常出现了无法使用的情况,比如云函数、文字识别、微服务平台、音频内容安全、验证码等。此次故障一共持续了近87分钟,期间共有1957个客户报障。 

腾讯云方面称,这次故障中客户已经配置好的服务器等IaaS资源,包括已经部署运行的业务,没有受到云API异常的影响。其他以非云API方式提供服务的PaaS和SaaS服务,处于正常服务的状态。 

但是,使用API提供的服务类产品(需要“酒店前台服务“)有不同程度的影响,比如腾讯云存储服务调用当天有明显下滑。期间售后团队协助部分客户做了业务容灾预案的实施,将受影响服务做调度以快速恢复客户的业务服务。 

腾讯云方面表示将从提升系统韧性、强化变更管理与保护措施、增强故障响应与沟通能力三方面进行改进。

byOFweek

声明:本文为OFweek维科号作者发布,不代表OFweek维科号立场。如有侵权或其他问题,请及时联系我们举报。
2
评论

评论

    相关阅读

    暂无数据

    奇偶派tech

    讲述商业故事,厘清商业逻辑,探索...

    举报文章问题

    ×
    • 营销广告
    • 重复、旧闻
    • 格式问题
    • 低俗
    • 标题夸张
    • 与事实不符
    • 疑似抄袭
    • 我有话要说
    确定 取消

    举报评论问题

    ×
    • 淫秽色情
    • 营销广告
    • 恶意攻击谩骂
    • 我要吐槽
    确定 取消

    用户登录×

    请输入用户名/手机/邮箱

    请输入密码