• 发文
  • 评论
  • 微博
  • 空间
  • 微信

阿里巴巴GOC技术实践经验独家曝光

云报 2018-02-14 15:25 发文

在过去半年中,作为新零售的典型代表——盒马鲜生飞速发展,比如:

2017年9月,盒马鲜生五城十店同开,“盒区房”成为新零售行业新名词;

2017年10月,盒马鲜生上线SOS服务,实现30分钟内必达;

2017年11月,盒马鲜生推出“日日鲜”,蔬菜、肉类、牛奶等不隔夜;

2017年12月,盒马鲜生首家便利店F2正式开业;

2018年1月,盒马鲜生推出多品类7×24小时配送服务。


新零售的高效稳定运行有什么秘诀吗?


为保证盒马鲜生业务的稳定性,阿里巴巴GOC(Global Operations Center,阿里全球运行指挥中心)凭借丰富的运维保障经验,结合其业务的实际情况,在一个月内通过“运行无间”协助业务团队完成多项稳定性任务的优化升级,保障盒马鲜生半年内20多家门店在业务快速发展的同时,其业务系统始终稳定运行。

基于此,GOC新零售运维保障树立了新的标杆。

如何做新零售的运维保障?目前阶段,就是全生命周期新零售场景故障的管控,形成体系闭环,实现快速解决、持续改进,并支撑产品的有效落地。大致可以分为以下三个层面:

第一,线下门店故障的快速感知与恢复。新零售的线下门店强调用户体验,GOC通过业务监控、一键反馈、应急响应、快速恢复等方式迅速消除故障对于业务的影响,持续保障优质的可续服务体验。

第二,智能硬件故障的高效有序处理及复盘。新零售的智能硬件追求创新,GOC保障智能硬件在新业务场景下快速迭代创新的同时,杜绝故障重复发生。

第三,供应链故障的有效防范,即通过稳定性数据分析、仓储配送链路稳定性建设,提前预判仓储配送负荷高点,防止所有能预防的故障。

具体来说,按照阿里的运维保障域体系,可以分为以下七个部分:

1.故障防范

2.故障感知

3.应急响应

4.快速恢复

5.原因定位

6.故障复盘

7.演练验收

下面,将详细介绍这七部分内容,具体来看如何保障新零售业务的安全稳定运行。

第一,故障防范。

在新零售故障防范阶段,GOC重点关注三方面问题:一是数据运营,二是平台管控,三是日常演练。

首先,看看新零售的稳定性数据运营。稳定性数据主要是围绕业务连续性,一般来说,包含故障情况、处理时长、监控占比、改进落地等维度,然后分析实际数据,出具规范的稳定性分析报告。但具体到新零售业务时,区域门店、智能硬件、采配物流等功能的流畅体验变得尤为重要,因此我们也加大了对其稳定性情况地分析,比如统计故障具体影响多少门店;门店营业期间的故障耗时及占比;故障中多少比例是门店投诉上来的,还是由监控先发现的。

其次,新零售平台的管控。核心产品是ChangeFree,它是阿里巴巴基于数据运营实现变更管控的平台。当新零售业务的故障刚出现时,线下用户刚刚有感知,通过快速回滚就可以进行故障恢复。

这中间有两个关键点:一是,看变更能否发到线上,期间会有一系列的管控,可以通过严格的变更红线来衡量线上变更;二是,看变更到线上后是否符合预期,这是非常关键的。符合预期不是说是否符合变更人的预期,而是指它是否符合不影响线上业务的预期。这是客户最在意的,也是GOC最关注的。比如阿里巴巴中台的某技术团队做了一个非核心的边缘变更,但这个变更通过几层链路的传导,可能会传到新零售交易的核心链路,那么整个线下交易就会被阻塞。在出现这种情况时,如果没有一个好的平台作为支撑,用户很难找到引发这个故障的具体变更。而GOC通过大量的实际案例,以及算法,可以轻松解决这类问题。

最后,日常演练很重要,要把它当作日常的事情来做。特别是对于新零售业务来说,日常演练必不可少。

第二,故障感知。

对于故障感知,GOC有三点心得。

首先是新零售业务监控。业务监控是监控的一种,它与故障等级定义相关联,在保障新零售业务的稳定运行方面特别有用。例如,故障等级定义为当新零售交易量下跌超过5%达到重大业务故障级别,那么一旦发生新零售业务某处量值异常下跌10%,全链路上某些系统稳定性偏低的团队就会比较紧张,怕是自己的原因导致的,会采取措施尽快响应并恢复,否则时间久了,就会发酵成更大的问题。现在,大家都已认同业务监控的重要性,通过大家公认的业务监控,很多很复杂的故障,也能有效集中力量去快速恢复。

其次是全维度监控,即从各个维度,包括在IDC、网络、应用、系统和业务等层面进行监控。业务层面还可以再细分,不是所有的接口都是很“致命”的接口,有些接口的重要性会降级。比如,“双十一”时,会把购物车中是否已收货的状态接口降级,用户暂时不可见,但是不会影响下单和支付。

最后是智能监控,其核心是为了解决报警不准的问题。一般来说,新零售业务刚开始的时候,业务量不太大,但很关键,会出现经常抖动的情况。GOC主要通过智能监控来解决频繁报警的问题,即通过算法计算预测业务的基本趋势形成一条业务基线,与业务实际值进行比较,报警可以只设一个相对于预测基线的水位有没有下跌即可,不仅方便,而且准确。

第三,应急响应。

在新零售运维保障上,GOC做了非常多具有挑战性的事情,比如7×24小时应急。新零售业务通常不会7×24小时营业,但是在非营业期间,往往会有更多的生产环境变更、演练等操作,7×24小时应急可以更好地保障新零售的业务连续性。

现在,GOC已经在美国的硅谷,以及北京和杭州实现7×24小时应急响应。未来,GOC希望在中东或者欧洲也能拥有一支具有快速响应能力的团队,真正实现日出而作、日落而息的7×24小时应急服务。

第四,快速恢复。

对于新零售业务来说,快速恢复是最重要的事情。不管是故障感知,还是应急响应,其最终目标都是要快速恢复。往往快速恢复还有一个误区:不是故障恢复了,业务就自然恢复了,有时故障可以先不恢复,而业务先恢复了。

这其中有一个关键点,就是隔离,隔离后就可以让用户不受影响。因此GOC推出了“一键恢复”,非常方便,在很多场景下,应急响应同学轻松一键,便能快速恢复故障。

第五,故障定位。

故障定位包含初因定位和根因定位。这是一对矛盾。

初因定位对于我们来讲,最浅层的故障原因就两种可能:要么是容量不够,要么就是有变更。这里的变更是指非常广义的变更。阿里巴巴对于变更的定义是集团通行的,即生产环境中的一切操作都属于变更,比如从跳板机登录生产机的操作也属于变更。

GOC对于变更的定义十分严格,很多开发人员并不理解。曾经发生过这样的案例:较早前出现过一次影响面较大的复杂故障,详查原因,原来是有人在线上改了一台机器JVM的参数,产生了连锁反应,影响到上下游很多应用。因此,在实际工作中要“敬畏”生产环境,严格把控。

第六,故障复盘。

故障复盘有两个方面:总结沉淀和措施改进。ITIL中也有故障复盘,就是把导致这个故障的前因后果按照时间序列列出来,并且列出所有故障改进的Action。

GOC会关注故障改进的及时完成率,而不是看完成率。为一个故障推出改进措施时,这个改进措施会影响故障的再次发生,如果及时将故障消除,那么这个故障再发生的概率就会降低很多。如果不能及时消除故障,那么第二天该故障很有可能再次发生。这个风险必须及时消除。新零售业务的很多团队,在每次故障之后能够及时核对和检查改进措施是否已完成,及时发现线上的风险,并将其消灭。

第七,演练验收。

演练验收有一个悖论,每次运营人员问开发人员,优化措施是否完备,得到的答复都是没问题,但故障仍旧再次发生。而开发人员对此的解释是,这是意外情况。

解决这一问题,应该通过演练进行验收,跟进具体改进措施的结果是不是达到了预期。相比于淘宝、天猫,阿里巴巴的新零售业务虽然开展不久,但演练已经做了很多次。

演练验收的一个核心点是,要具备隔离环境的能力,以及完善的演练机制,切实将线上的Action尽快落地到演练中,变成日常性的工作,只有反复演练,才能在故障发生时做到心里有底。通过演练系统,可以很快地落地,并且形成闭环,这对新零售业务团队是非常宝贵的经验。



新零售的运维保障还在路上

从电子商务起家的阿里巴巴深知业务稳定运行的重要性。

新零售业务在发展的过程中,往往面临问题渠道多,恢复速度慢,系统链路长,大量新型智能硬件广泛使用的挑战。但是GOC确实是一支善于打胜仗的队伍,借助运行无间最佳实践,仅用一个月时间,就将新零售的代表盒马鲜生的业务稳定性水平提升到阿里巴巴集团的平均水平,并且经受住了“9·28”“双11”“双12”等重大活动的考验。

GOC在阿里巴巴有超过10年的运维保障经验,曾协助阿里经济体的各个业务,如B2B、淘宝、支付宝、天猫、手淘、阿里云、钉钉、高德、优酷、盒马鲜生等实现快速增长。GOC一直专注于运维保障领域,积累了数万起故障管理经验,以及超过百万的工单管理经验,在开发行业运维保障解决方案方面处于业内领先地位。

从底层的产品支撑,包括故障管理平台、应急响应平台、变更管理平台、容灾演练平台、运行分析平台,到涵盖问题收口、监控发现、核心链路梳理、硬件业务监控、工单管理、快速定位、一键恢复等众多功能在内的运行无间解决方案,GOC靠着对稳定性问题的深刻洞察,以及技术创新和解决实际问题的能力,使业务在基于实体门店和智能化物流、精准化运营的新零售道路上走得更加快速、稳健。

探索新零售运维保障解决方案的最佳实践,GOC仍在路上。

声明:本文为OFweek维科号作者发布,不代表OFweek维科号立场。如有侵权或其他问题,请及时联系我们举报。
2
评论

评论

    相关阅读

    暂无数据

    云报

    关注云计算领域的大事小情。...

    举报文章问题

    ×
    • 营销广告
    • 重复、旧闻
    • 格式问题
    • 低俗
    • 标题夸张
    • 与事实不符
    • 疑似抄袭
    • 我有话要说
    确定 取消

    举报评论问题

    ×
    • 淫秽色情
    • 营销广告
    • 恶意攻击谩骂
    • 我要吐槽
    确定 取消

    用户登录×

    请输入用户名/手机/邮箱

    请输入密码