“
第一期 启迪云计算解决方案架构师 蒋运龙
最近各大云服务器均出现重大故障,这边谷歌、阿里云bug功能导致故障不断,那边腾讯云称运营商光缆中断引发了异常宕机故障。
2018.06
阿里云大规模故障,一开始网传故障原因是光纤被挖断导致,后来阿里云在官网、微博发布了故障公告确认是运维导致故障。
腾讯云官网出现大范围故障,各地无法登陆账户,同样网传故障原因是光纤被挖断导致,后来经过官方确认为腾讯云的广州电信运营商物理光缆被挖断了。
2018.07
企业如何选择合适的云
先不讨论运营商为什么第一时间背锅的原因及为什么国内外顶级的互联网公司都干不过蓝翔技校的挖掘机、顶不住传统行业一铲子。
从历史数据来看,挖断光纤导致服务中断的事件时有发生。纵观谷歌、阿里云及腾讯云的技术分享,不难发现各种容灾、双活、主备等技术的应用,国家的行业要求也明确提出了多运营商、多线路之间的物理距离要求。难道每次挖掘都是多地同时施工并且同时挖断光纤?
突如其来的事故,导致云公司和用户都有不同程度的损失,这也使得企业对云平台安全性的重视程度提升到一个新高度,业务的连续性越来越受到重视,私有云、混合云甚至是多云的意义和价值亦越来越得到认知。
选择公有云,除了服务质量、价格之外,是否会被单一厂商锁定是很多企业的重要关切点。
选择的云厂商及其关联公司是否会和企业在业务上直接竞争?云厂商所承诺的价格优惠是否在明年还继续有效?是否不同的云厂商的产品和服务可以更好地匹配企业内不同的业务?
这些因素让企业在选择公有云时非常谨慎。选择多朵公有云甚至是多朵公有云与多个私有云相结合的多云模式已经是很多企业的重要考虑项。
01
来自RightScale的调查显示有80%以上企业制定了多云战略计划。期中由多套公有云、私有云形成的混合云占比50%以上,仅采用多朵公有云就占比20以上,相信这个比例在未来还会持续升高。
今年六月初在深圳举办的ThoughtWorks 技术雷达峰会上,Multi-Cloud (多云)是个很重要的技术话题。
“ 组织们越来越习惯POLYCLOUD策略,不再把所有业务全“押在”一个服务供应商身上,他们会根据自己的策略,把不同种类的业务分配给不同的供应商。其中一些组织采用了最佳的解决方案,比方说:把标准服务部署在AWS上,把机器学习和面向数据的应用部署在Google,微软Windows应用则部署在Azure上。对于部分组织而言,这是一个关乎文化和商业的抉择。比如,零售行业往往不愿意把数据放在Amazon,他们会根据数据的不同分配给不同的供应商。“云不可知论”策略追求的是跨供应商的可移植性,这个代价很大,并且会导致为迎合所有要求刻意而为的决策。与之不同,Polycloud 策略更加注重选择每个供应商所提供的最好服务。”
—摘自 ThoughtWorks 技术雷达VOL.18
有人认为云应该是一个很复杂的东西,因为它要涉及计算、存储、网络等等。也有人认为云是很简单的东西,因为它就是一些开源组件的集合。但不可否认云是人类智慧的奇迹与伟大变革。像所有被广泛采用的人类发明一样,云也将增加专业化和多样化。
启迪云建设思路
云真正能够用起来,到底还有多长的路要走呢?启迪云有如下观点:
技术层面
OpenStack从2010发展到现在,已经得到越来越多企业认可,基本成为了云计算的IaaS事实标准。OpenStack架构已经在互联网、金融、电信、视频、制造、能源能领域得到大量的使用,绝大多数数据中心向云计算的迈进就是在向开放性的的OpenStack迈进。
经过数年的Swarm、Messos、Kubernetes三国杀,目前K8S+Docker也基本成了PaaS的事实标准。可以看到国内外的用户甚至是从业者纷纷由原来的架构转向K8S的怀抱。
云使用侧层面
存储方面—用户环境中可能中会有多个存储资源池。
例如:针对数据库或核心业务系统的FC SAN存储池,针对非结构化数据(如:合同扫描件、产品销售时的双录资料(录音、录像)等)的分布式存储,已经针对开发测试、大数据平台的服务器本地磁盘,并且在各大类的存储池中,还要按盘的类型进行细分小的资源池。
例如:SSD的铂金资源池,SAS盘的黄金资源池,SATA盘的银级资源池,这些都是针对不同应用的容量、IOPS等需求提供不同的应对方案。
如果直接简单的将SDS(软件定义存储)的概念往存储上套,我认为很狭隘。 而是需要契合用户的真正需求:能够将存储资源池、分级分类,按不同的数据类型、应用需求来提供不同级别SLA的服务。尤其是分布式存储技术复杂,技术迭代较快,如果优化不好(如:水位和IOPS的分配),会给管理员带来灾难,如果出现故障恢复,用户的系统管理员通常都搞不定的。启迪云的存储功能基于开源架构进行二次开发,在稳定性上进行了强化;而且根据多年的调教经验,水位和IOPS控制较好。
网络方面—用户对于网络的需求直接决定了云平台的部署架构,如对于像政务一样内外网物理隔离的,可以部署两套云平台来满足需求,如用户的安全要求逻辑隔离,管理网能通/数据网隔离,可以部署一套云平台然后进行逻辑切分。
启迪云对交换机的支持,SDN不绑定特定型号、品牌的交换机,并且通过云自定义浮动IP(EIP)或网络出口的QoS,即由云来根据需求自动置备操作系统给交换机,并且策略自动下发。对于目前公有云资源的使用,目前很多企业用户是作为访问波峰时的一个补充,或者作为非核心业务前置。也有企业客户利用公有云的带宽和机房分布优势来补充自身数据中心分布和带宽的不足,通过专线或广域网打通私有云和公有云。
计算方面—虚拟机是必不可少的。但对于AI、机器学习、大数据等场景,物理机又是主要的选择项,在这一块的资源要不要由云来管,其实业界一直有不同的声音的问题。
启迪云认为应该由云来做统一管理,因为要由云做统一的资源调度、电源管理、监控;当然,对于云平台纳管物理机,物理机的操作系统必须是云的控制节点传过去的,或者能够自动推送Agent,无感知的安装,实现统一的资源调度、电源管理、监控。
监控方面—云厂商做监控,大部分是基于云平台自身的监控,很难从一个Dashboard看到所有用户关心的点(尤其是应用的监控)
启迪云认为比较好的一种做法是集成用户现有的监控系统,云平台吐数据到指定地方也好,虚拟机或物理机装Agent也罢,还是按照之前的套路来做,云平台负责提交所有平台相关的监控内容给用户现有监控系统进行集中展示。
基础架构方面—未来的部署架构一定是物理机、虚拟机、容器的混合部署。
尤其是目前Windows的原生容器也已经长足发展,但是不需要注意的是很多Windows命令在容器环境不能运行,Windows的Base Image相对于Linux Image来说超级大(10GB+),Windows容器网络也是目前比较棘手的一个问题。
多云环境 | 案例分析
在企业混合云和多云环境下应用交付需求的技术架构和案例分享。有几个多云应用交付场景也缺失是今天企业在落地多云方案所需求的,如:
业务A交付到私有云,业务B交付到XX云;
业务A的前端交付到多个不同的公有云而其数据交付到私有云;
业务A的不同副本分别交付到私有云和XX云。
当市场上具备越来越多成熟的多云技术和产品后,多套公有云+私有云方案将会越来越多被企业所采用。毕竟在今天多云环境下应用的交付和管理依旧是个难题。