彩宝网

  • <tr id='o0bXpk'><strong id='o0bXpk'></strong><small id='o0bXpk'></small><button id='o0bXpk'></button><li id='o0bXpk'><noscript id='o0bXpk'><big id='o0bXpk'></big><dt id='o0bXpk'></dt></noscript></li></tr><ol id='o0bXpk'><option id='o0bXpk'><table id='o0bXpk'><blockquote id='o0bXpk'><tbody id='o0bXpk'></tbody></blockquote></table></option></ol><u id='o0bXpk'></u><kbd id='o0bXpk'><kbd id='o0bXpk'></kbd></kbd>

    <code id='o0bXpk'><strong id='o0bXpk'></strong></code>

    <fieldset id='o0bXpk'></fieldset>
          <span id='o0bXpk'></span>

              <ins id='o0bXpk'></ins>
              <acronym id='o0bXpk'><em id='o0bXpk'></em><td id='o0bXpk'><div id='o0bXpk'></div></td></acronym><address id='o0bXpk'><big id='o0bXpk'><big id='o0bXpk'></big><legend id='o0bXpk'></legend></big></address>

              <i id='o0bXpk'><div id='o0bXpk'><ins id='o0bXpk'></ins></div></i>
              <i id='o0bXpk'></i>
            1. <dl id='o0bXpk'></dl>
              1. <blockquote id='o0bXpk'><q id='o0bXpk'><noscript id='o0bXpk'></noscript><dt id='o0bXpk'></dt></q></blockquote><noframes id='o0bXpk'><i id='o0bXpk'></i>

                行业动态

                了解最新公司动态及行业资讯

                当前位置:首页>新闻中心>行业动态
                全部 4017 公司动态 881 行业动态 3136

                阿里经济体全面上云后,如何实现云上数十万台的ECS实例

                时间:2023-03-21   访问量:1872

                数据中心运维服务解决〓方案_服务々器运维_应急指挥系统运维服务

                作者|赵宇(巴??厘岛)

                编辑| 邓艳琴

                上云后还需要运维吗? 答案是:确实需要。

                上云确实简化了一部分运维工作。 比如传统IT中服务器〓的日常运维,都是由云服务商来完成的。 然而,随着云产品种类的不断丰富和规模的不『断扩大,如何高效运维云资源正逐渐成为运维人员面临的挑战。

                在12月21日结束的全球软件开发大会ぷ(北京站)中,在“弹性工程与运维”的话题中,阿里云中级技术专家赵宇(巴力)分享了阿里经济学的话题云运维话题。 这篇文章是基于如何在全身完全连接到︼云端后,实现云上数十万个ECS实例的手动运维的实践和经验。

                数据中心运维服务【解决方案_应急指挥系统运维服务_服务器运维

                阿里云中级技术专家赵宇》

                云运维的四大挑战

                随着云计算的普及和』发展,越来越多的企业选择上云。 近年来,阿里经济全面云化,大部分企业在云运维方面遇到的问题都是类似的。 总结起来,主要来自以下四个方面:

                服务器运维_应急指挥系统运维服务_数据中心运维服务解决方案

                首先是规模问题。 传统的 和脚本管理方法在资源较小时效果很好,但在规模较大时会失效。 几十台机器和几万台机器的人肉管理是完全不同的概念。 此外,云上资源的种类不断丰富,云上资源管理和运维的复杂度呈指数级增长。

                第二,安全问题。 阿里经济体◆上云涉及上百个业务方,涉及大量运维人员。 如何更好地进行权限控制、审核〒和审批,既复杂又极其重要。 数据和资源是公司的资产。 过多的运维权限会增加出错的风险,而过少的权限则会增加管理成本。 如何安全地使用云账号和资源,给管理者带来了极大的挑战。

                第三,效率问题。 随着资源规模的减小,如何高效管理运维,提升研』发人员的工作效率,也是云上运维必须考虑的问题。

                第四,成本问题。 业务方对成本优化有显着需求,包括资源使用者和财务人员。 希望能够提供不同维度的资源使用账单,为成本优化措施提供依据。

                数据中心运维服务解决方案_服务器运维_应急指挥系统运维服务

                我们知道,在传统方式下,有专门的资源运营团队负责资源的分配,而项目开发团队只负责资源的使用。 而且,随着业务规模的不断扩大,这些管理方式基本行不通。 这时候就需要通过去中心化的方式,将基本的配置管理权委托给业务项目组。 资源管理也带∏来了挑战。

                事实上,阿里经济体在云上的运维也经历了人肉运维到标准化、数据化、流程化运维的过程。 直至2016年,内部云资源管理平台“Zeus运维系统”雏形基本形成,实现了运维能力▲和体验的标准化、流程化、系统化。 随着资源管理规模越来越大,需求越来越多样化,Zeus运维系统第一时间◣接管了云上资源的管控工作。

                如何高效运维数十万台云服务器?

                目前,Zeus运维系统☉管理着阿里集团内数百个业务方的20多种云产品和资源,包括数十万个ECS实例。 除了为↓各业务方提供资源管理和运维能力外,还提供成本分析和修复能力。

                服务器运维_数据中心运维服务解决方案_应急指挥系统运维服务

                图:Zeus运维平台整体架构

                总体而言,Zeus运维平※台包括资源管理、系统运维、应用运维、监控管理和成本分析五个模块。 向下通过控制台为业务方提供服务,向上依托阿里云平台的云监控、资源编排、运维编排、标签体系、弹性伸缩、运维通道、财务系统管理日志服务和云服务器。 、网络、对象存储和许多其他云资源。

                帐户管理

                服务器运维_应急指挥系统运维服务_数据中心运维服务解决方案

                由于历史原因,Zeus运维平台支持独立大账户和卐管理账户两种账户模式并存。 独立大账号是Zeus系统运维平台在阿里云平台的服务账号。 管理着账号下业务方的大量资源。 大客户是我们推荐商务聚会的方式。 另外,由于是◇服务号,不允许业务方直接登录,业务方只能通过崩溃入口进行操作,降低了操作失误的↑风险。

                对于Ψ托管账户,是Zeus运维平台之前的存量运维账户。 为了帮助业务方更好的管理这个存量账户,Zeus运维平台提供账户托管服务。 此库存帐户被授予 Zeus 服务帐户。 管理员权限,由于托管账号的主子账号与群登录系统相连,运维人员可以直接登录进行管理。

                权限管理

                服务器运维_数据中心运维服务解决方案_应急指挥系统运维服务

                权限管理的主要思想是对应用进行分组,在应Ψ 用组中使用角色来区分权限,给人们分配相应的应用中的角色。

                我们分配应用所有者、开发、运维、安全等角色,给不同的角色赋予不同的权限。 Owner角色对申请下的资源管理具有上帝权限,同时负责审批工作; 开发人员负责日常的CI工作服务器运维,以及日常和发布前的环境测试工作; 运维人员具备在线发布审批能力; 安全人员主要负责系统运行维护工作,包括安全』扫描、扫码等安全工作。

                这里所有的云资源都通过标签挂载到对应的应用中。 通过这样的权限管理,管理员不仅可以在人的维度上看到授权的应用,还可以在应用的维度上看到授权的应用。 人们。

                资源分组

                应急指挥系统运维服务_数据中心运维服务解决方案_服务器运维

                Zeus运维系统基于阿里云的标签体系,支持按部门、环境等多维度对资源进行分类,Zeus运维系统为创建的资源打上相应的标签,方便业务方对资源的搜索和管理。 而运维,通过标签管理模式,可以很好的对杂乱无章的资源进行运维监控,甚至资源共享。

                对于托管账户,可以通过API进行操作。 系统解析离线云监控消息通知,使业务方的标签按照一定的规范设置,检测到数据变化后同步到Zeus和CMDB。

                资源交付

                服务器运维_应急指挥系统运维服务_数据中心运维服务解决方案

                对于资源交付来说,最大的挑战在于云上的资源是多地域、多类〖型部署的。 目前阿里云平台上有上百种资源。 如果每一个资源都通过写代码和API来操作,会很复杂,效率很低。 而且大部分业务场景都不是单字投放服务器运维,一个一个组合起来需要很长时间。 业务方通常需要场景化交付。 大多数业务场景都有一个标准化的通用范式,通过场景化交付可以极大地改善资源交付的形式⌒ 。

                对于这种场景化的投放需求,虽然一开始是通过脚本来操作,但是耗费了大量的精力和人力,效率也比较低。 为了应对各类资源分配场景,Zeus运维系统引入了机制进行资源编排,同样的思路是开源的。

                这里,Zeus运维系统使用了阿里云提供的ROS资源编排工具,引入集团审批流程,规范和简化资源部署。 Zeus运维系统为常用场景下的具体成本资源编排模板,通过模板按场景一键下发资源。 模板的形式大大提高了我们资源投放的效率,同时降低了新资源〗的接入门槛。

                运维管理

                数据中心运维服务解决方案_应急指挥系统运维服务_服务器运维

                从运维工种来看,运维也是分层的。 系统层面的补丁管理、安全扫描、安全防护等能力是平台的能力,不需要业务方关心。 Zeus运维系卐统体现了这种能力后,提供了统一的管理机制。

                在应用层,主要涉及资源运维和CI/CD。 Zeus运维系统应用资源运维,将常用运维动作体现为运维编排模板,使用阿里云运维编排服务进行工作流编排,支持业务方在定义运维操作的同时自定义运维操作常见运维场景。 这样运维过程就可以积累和复制。 此外,借助底层能力,支持定时、告警、事件触发运维操◤作,进一步提升运维操作效率。

                在CI/CD部分,Zeus运维系统主要使用阿里巴巴集团的Aone(云效)系统,支持基于软件包和镜像的批量发布,并允许自定义操作。

                监控报警

                应急指挥系统运维服务_数据中心运维服务解决方案_服务器运维

                从信息源的角度来看,告警和监控可以」分为资源监控、应用监控和服务监控。 级别越高,监控和报警的准确性越高,但通用性越◤低。 Zeus运维系统实现了多种告警处理方式。 通过与监控系统的集成,通过群组联系←人发送告警,如邮件、钉钉等信息; 针对人工场景,通过弹性伸缩█和运维编排对接,触发人工操作,实现人工运维工作,完成人工闭环。

                诊断与维修

                数据中心运维服务解决方案_应急指挥系统运维服务_服务器运维

                随着越来越多的资源和服务被使用,内部业ㄨ务方对ECS实例和网络问题的咨询越来越多。 为了提高解决问题的效率,运维平台还必须具备自证清白的能力。 因此,我们通过与阿里云内部ECS、网络、操作系统等团队的共建,借助历史数据生成了案例库和知识库,加□ 上专家经验,积累了诊断修复能力,一键诊断帮助业务方快速定位具体问题。 针对一些常见〖问题,将常用修复脚本可视化,提供一键修复能力。

                以ECS实例为例,通过实例监控定位问题根源。 同时,我们提供自动修复解决方案。 同时,我们还提供运维编排的一键式人工修复能力。 此过程支持快照●回滚。 通过该部分的建设,我们日常值班的服务量有了大幅度的提升。

                成本管理

                成本管理的目标主要是◥成本优化。 很多业务方申请了很多云服务器资源。 在使用过程中,他们发现有些机器虽然¤用得不多,或者CPU使用率比较低,但是却造成了资源的浪费。 Zeus运维系统通过成本管理的建设,将成本管理的意识传递给业务方,推动业务方完成成本优化。

                在成本管理的思路上,我们主要通√过事前的卡点和活动期间的分账能力来实现。 首先,在申请资源的时候,做一个审♀批检查点。 如果请求的资源大小很高,会给出一些提示询问资源申请是否合理。 费用分摊到相应的部门和项目组,定期向业务方提供账单。 财务部门对部门的账单进行分析,确定哪些▓项目是超出手段的,同时也鼓励业务方优化资源使用。 . 比如是否切换到弹性伸缩来优化成本,调整资源分配大小来优化等♂,促进业务端从成本的角度进行优化。

                总结

                应急指挥系统运维服务_数据中心运维服务解决方案_服务器运维

                本文主要介绍Zeus运维系统在阿里经济上云过程中如≡何高效管理云上资源的经验。 这里给遇到同样问题的运维人员一些参考。

                会议推荐

                2021年4月22-24日,QCon全球软件开发大会(广州站)再次恢复3天。 大会规模将在2000人左右,嘉宾阵容和话题关注度会越来越强。 目前,会议已确㊣定12个技术议题和73位演讲嘉宾。 会议内容将持续更新,感兴趣的伙伴〗敬请关注。

                扫描右侧二维码或点击【阅读原文】,直接进入大会官网。 更多问题请咨询】客户总监环:(同陌陌)

                数据中心运维服务解决方案_应急指挥系统运维服务_服务器运维

                上一篇:一篇文章解答ITSS服务项目经理证书相关的所有问题,文章中会

                下一篇:IBM全球信息科@ 技服务部大中华区总经理谢少毅:引领数字化时代的IT领袖

                发表评论:

                评论记录:

                未查询到任何数据!

                在线咨询

                点击这里给我发消★息 售前咨询专员

                点击这里给我发消息 售后服务专员

                在线咨询

                免费通话

                24小时免费咨询

                请输入您的联系电话,座机请加◣区号

                免费通话

                微信扫一扫

                微信联系
                返回顶部