彩票网址快3

  • <tr id='IJKgO0'><strong id='IJKgO0'></strong><small id='IJKgO0'></small><button id='IJKgO0'></button><li id='IJKgO0'><noscript id='IJKgO0'><big id='IJKgO0'></big><dt id='IJKgO0'></dt></noscript></li></tr><ol id='IJKgO0'><option id='IJKgO0'><table id='IJKgO0'><blockquote id='IJKgO0'><tbody id='IJKgO0'></tbody></blockquote></table></option></ol><u id='IJKgO0'></u><kbd id='IJKgO0'><kbd id='IJKgO0'></kbd></kbd>

    <code id='IJKgO0'><strong id='IJKgO0'></strong></code>

    <fieldset id='IJKgO0'></fieldset>
          <span id='IJKgO0'></span>

              <ins id='IJKgO0'></ins>
              <acronym id='IJKgO0'><em id='IJKgO0'></em><td id='IJKgO0'><div id='IJKgO0'></div></td></acronym><address id='IJKgO0'><big id='IJKgO0'><big id='IJKgO0'></big><legend id='IJKgO0'></legend></big></address>

              <i id='IJKgO0'><div id='IJKgO0'><ins id='IJKgO0'></ins></div></i>
              <i id='IJKgO0'></i>
            1. <dl id='IJKgO0'></dl>
              1. <blockquote id='IJKgO0'><q id='IJKgO0'><noscript id='IJKgO0'></noscript><dt id='IJKgO0'></dt></q></blockquote><noframes id='IJKgO0'><i id='IJKgO0'></i>

                行业动态

                了解最新公司动态及行→业资讯

                当前位置:首页>新闻中心>行业动态
                全部 4017 公司动态 881 行业动态 3136

                作者简介胥峰盛㊣ 大游戏高级研究员前言(一)

                时间:2022-07-17   访问量:1657

                关于作者

                徐峰

                盛大游戏高级研究员

                2006年毕业于南京●大学,2011年加入△盛大游戏,拥有十年运维经验,曾参◇与盛大游戏旗下多款大型端游、手游的线上运维,领导统一运维平台的产品功〒能设计与实现,并具有工信部认证的高级信息系统项目经理资格

                前言

                运维服务管理体系建设【方案_it运维服务_服务器运∑维

                首先,请允许我做一个简短的自我介绍。我叫徐峰,来自盛大游戏,现任系统工程高级研〖究员。我写了一本书,叫《Linux Best 》。

                运维服务管理体〓系建设方案_it运维服务_服务【器运维

                在这次演讲中,我把它分为三个方面。

                第一□ 个方面,我们来看看为什么要做〖一个自动化运维系统,也就是解决“3W”中的why和what,why和what的问题。

                第二个方面是看ζ 盛大游戏的各个运维子系统々是如何工作的,如何设计、运营㊣和处理问题,如何解决“3W”问题,如何去做。

                三是总结一下我们在盛ω 大游戏自动化运维过程中♀遇到的一些问题。

                自动化运维系统介绍

                运维▲服务管理体系建设方案_it运维服务_服务█器运维

                首先,我们来看看为什□ 么我们需要做一个自动化的运维系统。首先,我们来看看运维中遇到的一些挑战,以及第一个游戏的要求。它◥表现在三个方面。我们都知道盛大游戏是比较知名的老牌游戏厂ζ 商。它现在运营着数百款游戏。第二种游戏结构复杂。

                游戏公司和普通的互联网公司有一个很大◢的区别,就是游戏的来源可能有很多,国外的、国内的、大厂商的、小厂商的。每个游戏的结构可能不同,有的分区,有的很大,需求多样。

                另一个是操作系统的种类很多,和刚才的原因差¤不多。开︼发者的背景和编程偏好不同,如Linux、Linux等。二是在硬件环境上,主要表现在大量的服务器和大量的服务器型号上。由于公司成立十余年,在这个过程中分批分期采购的服务器几乎跨越了各大主机厂↑的主要产品线,而且型号比较◇多且杂。

                另一个是人为因素。在构建自动化运维系统的过程中,比较重要的考虑因素之√一就是人的因素。如果每∞个人都是好人,很多时候一个①人可以完成所有的工作。 ,也许你不需要自动化运维系统。正是因为我们每个人的能力不同,技术水平参差不齐,甚至运维习惯也不同,所以我们必须∩建立一个标准化的自动化运维体系▓来提高我们的工作效率。

                运维服务管理体系建设方〖案_服务器▽运维_it运维服务

                it运维服务_运维服〓务管理体系建设方案_服务器运ω维

                看看我们构建这个自动『化运维系统的目标,也就是我们的原则是什么?我认为做任何事情,目标和原则都很重要。

                我构建自动▲化运维系统的目标总结为四个字:

                运维子◆系统详解

                运维服务管理体系建设方▅案_服务器运№维_it运维服务

                1.自动化安装系统

                我们来看看盛大游戏目前自动化运维系统的☆几个子系统,以※及它们是如何协同工作的。第一个是自动安装系统。服务器由自动化安装系统安装完成后,由自动化运维平台接管。

                自动化运维平台为自动化安全检查系统、自动化客户端更新系统█和服务器端更新系统提供底层支持。自动数据分析系统和自动客户端更新▓系统是相关联的。自动化数据分析系统将反馈自动化客户端更新系统的结果。

                运维服务管理体系建设方▽案_服务器运维_it运维服务

                让我们来看看每个子系统是如何设计和工作的。说到自动化安装ㄨ,大家可能并↙不陌生。我们刚才提到,挑战是多两个少两个,模型和操作系统很多,但是人少,可用时间少。

                整个过程采用了一个【通用的框架。首先是通过PXE启动,是否安装,是否是Linux,然后根据系统自动识别要安装的驱动。在服务器交付给用户之前,会进行№基本的安全设置。

                比如在防火墙设置中,关闭了◥里面的共享,在一定程□ 度上提高了安全性,也减少了一些需要手动进行的操作。

                2.自动化运维平台

                运维服务管理↘体系建设方案「_it运维服务_服务器运维

                服务器由←自动化安装系统安装后,将由自动化运维平台接管。自动化运维平台是运维人员的操作平台。它解决的主要问题是服务器和操作系统是异构⌒ 的,数量非常√庞大。

                我们可以看到,在这张图中,我们的操作系统也是五花八门的。在设计系统的过程中,我们有几个考虑因素。首先是将整个系统设计为基于】浏览器的用户界面。一个架构。

                运维工程师可以随时随地管理您的系统进行运维操作,更加方便。服务器将』向正在操作的机器发出指令。你可以看看这里的一个特性,服务器也是由 SSH 管理的。过去每个人都对它的感觉感到厌恶。

                事实上,你可以很好地管理它。你可以参考这╲里,看看你是否能得到帮助。我们采用开源SSH方式∩进行管理,可以批量更新∏补丁到系统,批量密码管理和操作。

                所有系统都是通过SSH管理的,而不是在上面开发一些Agent,这也体现了自动化运维的观点,至少我尊重。很多时候ξ我们不需要自己造轮子,而是自己搭建一个客户端的方法服务器运维,很多时候在生产环境中并没有得到强烈的验证。

                但是SSH协议本身已经存①在很多年了,在盛大游戏中也使用了很ω 多年。问题已解决。与造轮子相比,这更稳定、更可验证、更易于使用。方便的。升级之后也有升级,可以◤更简单。

                3.自动安检系∏统

                it运维服务_服务器运维_运◣维服务管理体系建设方案

                下一个系统是自动化安全检查系统,因为我ζ 们有更多的子系统和更多的业务。那么我们如何设计一个系统来保证他们的安全呢?然后我这里讲了两个主要系统,一个是自动化安检平台。

                游戏公司和一般互联网公司的一个区别是他们有很多客ぷ户端,尤其是大客户端,或者需要发送给玩家更新、下载和安装的补丁文件。如果有病毒和木马,那将是一件非ㄨ常糟糕的事情,甚至会对业务和公◤司的声誉造成很大的影响。

                这些文件在发送到玩家电脑之前,必须经过病毒检测系统,确保没有被注入相应的病毒代码。另一个是服务器端,主要通↑过安全扫描架构来完成。我们都知道,安全往往不是一朝一夕的过程,也不是一劳永逸的过程。如果您不不断地检查、检测和检测您的系统,那么您的一些误操作将导致您』的系统暴露在互联网上或被恶意攻击。在攻击者的眼皮底下。

                通过一种主动、自发♂的安全扫描架构,它会扫描您的所有服务器以确保安全,您可以在很大程度上规避这个问题。举个例子,我们去年也遇到过一个情况。当某台交换机的ACL达到一定数量时,整个ACL就失效了。如果您没有相关的支持机制进行检查和检测,那么》您的服务器、您认为保护良好的端口或敏感IP可能已经暴露。

                所以通过这种主动检测,可以减少很多系统或人的安全问题。

                4.自动客户端更新系统

                运维服务管理体系建☆设方案_服务器运维_it运维服务

                说到客户端更新,我们都知道游戏是周期☆性的,尤其是在游戏发售当天或者有版本更新的时△候。这时候玩家很卐活跃,下载行为也很多。

                但是在平时,更新和下载带宽可能不会很大,这也是游戏一个非常显着的特点。但是这个特性对我们构建这样一个分发系统提出了很大的挑战。

                那么第一个就是游戏产生的带宽在高峰期可能达到数百G。其次,很多小型运营商或中小型运营商都有一些缓存机制。当然,如果这个缓存机制处理不好,就会影响业务,也就是非法缓存的问题。

                另一个问题是关于 DNS 调度的。 DNS调度本身是根据玩家自己的Local DNS机制解析的。对此,会出现调度不准确的问题。此外,DNS 污染或 DNS TTL 机制会〓使您的调度变得不那么敏感和准确。

                it运维服务_运维服务管理¤体系建设方案▓_服务器运维

                我们有〓两个系统来解决这些问题。第一套是系统,解决大文件的更新下载,多CDN厂商的流量调度。操作过程也比较∩简单。运维人员上传文件,进行安全检查,然后同步到CDN。 CDN将文件分发到相关的边缘节点,最后解压文¤件。

                它有一个♂特点,刚才提到了游戏的周期性特点,就是平时带宽不是¤很大,但是在节点的时候,或者是重大事件的时候,带宽就比较大了。如果自己搭建CDN系统,可能不太划算,所以我们引进国内很多大型CDN厂商来调度资源。

                我们的调度是通过302的方式,而不是把域名分给其中的☆一个或几个。因为直接使用CNAME很难按比例调度,特别是带宽大的时候,CDN厂商解决不了,或者本地出现故障,需要快速移除。这样的功能可以通过集中■调度系统来实现。

                所有用户的第一个请求是在我方调度,但不产生直接下载带宽,而是通过相关算法按比例和面积调度给¤第三方CDN厂商,然后在客户端,播放器实际上是由第三方 CDN 供应商节点下载的。

                运维服务管理体系建设方案_服务器运维_it运维服务

                刚才提到小运营商或者部分运营商的非法缓存机制会影响业务。那么对于一些关键文件,如果缓存到旧ㄨ版本,可能会造成很大的问题。

                比如在我们的区域服务器列表中,如果我们在服务器端添加≡了一个新的区域服务器,但它没有出现在客户端,就会导致玩家无法进入新的区域服务器进行游戏.

                服务器运维_it运维服务_运维服务管理体系建设方案

                针对这些问题,我们设计了内部代号系统,因为这些文件本身◣比较小,数量也不是特别多,但是需要HTTPS加密,小运营商的缓存问题可以通过加密避免。

                所以我们对所有的key文件都有自己◥的节点,并且在节点上支持HTTPS加密,避免一些小运营商缓存带来的问题。

                5.自动服务器端更▲新系统

                it运维服务_运维服务管理体系建设方案_服务器运维

                让我们来看看服务器端更新。我们ぷ使用的服务器端更新方式,也是◣类似于CDN的传统方式。目标服务器通过缓存节点到中心节点下载,由缓存节点缓存控制,可◥以减少网络传输量,提高效率。

                有一个※小插曲。我们在设计这个系统的时候也想过用P2P来做,但是因为Ψ在生产中大家都觉得P2P是一个很炫的东西,或者说是节↑省带宽的东西。 ,但是在生产中用于分发大文件时存在几个问≡题。一是安全控制问题。如何在这些服务器之间传输数据并保护安全端口是一个难题。

                另外,如何控制流量或限制流量也是P2P中的一个挑战,所以最终我们采用了一个比较简单的结构来做。

                6.自动化数据分析系统

                it运维服务_运维服务管理体系建设方案_服务器运维

                说到客户端更新。更新有什么效果,或者玩家是否安装成功或进入游戏。很多时候我们不知所措→或者可以看日志,但是日志中的很多信息是不完整的服务器运维,不完整的。

                下载客户端的时候,如果查看HTTP日志,里面有一个206代码。你很难计算出玩家完整下载了多少客户端,甚至很难知道他是否下载了验证结果。 所以我们最▓终设计了这样一个自动化的数据分析系统。它的目标是查看从下载过程开始到您登录游戏时数据是如何转换的。

                一个理想的情况可能是用户下载后进入游戏,但这是∑ 一个理想的情况。很多时候,比如他的网■络不好,最后下载不成功,或者是⌒ 账号有问题,最后没有登Ψ录游戏。

                那么它呈现的数据形式就是一个漏斗状的★情况。那么我们的目标就是让最终登录⌒ 的用户数接近我们开始下载的用户数。

                运维服务管理体系建设方案_it运维服务_服务器运维

                让我们来看看系统架构。首先,播放器端有下载器或安装客户↓端。部分 SDK 集成在游戏客户端列表中。对于任何一个关键点,比如下载按钮或者终止按钮NYU上报数据,当然不会涉及敏感信△息。上报后〗会有一个集群,然后集群处理后写入。

                运维服务管理体系建设方案_服务器运维_it运维服务

                看一个例子,这是一款在某个时间点大量安装失败的游戏。

                运维服务管理体系建设方案_it运维服务_服务器运维

                在启动过程中查看此游戏的问题。左边一栏分为三个文件,一个是3MB,两个是2G以上的文件。事实上,你可以想@象它。很多时候玩家看到小文件直接♀下载安装小文件,其实并不完整。这也∮告诉我们,在很多情◥况下,无论是运营还是业务上,都需要在引导上更加合理,避免出现一些问题。

                7.自动数据备份系统

                it运维服务_服务器运维_运维服务管理体系建设方案

                请葛优叔叔出去。大家想想如果一个游戏在运行过程中,数据突然没了,没有备份。有任何想法吗?我觉得葛优叔@ 做得很好。基本上,就是这种感『觉。基本上,你的身体已经被掏空了,基本都难以驾驭。

                有没有▃人想过解决这个问题的办法,有没↑有人举手,看来大家∴只有一个想法收拾行李走吧?这是▃一个小故事。游戏运营初期,很多时候都是粗放,没有备份机制。

                在这种情¤况下,某游戏公司确实有这样的◣问题,他们到↓底是怎么做的?它实际上是一个活动,让玩家来填写他们的账户信息和属性,以及你正确填〓写了哪些金币,系统会为你匹配金▓币。那个时代的玩家╳是很无辜的。很多人填↙的信息,我们就填你填的。这个数据恢复了很多,游戏继续运行。

                在这之后,很多玩≡家看到这样的言论就不会这样做了,所以我提醒大家做好】备份,并保证备份的可恢复性。

                it运维服务_服务器运维_运维服务管理体系建设方案

                这是我们第一个发生严重事故的备份系统版本,其设计和实现都比较简单和简单。也就是根据不同的机房,我们会有一个FTP服务器,然后写入机房※的FTP服务器,再写入磁带,这样会导致你的磁带分散,没有集中存储地方。那么基于FTP上传卐会有带宽甚至延迟的要求。

                服务器运维_it运维服务_运维服务管理体系建设方案

                然后我们设计了这样一个集中式备份系统。在这种情况下,它主要※解决了几个问题。

                第一个是为我们所有的机房配置一个负载均衡◆器IP。客户→端需要上传文件时,通过负载均衡器获取实际上传地址,然后从左侧第二个框开始上传文件。如果验证『没有问题,则转入HDFS集群。目前该集群规模为▼数十PB,日上传量为⊙数T。

                每个人都会思Ψ考一个问题。在中国,对运维人员的网络要求非常高,运营商之间的差距甚至是一些壁垒,导致网络不稳定,丢包,如何ζ解决时延问题?如果在大文件█传输过程中基于 TCP 进行,则涉及到单个连接上带宽延▽迟乘积的理论限制。我们这里创新的是我们的客户端上传使用UDP协议,UDP本身没有∑控制权。说白了就是客户@端可以任意硬发送。

                那么服务器最终会检查你收到了哪些文件段,然后△通知客户端重新上传一些没有上传的文件。基于这种方法,可以避免很多由网络抖动甚←至大的网络延迟引起的问题。当然,你也可以在客户端做流量控制。以后遇到问题的时候,可能会想一些非常规的解决方案,也√可能存在。

                8.自ω 动监控报警系统

                it运维服务_服务器运维_运维服务管理体系建设方案

                我们来看看我们游戏的监控系统。刚才提到游戏的架构决定了有游戏客户端,有服务器,有♀网络链路,所以你必须有@ 一个比较完善的系统才←能全方位进行,这样的三维监控可以保证业务会在问题发生前发出预警,或●在问题发生时发出警报。

                对于机∑ 房链路,我们有IDC的网络质量监控来做。在服务器网络设备和硬件方面,将有服务器健康检查、性能监控、网络●设备和流量监控。在系统Ψ 程序方面,我们会收集和分析系统日志,在游戏服务器端应用方面,会有服务器端程序监控。在客户端,会有一个植入的SDK,用于收集下载和更新效果,以及收集其崩溃的数据。

                看左边那一栏,为什么用红色标出,因为我想强调它的重要性。当我们考虑运维或架构设ξ计的问题时,我们的视角不局限于︾技术方面,或者我们想思考技术有多酷和牛逼,我们必须考虑技术在业务中的架构。方面。或者我们是否可以通过业ζ务指标来监控我们的运维能力和运维系统。

                游√戏中的一个重要指标是在线人数。通过监控在线↓人数等一个业务指标,可以知道我左边的系统是ζ否正常工作,是否有漏报或误报,因@为很多时候任何一个环节都有问题。

                最终表现的问题,都是关于业∏务和产生价值的数据,所々以我们会有一个监控人数的系统。每款游戏上线前,都会与系统连接,采卐集一直在线的人数。在系统中,如果出现¤异常抖动等,会显示在〇里面,可以告诉√你是否有问题。

                服务器运维_运维服务管理体系建设方案_it运维服务

                这是一个框架,让我们来看看细节,我们如何进行服务器监控。

                结构是这样的。首先运维工程师配置监控策略,然后到监控策略平台。监控策略平台会根据数据对数据进行格式化,格◣式化成相关格式,然后推送到第☆三页PPT中提到的自动化运维平台,自动化运维平台会监控是否它来自外部来源,远程检测,网络模拟或本■地监控。

                例如监控流量、本地进程、本地日志等推送到远程检测服务器,或◥者游戏服务器本身。

                然后他们会报∴告数据。数据◣上报后,会根据运维→工程师配置的阈值触发↘相关告警,然后通知运维工程师进ぷ行相关处理。因为虽然有各种各◥样的游戏,各种各样的操作系统,或者各种各样的操作系统↙,但总有一些东◎西是大家可以共享的。

                您可以将╱其视为监控模板或监控策略。我们还对服务器的东西进行了整↙合和总结。你可以看到我们有很多插件。运维人员只需选择相关插件,匹配阈值,匹配时间,可以节省大≡家的时间和学习成本,提高你的配置≡策略效率。 .

                配置策略完成后,可以直接绑≡定到你要监控的服务器。

                总结

                运维服务管理体系建设方案_it运维服务_服务器运维

                从 2000 年初到〖现在,我们一直致力于自动化运维系统。这么多年,我们也想↘考虑一个问题。总结我们〗的过去,我觉得可以从三个方面「给大家建议。

                第一个是循序渐进的原则,尤其是对于中小型公司或初创公司。很多时候我们不需要一个高级」的、白色的、丰富的系统。您可能需要专注于当前的问题并妥善处理它们〇。 ,处理完美,后面的问题也是可以◢轻松解决的情况。如果您开始设计一个非常庞大且功能丰√富的系统,可能会导致一些无法控制的情况。

                比如这个系统最终可能不工作,或者因】为耦合太强,开发无法控制,或者项目费㊣ 用搁浅。

                但是如果最】初的目标是解决一些具体的问题,有一些针对性☆,推进起来也比较简单。

                另一个是考虑可扩展性。在我们设计系统的时■候,你可能不需要在功能或者设计上考虑那么多,但是对于当前的问题,你需要●考虑你的服务器。当一些比较大的ζ扩展发生时,是否还能支持它??们,比如十到一百、一〓千的数量级,仍然╲可以使用,这也是一个需要╳考虑的问题,也就是考虑可扩展性。

                另外,它是出于实△用目的,这也体♂现在我们的系统中。在很多情况下,市场上可能有一些相对成熟的〗协议和工具♂可以做到这一点。我们只卐需要通过相关的评估就可以认为它在生产中。可用,很多时候不需要自己再做一套。

                你做的另∞一套没有经过多次验证,可能会带来安全问〗题。基于成熟的协议々和框架来做,而不是自己重新发明ζ轮子,通常可①以提高你的效率,确保你的稳定性和安全性。

                问答

                更多♀精彩继续

                it运维服务_服务器运维_运维服务管理体系建设方案

                12月16-17日,北京站将在国际♂会议中心举行,将为您呈现更多精彩内容。

                立即注册,在 10 月 30 日前享受早鸟价 20% 的折扣。

                上一篇:苏州软件外包学院招¤聘应该说的几个问题?|就业

                下一篇:一下优秀的端口扫描工具,最核心功∞能就是可以百分之百?

                发表评论:

                评论记录:

                未查询到任何数据!

                在线咨询

                点击这里给我发消↓息 售前咨询专员

                点击这里给我发消∮息 售后服务专员

                在线咨询

                免费通话

                24小时免费咨询

                请输↘入您的联系电话,座机请加区号

                免费通话

                微信▲扫一扫

                微信联系
                返回顶部