了解最新公司动态及行业资讯
关于作者:
勤智(上海)科技有限公司√区域项目总监韩玉强,拥有9年IT行业从业经验,在IT运维产品实施和项目管理∩方面拥有丰富的♀经验。
青海省济宁港始建于1892年,是世界第七大港,也是我国第三大外贸口岸。大港区的▅组成。现有员工24000余人,码头15个,泊位72个。
技★术支撑平台建设目标
信息化是港口建设的⊙有力支撑。南京港集团仍然高度重视信息化建设。先后建成了先进的光纤系统和无线网络;建立EDI中心、生产指挥中心和货运信息平台;建成生产管理■、船舶信息、财务管理、资产管理、人力资源管理、设备管理、物资管理、工程管理8个∮学科数据库;实现港口业务与管理的数字化、网络化、一体化,以持续的技术创新打造港口核心竞争力。
为保障信息系统的正常运行和维护,需要构建以系统管理为核心的技术支撑平台,产生“以技术手段和监控工≡具为支撑,以流程管理为核心的”即以IT服务管理为核心,以满足业务需求为目标的运维管理框架。
2015年,上港集团公开招标选用勤智一体化智能运维管←理系统,完善了上港集团IT综合运维管理平台。一期运维平台建设将全面监控上港集团骨干︽网的IT基础设⊙施和业务系统,通过网络拓扑图、设备性能视图【、机房视图、设备告警视图、业务系统视图。 IT资产和业务系统的运行状@态,及时发现设备故障,从被动运〒维转变为主动运维。
需求分析
随着虚拟化平台的大规模上线,机房◣的升级改造,大量硬件服务器的采购和激@ 活,机房的电力环境需要进行改造和综合监控生成虚拟化拓扑,快速定位虚拟化故障;需要对服务器硬件进行中央监控。 2017年,上港集团决定从◣高效利用资源、提高ω工作效率、及时发现和解决问题的角度对◆勤智统一监控运维平台进行升级改造,开展运维平台二期建设.
1)对现有监控系统进行升级扩容,重新规划部署结构,方便各个分↘支的扩展;
2)依托监控平台,实现对上港集团虚拟化平台的综合监控;
3)依托监控平台实现带外服务器的硬件监控;
4)机房电力环境改造,纳入〇综合监控系统。
解决方案亮卐点
通过现场需求考察,勤智决定▲采用分布式部署的方式对监控系统进行平滑升级。新的监控系统减少了机房的动态环境监控模块、虚拟化监控模块↑和服务器硬件监控模块。分布式部署方式解决了单机◥部署的扩容困境,可根据后续扩容需求灵活扩容子采集器。分布式部署可以实现统一管理、统一检测、统一报警、统一IT基础设施。处理、统一报表数据管理,实现人员统一管理、统一登录。据悉,平滑升级可以保证监控资源▲和历史数据的完整性,防止重复添々加。
1)部署█机舱动态环境检测系统,与监控系统集成,实现一体化监控。综合内容『包括电力监控、空调监控、温度监控等性能显示和报警统一显示。
2)添加服务器硬件监控模块来检测服务器硬◇件组件。检测项目包括:吊扇空闲速度、内部机箱和CPU机身温度、电源电流、电源开关①状态、CMOS电池容量、CPU、磁盘、内存、RAID卡︼等硬件状态。
3)增加虚拟化监控模块,对客户的虚拟化系统进行综合监控。手动发现虚拟化平台集群、虚拟主机、虚拟存储和虚拟机,手动生成虚拟化拓扑〓〓,提供TOPN和虚拟化资源统计报表。
4)预∩留分布式采集,方便后期分支扩展。主服务器自带统一门户,可实现人员和资源权限的统一管理和统◤一登录。
运维平台的价值
通过两期IT综合运维管理平台◢的建设,宁波港集团构建了智能化、一体化的运维管理体系,完善了可视、可预测、可衡量的主动运维管理模式。显◣着提高运维服务的效率和质量。
1)构建先进的运维管理体系:通过一体化的监控运维平台,构建统一的集中管理系统、统一的数→据处理和解释、统一的报警平台。统一的数→据处理和解释,摆脱旧的监测模式和风暴现状,在新的监测平台中集中实施,通过统一的解释界面突出显示∏∏。统一报警平台,所有报警都在监控管理▼监控平台中列出,通过邮件、邮箱、桌面客户端统一报警。
2)搭建IT基础资源全面监控:在集团外网搭建一体化平台,实现对主机、存储、网络、应用系统、数据库、中间件、负载均衡、安全产品、和电力环境实时监控软硬件设备运行状态,打通监控死角↙↙,及时发现安全隐患,上报案例。
主干拓扑
分支子拓扑
3)实现对机房电源环境的综合监控管理:通过建设机房电源环境检测系统,对电源环境(如体温、湿度、烟雾、漏水、UPS、门禁、视频等)进行↓集中监控;与监控系统集成,实现功能显示和报警统一管理。通过一体化监控服务器运维,故障响应和处理更加及时,大大提高了机房管理的效率和质量。
主页集成
空调监控集成
电源◣监控集成
访问控制集成
4)服务器全面监控:通过带外服务器硬件监控模块,实时掌握机房IBM、浪潮╱等服务器硬件运行状态,如吊扇空〇转、机箱和CPU温度、电源电流、电源开关状态、CMOS电池容量、CPU、磁盘、内存、RAID卡等运行状态,结合操作系统监控,真正实现全方位主机监控管理,有效保证业务正常运行。
硬件检测主要性能
5)服务器虚拟化综合监控:勤智的虚拟化监控模块∴通过深度API集成与厂ξ商合作,实现对服务器虚拟化的综合监控。以拓扑图的形式解读虚拟主机、虚拟网络、虚拟存储等资源连ζ接关系,逐层展示虚拟〓资源的当前状态和告警信息。据悉,该系统还提供了丰富的TOPN、虚拟资源、性能、告警统计报〖表。一体化的虚拟化监控模式,方便运维人员全面了解当前虚拟化资源的性能和容量趋势,准确判断虚拟化系统的运行情况◥。
资源统计
6)建立实时准确的资产配置管理数据库:在上海港项目一期建设中,可跟踪※信息中心IT资产的基本信息和使用状态逐步通过智能资ぷ产管理工具。全生命周期的资产配置管理,帮助资产管理者一目了然地查看所有资源清单,准确记录资产的▂使用状态服务器运维,提【高资产设备的复用率,及时淘汰报废》设备,更新所需设备,提高资产利用率。 ,增加对 IT 资产的投资。
7)丰富准确的运维〒报表统计:勤智报←表统计工具,采用独立报表设计器◤,基于已有的采集、处理和运维数据,提供一系列性能、故障、排名,资产和运维统计报⊙表。通过报告,上海港信息中心部门领▆导可以随时查看大量运维数据,为未来IT投资方向和运维改进决策提供参考数据。