践行深度用云：主机上云运维现代化核心能力

股票资讯阅读：273 2025-02-20 17:02:54 评论：0

　　挑战1：如何基于应用视角设计高可用

　　上云方案与高可靠运维保障方案

　　主机上云的最大挑战就是核心应用上云后的可用性管理。随着原来运行在大机上的应用不断迁移上云，云上的业务可用性等级要求被提升到了新的高度，传统的运维手段已经无法满足核心业务N个9的可用性目标。可用性管理前置到了系统设计乃至应用设计阶段。

　　即便如此，可用性管理依然面临着成本、技术和管理的三重挑战。

　　首先，无论是备份、主备、多活还是业务单元化改造，所有的高可用的架构设计都需要投入高昂的成本，高可用的效果和技术方案的投入成本成正相关关系。如何平衡高可用的投入与产出就成为IT管理者在高可用管理过程中的重要难题。

　　其次，高可用设计是一系列技术方案的组合，从底层网络设计、到云服务的有效运用以及高可用技术工具的选型，从业务部署架构的改造到上层业务的单元化改造，每个层次都涉及多种技术的使用与配合。如何让现有的技术手段以及云服务发挥最大的效能，如何基于先进的单元化设计理念达成核心应用N个9的可靠性也是IT管理者面临的难题。

　　最后，服务SLA（Service Level Agreement,服务水平协议）的达成还需要有相匹配的管理手段与工具，如故障模式库、演练工具等资源作为支撑，不但要能有效跟踪度量SLA的实际效果，还需要持续、主动发现可用性风险的机制与工具，在可用性管理的过程中实现数据积累和能力演进。

　　挑战2：云平台技术栈快速增厚，如何有效进行全链路可视监控

　　随着主机上云和业务云化转型的持续深入，分布式数据库、中间件、AI、大模型等各种云原生技术被广泛应用。新服务、新技术的迭代加速，犹如一柄双刃剑，在助力业务快速发展、快速创新的同时，也带来了系统技术栈复杂度的急剧提升，给传统的IT运维方式带来巨大冲击。

　　例如，应用的微服务化改造，带来微服务数量的指数级增长，应用的调用层次和调用关系变得冗长；分布式云原生的深度应用，使得业务链路更加复杂。当上层业务应用出现故障时，排障过程可能涉及从应用到网络的完整链路，这其中包含业务应用、云服务实例、云基础设施和服务器、网络、存储等物理设备。

　　典型的业务流量路径如：应用>容器>PaaS实例>虚拟机>服务器>虚拟网络>物理网络。在针对这个路径的运维实际工作中，应用、虚拟机软件提供方、服务器和网络设备提供方常常是各管一段，整个业务从上到下的全栈调用路径往往是个黑盒，导致故障定位定界困难，或者恢复时长无法控制。

　　面对IT系统复杂的技术栈及海量的运维对象，做到软硬件运维对象的统一管理，指标、告警、日志、调用链、拓扑等运维数据的统一汇聚和分析，构建全链路故障感知、全栈故障可视的运维体验，对于金融主机上云过程中的运维工作至关重要。

　　挑战3：云网深度融合，如何快速发现、定位、恢复问题

　　过去一年，在互联网领域发生过多起颇为严重的宕机

　　事故：

　　2023年3月，某互联网服务商发生机房故障，多个互联网核心应用受到影响，事故持续7个小时，影响约十几亿用户。

　　2023年11月，某云服务商旗下多款应用出现无法登录故障，事故持续4个小时，这是该云服务商时隔一年之后第二次出现严重故障。

华为郭晓征,耿丽丽,马晓明,毛明强,张志炯,张毅,王进行,马韬,石松

声明

本站内容源自互联网，如有内容侵犯了您的权益，请联系删除相关内容。本站不提供任何金融服务，站内链接均来自开放网络，本站力求但不保证数据的完全准确，由此引起的一切法律责任均与本站无关，请自行识别判断，谨慎投资。

践行深度用云：主机上云 运维现代化核心能力

践行深度用云：主机上云运维现代化核心能力