AI 驅動企業 IT 運維邁向預測性與智能化階段

IBM China

2026-04-10 12:50 2024

—— IBM 大中華區技術服務部總經理潘軍

北京2026年4月10日 /美通社/ -- AI 正快速融入企業關鍵業務領域，但支撐其落地運行的 IT 體系尚未完全做好準備。IBM 調研數據顯示，77%的受訪高管希望加快 AI 應用落地節奏，而僅有25%認為現有 IT 基礎設施能夠支撐 AI 的規模化落地。

潘軍IBM 大中華區技術服務部總經理

這一"就緒度缺口"表明，AI 帶來的變革并非單一技術升級，而是對企業整體 IT體系的系統性重構。在 IBM 技術服務部看來，AI 正在融入企業運營模型，推動 IT 運維從傳統后端支持職能，向支撐業務創新的關鍵能力演進。

運維模式重構：從響應式腳本進化為智能體驅動的運維

長期以來，企業 IT 運維以"故障響應"為核心。隨著企業 IT 系統復雜度持續攀升，運維模式正從傳統自動化腳本向"自主智能體 AI（Agentic AI）"演進。

這一轉變的核心在于運維邏輯的升級：基于 IBM watsonx 平臺，AI 不再僅執行預設規則，而是具備一定的自主推理能力，能夠拆解業務目標并規劃端到端運維任務的執行路徑。通過多智能體協同，企業運維體系可實現從狀態感知到決策執行的閉環管理。在部分場景下，系統可自主完成根因分析并實現故障自愈，平均修復時間可縮短最高 80%。

目前，基于 IBM TLS Support Insights 平臺，公司已在全球為超過 3000 家客戶管理超過 400 萬個 IT 資產。在 IBM 相關實踐中，91%的 Call Home 設備告警請求已實現自動化響應和處置，從而緩解運維壓力并提升系統穩定性。

技術底座演進：應對 AI 規模化基礎設施約束

AI 規?；涞貙A設施提出系統性挑戰，其算力、運力與存力的協同表現，以及安全與混合云架構設計，直接影響基礎設施對業務目標的支撐能力。

作為支撐算力集群效能的關鍵基礎設施，IDC 報告指出，在生成式 AI 訓練場景中，網絡投入已占基礎設施總成本的約 44%。在運力層面，AI 工作負載高度依賴海量"東西向流量"以及 GPU 間穩定的低延遲通信，訓練、推理、微調等核心場景對帶寬需求呈指數級增長，網絡接口正從 400G、800G 向更高速率演進。以千卡級 GPU 集群為例，計算網絡與管理網絡的疊加導致單個集群的線路規模激增（高達數千條），迫使布線方式從傳統直接跳線向更易于維護的結構化布線轉型。

在存力層面，大模型應用對數據吞吐、訪問延遲與帶寬穩定性提出了更高要求。為支撐海量運維數據的實時處理與模型分析，企業正在探索存算分離與存算協同相結合的架構模式。在此過程中，NVMe over Fabric 等高速存儲網絡技術，可在一定程度上提升遠程數據訪問效率。在實際落地中，仍需結合本地高速存儲與數據分層策略，以降低對網絡路徑的依賴。整體來看，面向 AI 負載的存儲體系正呈現出熱數據全閃化、分層存儲與高帶寬互聯協同演進的趨勢，從而緩解"算力等待數據"的問題，支撐 AI 運維場景的高效運行。

此外，在算力效能層面，面對能耗壓力，企業需要通過 AI 驅動的容量規劃與動態資源調度，精細化調節 NPU/GPU 服務器功耗并優化負載分布。在特定優化場景中，資源利用率可由約 65%提升至約 89%，在滿足業務峰值需求的同時提升整體算力效率。

在電力方面，智能風控、智能客服等大規模 AI 應用落地，對算力需求持續攀升，但傳統數據中心在供電密度與部署周期上難以適配 AI 發展節奏。高性能 GPU 集群，推動單機柜功率從傳統的 5–10 千瓦快速提升至 30 千瓦以上，甚至在高密度部署場景中達到更高水平，使得大規模部署面臨供電與散熱改造的現實約束。同時，能耗成本持續上升，疊加電力資源與 PUE 優化壓力，進一步加劇數據中心的運營負擔。

人機協同：以業務洞察引導 AI 增強，而非替代

在轉型過程中，IBM 強調 AI 的核心價值在于增強專業能力，而非簡單替代人力。AI 擅長處理海量數據與重復性任務，而人類專家的核心價值在于對業務場景的理解與決策能力。

調研顯示，64%的 CEO 認為，AI 的成功更依賴人的采納，而非技術本身，這反映出組織與流程因素在 AI 落地過程中的關鍵作用。在實際落地中，這通常體現為將 AI 能力嵌入一線工作流程。例如，在 IBM 內部"零號客戶（Client Zero）"實踐中，通過坐席助手（Agent Assist）提供實時建議，初級工程師可借助 AI 完成專家級任務，在緩解技能短缺的同時，將問題解決時間縮短約32%。

這一協作模式的關鍵在于"釋放與重塑"：AI 減少重復性勞動，使運維人員從"救火式"工作中轉向更具業務價值的領域。企業轉型效果在很大程度上取決于員工技能升級與人機協同能力的提升。

以全生命周期方法構建"AI 就緒"的 IT 體系

企業需從局部單點優化轉向體系化的"集成數據中心（Integrated Data Center）"建設。這不僅是技術堆棧的升級，更是基于"AI 優先（AI-First）"理念對 IT 體系的整體重塑，覆蓋基礎設施規劃設計、部署實施、運維優化以及汰新下線的全生命周期管理。

在基礎設施層面，企業可通過 AI 驅動的容量規劃，精準匹配算力、網絡和存儲需求，從而降低資源浪費和總體擁有成本。在運行階段，AI 驅動的預防性維護可在部分場景下提前約 7 至 24 小時預測硬件瓶頸或潛在故障，實現從事后響應向事前預防的轉變。在安全與合規層面，推進"安全左移"策略，在規劃初期即引入自動化治理機制。

IBM Support Insights（ISI）可對全球超過 400 萬個資產及 150 萬個活躍漏洞進行實時監測，使運維視野從單一可用性擴展至全生命周期的合規與安全管理，從而在受控環境下充分釋放 AI 算力價值。

運維能力成為企業長期競爭力的重要組成部分

總體來看，AI 正在推動企業 IT 體系持續演進。運維能力不再只是保障系統運行的支持職能，而正逐步成為企業數字化能力的重要組成部分。數據中心運維要求對基礎設施故障進行快速發現與快速解決，避免引起大規模應用系統異常。

構建"1-5-10"安全可控智能閉環，面對 AI 負載帶來的系統復雜性，運維體系正致力于實現"1 分鐘感知異常、5 分鐘定位根因、10 分鐘閉環修復"的目標。通過 AI 智能體與標準化協議（如 MCP 等）實時感知系統狀態，系統能夠利用上下文推理迅速收斂根因；隨后調用預設的"授權動作庫"（Skill），在安全權限內執行自主修復。這一從"分鐘級感知"到"確定性自愈"的跨越，正推動 IT 運維從傳統支持職能向企業數字化核心競爭力加速演進。

在這一過程中，IBM 技術服務部作為全生命周期合作伙伴，致力于將 AI 能力與業務洞察結合，幫助客戶構建具備故障自愈、資源優化與成本可控能力的智能運維體系，將 IT 資產轉化為可持續的競爭優勢。未來企業 IT 的關鍵能力，不僅在于系統的穩定運行，更在于使系統具備被 AI 理解、調度與持續優化的能力。

參考信息：

https://www.ibm.com/think/topics/ai-for-it-support

https://www.ibm.com/new/product-blog/technology-lifecycle-services-envisioning-the-next-generation-of-support-with-ai

https://www.ibm.com/think/insights/3-reasons-why-the-right-infrastructure-support-is-essential-for-ai

https://www.ibm.com/cn-zh/new/product-blog/new-idc-report-how-ai-is-reshaping-enterprise-networks

https://www.ciscolive.com/c/dam/r/ciscolive/emea/docs/2025/pdf/PARAI-1323.pdf

媒體聯絡人
李波
libole@cn.ibm.com
IBM中國

消息來源：IBM China