許多企業只有在部分的環境中強化了 IT 現代化,不過將目標放在 IT 營運的人工智慧時,企業將可以得到更多的洞見。本文從 IT 現代化的現況談起,最後提出一套導入 AIOps 可以強化的方向。
編譯/Frances
根據 2025 CIO Insight 針對企業 CIO 的調查,企業在 IT 現代化的腳步中,在數據架構部分有 26% 未使用現代化工具;在應用程式的部分有 30% 未使用現代化工具;在基礎架構的部分有 56% 的企業未使用現代化工具;而在 DevOps 開發維運的部分,更有 60% 未使用現代化工具!
依據我們對 CIO 的瞭解,企業 IT 主管並非不了解 IT 現代化的重要性。事實上,大多數主管都深知 IT 現代化能帶來的好處與價值,但 IT 現代化過程涉及多重挑戰,成了進展緩慢的主要原因。
為何 AIOPS 在企業中的發展進展緩慢?
企業在導入 AIOps(Artificial Intelligence for IT Operations,IT 營運的人工智慧)這條路上走得並不算快,背後有著不少阻礙。首先是技術上的挑戰,許多大型企業的 IT 基礎架構仍以硬體為主,這使得導入 AIOps 需要先進行現代化,建立新的架構和資料管理平台。加上這些環境通常新舊系統並存,難以整合,更缺乏統一的資料格式和清晰的文件,讓 AIOps 無法有效收集和分析數據。
其次是企業內部的因素。組織內部對於變革的阻力以及相關專業知識的不足,都讓 AIOps 的推動困難重重。管理層對現有系統的不了解也增加了營運風險。更關鍵的是,企業往往缺乏明確的動機,只有當現有 IT 營運出現問題或看到潛在的成本節約時,才會考慮導入 AIOps。此外,許多企業在導入前沒有先建立好必要的資料庫基礎。
[ 加入 CIO Taiwan 官方 LINE 與 Facebook ,與全球CIO同步獲取精華見解 ]
最後,導入 AIOps 也面臨成本考量和內部阻力。由於初期需要投資,企業需要仔細評估其效益。同時,員工可能習慣了傳統的工作模式,對 AIOps 的導入產生抗拒。目前許多企業都還處於試點階段,希望能先累積經驗。總體而言,AIOps 的普及緩慢是技術限制、組織因素和文化阻力等多重原因造成的結果。解決這些問題需要企業細心規劃、逐步實施並持續提升相關技能。
AIOps 理想的營運狀況
根據 AWS 的定義,「人工智慧 IT 維運(AIOps)是一個程序,你在其中可使用人工智慧(AI)技術維護 IT 基礎設施。你可以自動執行關鍵營運任務,例如效能監控、工作負載排程和資料備份。AIOps 技術使用現代機器學習(ML)、自然語言處理(NLP)和其他進階 AI 方法來提高 IT 營運效率。他們收集和分析來自許多不同來源的資料,藉此為 IT 營運帶來主動、個人化和即時的洞察。」
我們認為,理想的 AIOps 應該能夠達到以下營運狀況,從而提升 IT 維運效率、降低成本並改善使用者體驗:
1️⃣主動預測與預防問題
透過機器學習技術分析歷史資料與即時數據,AIOps 能夠預測潛在的系統異常或效能瓶頸,並在問題影響使用者之前採取行動。例如,AIOps 平台可以監控 CPU 使用率、記憶體用量和網路流量等指標,並在這些指標超出預設閾值時發出警報。IT 團隊可以根據這些警報主動調整資源配置或最佳化應用程式程式碼,以避免系統崩潰或服務中斷。
2️⃣快速根本原因分析
當系統出現問題時,AIOps 能夠自動分析日誌、指標和事件資料,快速找出問題的根本原因。例如,如果網站的回應時間突然變慢,AIOps 平台可以分析網路流量、資料庫查詢和應用程式程式碼,找出是網路壅塞、資料庫效能問題還是程式碼錯誤導致的。IT 團隊可以根據這些分析結果快速採取相應的解決方案,例如擴充網路頻寬、最佳化資料庫查詢或修復程式碼錯誤。
3️⃣自動化事件回應與修復
AIOps 能夠自動執行常見的事件回應與修復任務,例如重新啟動伺服器、擴充資源,將程式碼恢復到之前的某個穩定版本。例如,如果 AIOps 平台偵測到伺服器的 CPU 使用率過高,它可以自動將伺服器重新啟動或將流量導向其他伺服器,以減輕負載並確保服務的可用性。
4️⃣持續最佳化系統效能
AIOps 能夠持續監控系統效能,並根據數據分析結果提出最佳化建議。例如,AIOps 平台可以分析應用程式的使用模式,找出效能瓶頸,並建議最佳化程式碼、調整資料庫設定或重新配置資源。IT 團隊可以根據這些建議持續最佳化系統效能,提高資源利用率並改善使用者體驗。
5️⃣提升 IT 團隊協作效率
AIOps 平台可以整合各種 IT 營運工具和資料來源,提供統一的可視化介面,方便 IT 團隊跨部門協作,共同解決問題。例如,AIOps 平台可以將監控資料、事件警報和工單系統整合在一起,讓 IT 團隊可以快速了解問題的影響範圍、根本原因和解決進度。
6️⃣降低營運成本
透過自動化 IT 營運任務、最佳化資源利用率和減少停機時間,AIOps 能夠顯著降低 IT 營運成本。例如,Providence 透過最佳化節省了超過 200 萬美元,同時在高峰期確保了應用性能。Electrolux 透過縮短平均檢測時間(MTTD),將 IT 問題的解決週期從 3 周縮短到一小時,並透過自動執行維修任務,每年節省 1,000 多個小時。
7️⃣雲端環境下的無縫管理
AIOps 提供統一的方法來管理公有、私有或混合雲端基礎設施,組織可以將工作負載從傳統環境遷移到雲端基礎設施,而不必擔心網路上的複雜資料移動。AIOps 提高可觀測性,因此 IT 團隊可以無縫管理不同儲存、網路和應用程式中的資料。
8️⃣根本原因分析
AIOps 平台可以追蹤網路中斷的來源並立即解決,還可以建立保護措施以避免將來出現類似問題。
總之,理想的 AIOps 營運狀況是一個高度自動化、智能化和協作化的 IT 維運環境,能夠主動預測和解決問題、持續最佳化系統效能、降低營運成本並改善使用者體驗。
AIOps 的基礎架構有何特色?跟傳統架構有何不同?
AIOps 的基礎架構與傳統技術架構相比,具有顯著的差異,主要體現在以下幾個方面:
1️⃣資料處理方式
傳統架構通常依賴人工操作從分散的資料來源擷取資訊並加以解讀。這種方式效率低且容易出錯,難以應對現代 IT 環境中爆炸性增長的數據量。
AIOps 基礎架構的核心在於大數據處理能力。它能夠收集、整合和分析來自各種 IT 基礎設施組件的大量數據,包括歷史效能數據、即時操作事件、系統日誌、網路數據、應用程式數據和基礎設施數據。AIOps 平台會智慧地從「雜訊」中提取「訊號」,以識別與應用程式效能和可用性問題相關的重要事件和模式。
2️⃣智能化程度
傳統架構主要依賴人工設定的規則和閾值來監控系統,缺乏智慧化分析能力。這種方式難以應對複雜和動態的 IT 環境,容易產生誤報和漏報。
AIOps 基礎架構應用人工智慧(AI)和機器學習(ML)技術來自動化 IT 操作流程。它能夠執行事件關聯、異常檢測、根本原因分析和預測性分析。AIOps 系統可以不斷學習和適應環境變化,改進問題處理方式。
3️⃣自動化程度
傳統架構通常需要人工干預來解決問題,缺乏自動化能力。這種方式耗時且容易出錯,難以保證服務的可用性和效能。
AIOps 基礎架構支援自動化事件回應和修復。例如,它可以自動重新啟動伺服器、擴展資源或回滾程式碼。AIOps 的目標是將營運程序自動化,並將團隊的資源重新聚焦於處理關鍵任務。
4️⃣可觀測性
傳統架構通常缺乏全面的可觀測性,難以獲取 IT 環境的整體視圖。這使得問題診斷和解決變得更加困難。
AIOps 基礎架構強調可觀測性,能夠從 IT 環境中智慧收集資料,改善組織網路中不同裝置和資料來源之間的可觀測性。AIOps 平台可以整合各種 IT 營運工具和資料來源,提供統一的可視化介面,方便 IT 團隊跨部門協作,共同解決問題。
5️⃣雲端支援
傳統架構難以適應雲端環境,難以實現雲端資源的自動化管理和最佳化。
AIOps 基礎架構提供統一的方法來管理公有、私有或混合雲端基礎設施,支援雲端遷移和混合雲管理。
6️⃣架構現代化
傳統的硬體導向基礎架構,難以整合新的 AI 技術.
AIOps 要能運作,通常需要一個現代化的架構和資料管理平台,才能處理 AI 和可觀測性等應用所需的資料量.
總體而言,AIOps 的基礎架構旨在實現 IT 營運的自動化、智慧化和協作化,從而提高效率、降低成本和改善用戶體驗。它與傳統技術架構的不同之處在於,它更注重資料驅動、AI 賦能和雲端支援。
該如何邁進下一步?
以下是一些解決方案,主要著重於 AIOps 的導入和最佳化:
●克服傳統架構的挑戰:
‧現代化基礎架構:協助企業逐步將硬體導向的基礎架構轉變為軟體定義的架構,例如採用雲端原生技術(Cloud Native)、容器化(Containerization)微服務架構(Microservices)。這能提升 IT 環境的靈活性和可擴展性。
‧建立統一的數據平台:整合分散的數據來源,建立集中式的大數據平台,確保 AIOps 能夠存取全面且一致的數據。這有助於打破數據孤島,提升整體可觀測性。
●解決缺乏標準化和文件問題:
‧建立標準化的數據格式:推動標準化檔案格式的採用,以便更有效地整合和分析操作數據。
‧完善文件:建立清晰且詳細的文件,記錄現有 IT 架構的各個方面,包括伺服器功能、應用程式依賴關係和網路配置。這有助於提升團隊對 IT 環境的理解,並減少營運風險。
●應對組織阻力和專業知識不足:
‧技能提升計畫:投資培訓和技能提升計畫,彌補 IT 團隊在 AIOps 方面的技能差距。可以考慮與外部訓練供應商合作,或聘請 AIOps 專家。
‧建立協作文化:培養協作文化,強調 AIOps 在增強人類能力方面的效益,而非取代它們。鼓勵公開溝通,並讓關鍵利害關係人參與決策過程。
[ 推薦文章:AI 賦能雲端關鍵任務, IT 需關注的焦點 ]
●建立明確的導入動機:
‧設定明確的目標:為導入 AIOps 建立具體且可衡量的目標。無論是改善事件回應時間、提高系統可靠性,還是最佳化資源利用率,具有明確目標都能引導實施流程,並為成功提供基準。
‧展示成功案例:從小規模、高影響力的專案開始,快速取得可見的成果,以建立內部信心,並爭取管理層的支持。
●加強資料庫基礎:
‧優先建立資料庫:在導入 AIOps 之前,優先建立必要的資料庫,確保 AIOps 能夠有效地收集、儲存和分析數據。
●管理內部阻力和成本考量:
‧成本效益分析:進行全面的成本效益分析,量化 AIOps 導入的潛在收益,例如降低營運成本、縮短停機時間和提高生產力。
‧逐步導入:採用循序漸進的方法,從小規模試點專案開始,逐步擴大 AIOps 的應用範圍,以降低風險和內部阻力。
●選擇合適的 AIOps 工具:
‧評估工具:選擇符合組織目標和要求的 AIOps 工具。評估每個工具的功能、擴充性和整合能力,以確保它們符合組織的需求。
‧善用開源工具:考量使用 TensorFlow 或 PyTorch 等開源機器學習框架,訓練 AIOps 系統中的 AI 模型,這些開源工具能用於訓練 AI 模型。
●解決安全性和可擴充性挑戰:
‧優先考慮網路安全措施,並確保 AIOps 工具符合業界標準和法規。實施強大的加密和存取控制,以保護敏感資料。
‧選擇能夠配合組織成長的 AIOps 工具。定期重新評估你的基礎架構需求,並相應地升級工具,以確保持續擴展。
●採用 DevOps:
‧整合 AIOps 到現有的工作流程,可能涉及調整目前流程或建立新的流程,以適應 AIOps 功能。
‧DevOps 團隊可以使用 AIOps 工具來評估編碼品質並持續縮短軟體交付時間。
●主動和預測式管理:
‧透過內建的預測式分析,AIOps 持續學習識別緊急警示並排定優先順序,讓 IT 團隊在潛在問題升級為變慢或停機之前,先行處理。
‧擁抱這些進步,並隨時掌握 AIOps 的最新趨勢,將是 IT 營運不斷演進,保持競爭力和成功的關鍵。
●AIOps 導入的逐步指南:
‧評估你目前的 IT 環境,找出痛點,並設定明確的目標。
‧選擇正確的 AIOps 工具,將 AIOps 整合至現有的工作流程。
‧解決資料品質與可用性問題,並克服文化阻力。
‧定期監控與評估 AIOps 對你的 IT 運作的效能和影響。
透過以上策略,企業 IT 主管將更可能地克服導入 AIOps 的挑戰,實現 IT 營運的轉型,並為企業帶來實質性的業務價值。
(本文授權非營利轉載,請註明出處:CIO Taiwan)