企業日益仰賴雲端服務,然而多種因素導致雲端支出失控。本文探討造成雲端成本飆漲的根本原因,並提供一系列切實可行的清查與控制方法,協助企業有效降低雲端支出,釋放更多資源投入核心業務。
文/編輯部
雲端成本持續攀升,這不僅對企業預算造成壓力,也可能影響到其他重要專案的推動。企業應正視這個問題並採取積極的措施來清查和控制雲端支出。
首先,讓我們了解雲端成本是如何暴增的。根據統計,主要有以下這些原因:
- 資源管理和最佳化不佳
許多企業經常採購了過多或未充分利用的雲端資源,例如運算實例、儲存或資料庫容量。這包括了低利用率和過度配置的問題,也就是購買了比實際需求更大的資源,這通常是由於企業預估資源需求過高所致。 - 未預期的 AI 支出
隨著 AI 模型的開發和管理,其所需的記憶體和處理需求往往被低估,導致AI 相關的雲端成本大幅增加。有些企業因為缺乏前期的規劃,AI 資源成本就暴增了數十萬美元。 - 不良的數位轉型策略
在數位轉型過程中,如果沒有充分理解工作負載需求或最佳化資料庫架構就遷移到雲端,可能導致過度配置和資源蔓延。專家警告,整合跨多雲或混合環境的成本監控和管理工具非常重要。 - 供應商鎖定和缺乏定期評估
過度依賴單一雲端供應商的生態系統,以及未能定期(至少每季)重新評估雲端服務,可能導致錯過更具成本效益的解決方案或發現隱藏成本,例如孤立資源或未充分利用的資料庫。因此,IT 團隊必須更加評估工作負載在不同供應商之間移動的容易程度。 - 缺乏明確的雲端策略
沒有完善的雲端部署、維護和擴展計畫,是成本失控的主要原因。企業需要進行全面的總體擁有成本(TCO)和 FinOps 分析,以最大化雲端投資的業務價值。一個完善的雲端策略應評估財務影響並與組織目標保持一致。 - 不良的協調和管理
未能像管理傳統資料中心一樣謹慎地協調和管理雲端基礎設施,並使其與業務目標和成果保持一致,會導致成本增加。建議企業採用集中化和聯邦式的雲端方法,並建立使用規範以最佳化成本和保持合規性。 - 過度配置
在未進行適當評估的情況下過度配置雲端服務是很常見的問題。建議企業根據應用程式需求最佳化資源,避免設置過大的資源。而預留執行個體可以降低 20% 到 40% 的成本。 - 選擇錯誤的雲端供應商
假設不同供應商的定價是統一的,或者認為可以不加調整地遷移舊有系統,都可能導致過高的雲端支出。專家強調,根據工作負載的特定需求選擇最適合的雲端供應商至關重要。企業本身有責任理解複雜的定價模型並相應地設計工作負載。 - 雲端資料儲存問題
根據儲存服務供應商 Wasabi Technologies 的報告指出,由於未預期的使用量和資料傳輸(egress)費用的累積,近三分之二的組織去年超出了雲端儲存預算,AI 驅動的資料消耗也加劇了這個問題,即使雲端儲存的單位成本有所下降,但網路費用、API 調用和資料傳輸費用仍然佔據了雲端支出的很大一部分。許多組織對雲端儲存供應商感到滿意,但 計費的複雜性和費用結構仍然是一個問題。 - Kubernetes 過度支出
Cast AI 的研究顯示,大多數組織去年未能將雲端資源配置與運算需求相匹配,導致 Kubernetes 工作負載中普遍存在過度配置。平均而言,組織僅使用了 10% 的雲端 CPU 容量和不到四分之一的記憶體容量。AI 工作負載也加劇了這個問題。
清查雲端成本的方法
針對以上問題,企業必須能有進行防堵的方法
‧全面的資源審計:企業需要對所有雲端資源進行徹底的盤點和審計,識別未充分利用和過度配置的資源,這包括運算實例、儲存、資料庫、網路等各個方面。
‧利用雲端供應商的成本管理工具:各主要雲端供應商都提供了成本管理、預測和報告工具。企業必須有效地利用這些工具來監控支出、設定預算警報,並分析成本趨勢。
‧實施成本最佳化
- 實踐權衡調整(Rightsizing):根據實際使用情況調整資源大小,縮減過度配置的資源。
- 自動化擴展(Autoscaling):根據需求自動調整資源容量,避免長期維持過高的靜態配置。
- 使用預留執行個體和承諾使用折扣:對於長期需要的資源,利用預留執行個體或承諾使用折扣來降低成本。Mathur 估計預留執行個體可以節省 20% 至 40% 的成本。FinOps Foundation 指出,基於承諾的支出計畫可以減少高達 75% 的隨需價格。
- 關閉閒置資源:定期檢查並關閉不再需要的資源,例如閒置的虛擬機器或資料庫。建議定期監控服務以識別可以消除的不必要資源。
- 最佳化儲存層級:將不常存取的資料移動到成本較低的儲存層級。
- 監控資料傳輸成本:注意不同雲端區域或服務之間的資料傳輸費用,並盡可能最佳化資料架構以減少不必要的傳輸。
- 最佳化 Kubernetes 成本:針對 Kubernetes 環境,監控 CPU 和記憶體使用率,調整節點大小和數量,並考慮使用 Spot Instances 以獲得折扣。Spot Instance 是一種雲端運算資源的計費模式,主要的概念是雲端服務供應商將其未使用的運算容量以顯著的折扣價格出售。解決方案供應商 Cast AI 的研究發現,混合使用隨需和 Spot Instances 的 Kubernetes 工作負載可以將成本降低一半以上。Azure 的 Spot Instance 可以將雲端 GPU 成本平均降低 90%。
‧建立成本可見性和歸屬機制:我們需要清楚了解各個部門、專案或工作負載的雲端支出情況,以便進行成本歸屬和責任劃分。
‧定期進行成本效益分析:對現有的雲端服務和架構進行定期評估,比較不同雲端供應商的成本結構,並考慮是否需要遷移到更具成本效益的平台或服務。
‧實施 FinOps 實踐:接下來介紹對於雲端成本管理一個非常重要的概念 ─ FinOps。
什麼是 FinOps?
FinOps(Cloud Financial Operations)是一種雲端成本管理的實踐方法和文化。它不僅僅是財務部門的工作,更是一種跨職能的協作,涉及 IT、財務和業務團隊共同管理和最佳化雲端支出,以最大化雲端投資的業務價值。
[推薦文章:AI 賦能雲端關鍵任務, IT 需關注的焦點 ]
非營利組織 FinOps 基金會的執行董事 J.R. Storment 指出,FinOps 的目標是加速交付、避免浪費,並根據技術價值的權衡做出更明智的決策。對雲端支出的可見性以及將支出分配給內部部門的能力,對於識別和減少雲端浪費具有最大的影響。
FinOps 的核心原則包括:
‧可見性(Visibility)
提供清晰透明的雲端成本資訊,讓所有相關團隊都能了解其雲端支出情況。
‧歸屬(Attribution)
將雲端成本準確地歸屬到使用該資源的團隊、專案或業務單位。
‧責任(Accountability)
使各團隊對其雲端支出負責,並鼓勵他們最佳化資源使用。
‧集中化管理與分散式執行(Centralized Governance and Decentralized Execution)
建立統一的雲端治理規則和政策,同時賦予各團隊在規範內自主管理和最佳化其雲端資源的權力。
‧持續最佳化(Continuous Optimization)
將成本最佳化視為一個持續的過程,不斷監控、分析和調整雲端資源的使用。
將 FinOps 導入企業:
為了將 FinOps 的概念導入我們的企業,建議採取以下步驟:
- 組建跨職能的 FinOps 團隊
這個團隊應包括來自 IT、財務和業務部門的代表。FinOps 團隊的規模不一,但關鍵是要有適當的利害關係人參與,並確保他們有足夠的動機進行協作。 - 獲得高層管理者的支持
沒有高層管理者的支持,成本最佳化工作將難以有效推動。我們需要向管理層闡述 FinOps 的價值和潛在回報。 - 實施成本可見性工具和流程
導入雲端供應商提供的成本管理工具,或者考慮使用第三方的 FinOps 工具。IDC 的分析師 Jevin Jensen 指出,FinOps 工具市場上有超過 90 種不同的工具。這些工具應能提供詳細的成本報告、預算追蹤和異常告警功能。 - 建立成本歸屬機制
實施標籤(Tagging)策略,對所有雲端資源進行標註,以便準確追蹤其使用者和用途。Tagging 是一種為雲端資源添加描述性元數據(metadata)的方法,以便於組織、管理、追蹤和分類這些資源。這些標籤通常由鍵(key)和值(value)組成,可以根據自己的需求定義這些鍵值對。 - 設定成本最佳化目標和指標
制定明確的成本降低目標,並建立相關的關鍵績效指標(KPIs),以衡量 FinOps 實踐的效果。 - 建立雲端治理政策和最佳實踐
制定關於資源配置、使用和成本管理的明確政策和指南,並向所有相關團隊宣導。 - 進行定期的成本審查和分析
定期召開 FinOps 會議,審查雲端成本報告,分析成本趨勢,並討論成本最佳化機會。 - 賦予團隊成本最佳化的權力
教育開發和數據團隊如何以更具成本效益的方式使用雲端能力。二手車商 CarMax 建立了一個推薦引擎,向開發人員展示使用趨勢、標註成本異常並提供每日建議。 - 持續進行培訓和知識分享
定期對團隊成員進行 FinOps 相關的培訓,分享最佳實踐和成功案例。 - 將 FinOps 原則擴展到其他 IT 支出領域
FinOps 的原則不僅適用於公有雲,也可以擴展到私有雲、SaaS 授權、甚至傳統資料中心和 AI 支出。FinOps Foundation 的調查顯示,許多組織正在將 FinOps 實踐應用於 SaaS、授權、私有雲、資料中心和 AI 的支出最佳化。隨著 AI 支出的快速增長,將 FinOps 應用於 AI 成本管理變得越來越重要。
(本文授權非營利轉載,請註明出處:CIO Taiwan)