過去一年多裡,人工智能(AI)浪潮席卷全球,主要的科技公司都在大舉投資數據中心GPU,這使得市場上最大的數據中心GPU英偉達賺得盆滿缽滿。雖然高性能的數據中心GPU定價很高,但是使用壽命卻不太長,這是由於平常承受著AI推理訓練的繁重工作負載,往往比其他組件老化得更快。
據報道,最近有報告稱,雲服務提供商(CSP)運營的數據中心裡,這些GPU在AI工作負載中的利用率約為60%至70%。按照這個利用率,GPU通常隻能使用1到2年,即便較為理想的狀態,最多也就3年。需要強調的是,現在用於AI和HPC應用的數據中心GPU功耗很高,可達到700W或以上,這對於芯片來說是一個很大的壓力,一定程度上也減少瞭壽命。
如果想要延長數據中心GPU的使用壽命,其中一種方法是降低利用率,然而這也意味著其以更緩慢的速度貶值,並且需要更長的時間才能回本,這對於付出高昂成本的企業來說是不利的。因此大部分雲服務提供商衡量瞭收益以後,最常見的做法仍然是以高利用率運行。
此外,報告還根據數據統計結果指出,數據中心GPU的年化故障率約為9%,3年後大概在27%,一般使用一年後更可能頻繁地出現故障。
發表評論 取消回复