AI算力需求飆升功耗也猛增,數(shù)據(jù)中心該如何降溫——戴爾科技攜手英特爾共建綠色數(shù)據(jù)中心破解能效難題
“AI的盡頭是光伏和儲能”,相信很多人對這句話并不陌生。這句話非常形象地說明了AI對電力的高依賴和高消耗,言簡意賅,在業(yè)界廣為流傳。
近兩年以大模型為代表的人工智能非?;?,引發(fā)了大模型投資熱,企業(yè)紛紛投入巨資開始訓(xùn)練大模型和部署各種人工智能應(yīng)用。然而,不少企業(yè)突然發(fā)現(xiàn)電出問題了,要么數(shù)據(jù)中心的電力不夠,要么機(jī)房溫度降不下來,或者用電成本太高賬單嚇人,嚴(yán)重的甚至直接影響數(shù)據(jù)中心正常運(yùn)營,波及企業(yè)的數(shù)字化化轉(zhuǎn)型戰(zhàn)略的落實(shí)。為了破解這些難題,不少企業(yè)走上綠色數(shù)據(jù)中心的構(gòu)建之路。
大模型的背后是對電力的高消耗
2022年年底,ChatGPT一炮走紅。ChatGPT表現(xiàn)出來的強(qiáng)大的內(nèi)容生成能力讓人驚訝,但很多人不了解的是,這些能力是建立在大量數(shù)據(jù)的訓(xùn)練之上,需要消耗大量的電力。
斯坦福人工智能研究所發(fā)布的《2023年人工智能指數(shù)報(bào)告》顯示,1750億參數(shù)的GPT-3在訓(xùn)練階段的耗電量高達(dá)1287兆瓦時(shí)。隨著模型參數(shù)的不斷增加以及模型從單模態(tài)向多模態(tài)發(fā)展,耗電量還將進(jìn)一步提升。
大模型不只是在訓(xùn)練階段費(fèi)電,推理階段同樣也相當(dāng)費(fèi)電。根據(jù)專家對ChatGPT的研究,每當(dāng)ChatGPT試圖響應(yīng)一次提問,它需要消耗2.9瓦時(shí)的電量。ChatGPT平均每天需要處理約2億個(gè)來自用戶的對話請求,這意味著它單日消耗的電量就要超過564兆瓦時(shí),相當(dāng)于1.7萬個(gè)美國家庭一天的用電量。
ChatGPT是通用大模型的一個(gè)代表,其他大模型的耗電情況大體類似。隨著大模型的流行,AI工作負(fù)載功耗占比正在快速提升。根據(jù)施耐德電氣的一份關(guān)于2024數(shù)據(jù)中心行業(yè)的研究報(bào)告,AI類工作負(fù)載功耗2023 年只占到8%,而到 2028 年會占15%-20%,總能耗預(yù)計(jì)會到 15GW,相當(dāng)于十三峽水電站的總裝機(jī)容量 22.5GW的70%。
通用大模型之所以費(fèi)電,一個(gè)重要原因是它的訓(xùn)練和推理都需要大量GPU,今天GPU集群越來越大,萬卡甚至10萬卡也不稀奇,而GPU隨著性能的不斷提升功耗會不斷上升,正在從目前的350瓦向1000瓦邁進(jìn),英偉達(dá)新發(fā)布的最新GPU GB200已經(jīng)突破了1000瓦。當(dāng)然,不只是GPU,CPU的功耗也在上升,正在突破500瓦。
CPU、GPU功耗的不斷上升迫使企業(yè)越來越關(guān)注AI架構(gòu)的優(yōu)化,要把數(shù)千甚至上萬張CPU、GPU卡互聯(lián),讓它們高效訪問所需要的數(shù)據(jù),完成工作,對系統(tǒng)架構(gòu)設(shè)計(jì)提出了很高的要求。
“一個(gè)設(shè)計(jì)良好的AI架構(gòu)的確能大大提高整個(gè)設(shè)備的能效,這些年戴爾科技一直在做的事情。”戴爾科技集團(tuán)大中華區(qū)網(wǎng)絡(luò)和第三方產(chǎn)品事業(yè)部虞頌峰介紹,戴爾科技的能力也得到了市場研究機(jī)構(gòu)的認(rèn)可,F(xiàn)orrester在 2024 年Q1 的《AI 基礎(chǔ)設(shè)施解決方案》報(bào)告中將戴爾科技列入 AI 基礎(chǔ)架構(gòu)解決方案領(lǐng)導(dǎo)者。
傳統(tǒng)風(fēng)冷不行,液冷勢在必行
AI負(fù)載的高電耗可能讓原來數(shù)據(jù)中心設(shè)計(jì)的電力不夠用,甚至外圍供電不足,迫使人們需要尋找更多能源,比如引入清潔能源、核能等。而另一個(gè)后果就是不得不關(guān)注綠色數(shù)據(jù)中心的建設(shè),關(guān)注機(jī)房內(nèi)部致冷問題。
通常數(shù)據(jù)中心中部署有大量IT設(shè)備,如服務(wù)器、存儲和交換機(jī)等,以及空調(diào)等附加設(shè)備,這些設(shè)備運(yùn)行需要散發(fā)大量的熱,必須及時(shí)帶走,否則會因過高的溫度會導(dǎo)致設(shè)備損壞,系統(tǒng)宕機(jī)。傳統(tǒng)數(shù)據(jù)中心致冷方式是以風(fēng)冷為主,老舊機(jī)架設(shè)計(jì)功率不超過10kw左右。然而,今天一臺配置多GPU卡的AI服務(wù)器單臺功率就可能突破10kw,傳統(tǒng)風(fēng)冷技術(shù)很難解決其散熱問題,不得已人們開始選擇液冷技術(shù)。
“為了滿足 AI 的應(yīng)用,實(shí)現(xiàn)可持續(xù)、低碳、節(jié)能和環(huán)保的綠色數(shù)據(jù)中心,從目前的技術(shù)手段來看,液冷是最佳的選擇。”虞頌峰表示。
液冷解決方案的普及除了要解決機(jī)房溫度過高或者局部熱點(diǎn)問題這些內(nèi)因之外,還有非常重要的一個(gè)驅(qū)動因素是國家政策。近幾年國家在大力推動節(jié)能環(huán)保,一直在限制高能耗數(shù)據(jù)中心。比如,北京要求新建數(shù)據(jù)中心PUE值低于1.4,上海、深圳要求低于1.3。高PUE值意味著高能耗,特別是對于一些大型和超大型數(shù)據(jù)中心,其用電量大,降低運(yùn)營成本和符合國產(chǎn)政策的要求雙重因素驅(qū)動下,對液冷技術(shù)積極性很高。
各種利好之下,液冷市場增長很快。根據(jù)IDC發(fā)布的《中國半年度液冷服務(wù)器市場(2023上半年)跟蹤》報(bào)告,2023上半年中國液冷服務(wù)器市場規(guī)模達(dá)到6.6億美元,同比增長283.3%,預(yù)計(jì)2023年全年將達(dá)到15.1億美元。IDC預(yù)計(jì),2022-2027年,中國液冷服務(wù)器市場年復(fù)合增長率將達(dá)到54.7%,2027年市場規(guī)模將達(dá)到89億美元。
目前市場上主要有兩類主流液冷技術(shù)。一類是冷板式液冷,液體不直接接觸IT部件,通過液體在密閉的導(dǎo)管流經(jīng)服務(wù)器內(nèi)部的散熱冷盤將熱量帶走。另一個(gè)是浸沒式液冷,就是直接把整臺服務(wù)器泡在特殊液體中,通過與液體進(jìn)行熱交換來帶走熱量。
一些領(lǐng)先的服務(wù)器廠商已經(jīng)推出了自己的液冷服務(wù)器產(chǎn)品。虞頌峰介紹,戴爾科技通過與合作伙伴合作提供三種液冷解決方案,既有冷板式液冷也有浸沒式液冷,可以滿足不同客戶的需求。
DIY 冷板式液冷方案:方案采用戴爾科技的標(biāo)準(zhǔn)液冷服務(wù)器,配置 CoolIT 冷盤,加上第三方(綠色云圖和維諦)的CDU 和液冷機(jī)柜,在客戶現(xiàn)場組裝完成整套液冷方案交付。
標(biāo)準(zhǔn)的整機(jī)柜交付冷板液冷方案:戴爾在工廠預(yù)安裝液冷服務(wù)器和CoolIT的機(jī)柜、分水器,直接交付給客戶。
浸沒式液冷方案:采用的是經(jīng)過戴爾科技驗(yàn)證的綠色云圖的浸沒式液冷解決方案,由綠色云圖提供整合服務(wù),適用于邊緣應(yīng)用、靜音要求極高或者是極致PUE等應(yīng)用場景。
當(dāng)然,要建成一個(gè)綠色數(shù)據(jù)中心光有液冷技術(shù)遠(yuǎn)遠(yuǎn)不夠。綠色數(shù)據(jù)中心的建設(shè)應(yīng)該從最開始的設(shè)計(jì)、規(guī)劃就開始,一直到機(jī)房設(shè)備部署、冷卻系統(tǒng)的部署,還要選擇高效節(jié)能IT組件以及精細(xì)化的管理和運(yùn)維等。
以系統(tǒng)的管理和監(jiān)控為例,可以通過電源管理器實(shí)時(shí)監(jiān)控并控制服務(wù)器的整體功耗和服務(wù)器的 CPU 負(fù)載情況實(shí)現(xiàn)風(fēng)扇的動態(tài)調(diào)節(jié),來有效降低數(shù)據(jù)中心的能耗。
F5公司解決方案顧問王志博透露,F(xiàn)5公司的產(chǎn)品落地場景中就有不少用來匯集各種IT設(shè)備運(yùn)行狀況,借助F5的產(chǎn)品采集數(shù)據(jù),然后進(jìn)行大數(shù)據(jù)分析和呈現(xiàn),從而幫助管理者更好地管理這些設(shè)備,提高設(shè)備運(yùn)營能效。
值得一提的是,并非只有新建數(shù)據(jù)中心才能談綠色節(jié)能,對于現(xiàn)有的數(shù)據(jù)中心也可以通過改造來提高能效。比如,通過模塊化的數(shù)據(jù)中心實(shí)現(xiàn)冷熱通道的隔離,通過后門熱交換提高熱交換效率,通過優(yōu)化傳統(tǒng)數(shù)據(jù)中心最多可以實(shí)現(xiàn)PUE1.2 左右。
采用高能效的新一代產(chǎn)品也是一種有效的節(jié)能方法。英特爾中國可持續(xù)發(fā)展項(xiàng)目組負(fù)責(zé)人彭振飛介紹,采用英特爾最新的第五代至強(qiáng)可擴(kuò)展處理器,通過選擇電源優(yōu)化模式就可以在30-40%工作負(fù)載時(shí)輕松實(shí)現(xiàn)110瓦的能耗降低。英特爾即將正式發(fā)布的至強(qiáng)6在能效上表現(xiàn)更為優(yōu)秀,至強(qiáng)6 Sierra Forest首次采用純能效核(E核)設(shè)計(jì),可以帶來2.4倍的能效提升,機(jī)架密度則可以提高2.7倍。這意味著在相同的空間里能提供更高的算力,并且是更高能效的算力。
為了幫助企業(yè)構(gòu)建綠色數(shù)據(jù)中心,英特爾還推出了綠色數(shù)據(jù)中心技術(shù)框架2.0,這是一個(gè)參考設(shè)計(jì),它從XPU層、服務(wù)器層、機(jī)架層和數(shù)據(jù)中心層分別提出了合理實(shí)現(xiàn)節(jié)能減碳的技術(shù)路徑,一共提出了13種讓數(shù)據(jù)中心更綠色的技術(shù)能力和方案。
“這是一個(gè)框架,目的是希望通過高能效產(chǎn)品和技術(shù)的使用,通過液冷,通過更高能效的處理器等IT組件結(jié)合,實(shí)現(xiàn)高能效的計(jì)算,構(gòu)建更綠色的數(shù)據(jù)中心。”彭振飛說。
結(jié)束語
當(dāng)下在AI應(yīng)用熱潮的推動下,算力需求井噴。數(shù)據(jù)中心作為承載AI應(yīng)用的關(guān)鍵,在滿足算力需求的同時(shí)面臨能效問題的挑戰(zhàn),這使得數(shù)據(jù)中心的綠色低碳和可持續(xù)發(fā)展成為剛需。
液冷技術(shù)在政策、技術(shù)與經(jīng)濟(jì)性三大因素的共同推動下成為綠色數(shù)據(jù)中心建設(shè)的重要技術(shù)之一,正在快速替代風(fēng)冷技術(shù)發(fā)展成為市場主流。面對這個(gè)新興市場,有著豐富的技術(shù)積淀和對產(chǎn)業(yè)了解的戴爾、英特爾等巨頭的加入無疑會大大推動液冷技術(shù)的進(jìn)步,加速綠色數(shù)據(jù)中心在中國市場的落地步伐,最終為我國數(shù)字經(jīng)濟(jì)的高質(zhì)量發(fā)展提供更為強(qiáng)大的核心驅(qū)動力。
關(guān)鍵詞:
相關(guān)閱讀
-
AI大潮之下,我們需要什么樣的數(shù)智底座?
在AI大潮的推動下,基礎(chǔ)設(shè)施市場正在復(fù)蘇。戴爾科技近期發(fā)布了截止 -
AI算力需求飆升功耗也猛增,數(shù)據(jù)中心該...
“AI的盡頭是光伏和儲能”,相信很多人對這句話并不陌生。這句話非 -
芝華仕頭等艙沙發(fā)「全民升艙白皮書III」...
4月13日,芝華仕頭等艙沙發(fā)《全民升艙白皮書III》發(fā)布會于深圳香江 -
血脈噴張 Kingston FURY電競房燃爆游戲戰(zhàn)力
當(dāng)電腦游戲進(jìn)階成為電子競技,游戲也不僅僅是讓人放松的休閑方式,而 -
持續(xù)多年登榜安全?!吨袊W(wǎng)絡(luò)安全行業(yè)...
4月12日,國內(nèi)網(wǎng)絡(luò)安全權(quán)威機(jī)構(gòu)安全牛正式發(fā)布第十一版《中國網(wǎng)絡(luò)安 -
固德威與日山能源簽署戰(zhàn)略合作協(xié)議,攜...
4月12日,臺灣日山能源科技有限公司董事長林山城一行蒞臨固德威技術(shù)