9 月 13 日至 14 日, 2023 開放數(shù)據(jù)中心大會在北京市隆重開幕。銳捷網(wǎng)絡(luò)在網(wǎng)絡(luò)分論壇上發(fā)布了AIGC智算中心網(wǎng)絡(luò)整體方案,為AIGC大模型的發(fā)展提供了全方位的網(wǎng)絡(luò)解法。
大模型發(fā)展趨勢以及網(wǎng)絡(luò)通信訴求
隨著AIGC技術(shù)賦能產(chǎn)業(yè)持續(xù)升級,業(yè)務(wù)對大模型的需求也日益旺盛,更多的訓(xùn)練參數(shù)量以及更高的算力成為大語言模型的迭代目標。為了支撐多元化的行業(yè)應(yīng)用,數(shù)據(jù)中心需要更大規(guī)模的集群來承載大語言模型的分布式訓(xùn)練。大語言模型運算效率與網(wǎng)絡(luò)轉(zhuǎn)發(fā)帶寬存在密不可分的聯(lián)系,網(wǎng)絡(luò)帶寬接入能力與網(wǎng)絡(luò)帶寬利用率是影響GPU利用率的關(guān)鍵指標。
基于以上需求和痛點,銳捷網(wǎng)絡(luò)解決方案經(jīng)理劉洋在 2023 開放數(shù)據(jù)中心大會(ODCC 2023)上,通過主題演講《面向AIGC的智算中心網(wǎng)絡(luò)建設(shè)思考》,闡述了AIGC大模型的發(fā)展趨勢及關(guān)鍵訴求,正式發(fā)布了AIGC智算中心網(wǎng)絡(luò)整體方案。方案采用統(tǒng)一標準化的以太網(wǎng)絡(luò)技術(shù),具體提出兩種AIGC智算中心網(wǎng)絡(luò)解決方案。
銳捷網(wǎng)絡(luò)解決方案經(jīng)理劉洋
現(xiàn)場觀眾
高性能以太網(wǎng)絡(luò)解決方案
高性能以太網(wǎng)絡(luò)解決方案通過三級組網(wǎng)的方式可以滿足3. 2 萬個400G端口接入需求,支撐32K塊GPU卡的集群規(guī)模。在網(wǎng)絡(luò)性能層面,部署實施時關(guān)注RDMA無損網(wǎng)絡(luò)中PFC、ECN等水線的設(shè)置,進行負載均衡模式及算法優(yōu)化提升網(wǎng)絡(luò)的帶寬利用率(詳細技術(shù)可參考文章《解決數(shù)據(jù)中心網(wǎng)絡(luò)擁塞,銳捷RALB負載均衡技術(shù)助力有效數(shù)據(jù)傳輸》)。運維優(yōu)化階段,該方案強調(diào)對網(wǎng)絡(luò)關(guān)鍵指標的實時監(jiān)控,應(yīng)用智能運維平臺根據(jù)現(xiàn)網(wǎng)狀況進行動態(tài)調(diào)整以實現(xiàn)更佳的網(wǎng)絡(luò)性能,該解決方案已獲得市場的廣泛認可。
高性能以太網(wǎng)絡(luò)解決方案
網(wǎng)絡(luò)寬帶接入層面,銳捷網(wǎng)絡(luò)RG-S6980-64QC數(shù)據(jù)中心交換機支持64*400G通信端口,可以同時應(yīng)用在TOR、Leaf、Spine三個層級,該設(shè)備已經(jīng)批量交付了很多互聯(lián)網(wǎng)的客戶。
數(shù)據(jù)中心盒式核心交換機RG-S6980-64QC
AI-Fabric智算中心網(wǎng)絡(luò)解決方案
AI-Fabric智算中心網(wǎng)絡(luò)解決方案是銳捷網(wǎng)絡(luò)針對AIGC業(yè)務(wù)場景發(fā)布的另一套解決方案。采用NCP+NCF為基礎(chǔ)模塊橫向擴展的三級網(wǎng)絡(luò)架構(gòu),可以支撐17K~32K的大規(guī)模GPU卡集群。基于高性能芯片技術(shù),通過將數(shù)據(jù)流切分成等長的Cell并負載到所有鏈路,提升網(wǎng)絡(luò)帶寬利用率;基于VOQ+Credit的端到端流控機制實現(xiàn)與業(yè)務(wù)無關(guān)的無損自閉環(huán)網(wǎng)絡(luò),助力業(yè)務(wù)算力提升。(詳細技術(shù)可參考文章《銳捷網(wǎng)絡(luò)高性能網(wǎng)絡(luò)方案,為AIGC打通“任督二脈”》)
AI-Fabric方案組網(wǎng)架構(gòu)
網(wǎng)絡(luò)寬帶接入層面,AI-Fabric智算中心網(wǎng)絡(luò)解決方案由400G NCP交換機和200G NCF交換機組成。NCP設(shè)備為RG-S6930-18QC40F1,支持 18 口400G的業(yè)務(wù)口,并支持 40 口200G的Fabric內(nèi)聯(lián)口。NCF設(shè)備為RG-X56-96F1,支持 96 口200G的Fabric內(nèi)聯(lián)口。該解決方案可滿足不同業(yè)務(wù)需求,具有可擴展性和靈活性。
AI-Fabric 400G高帶寬產(chǎn)品接入方案
在全球互聯(lián)網(wǎng)流量不斷增長和數(shù)據(jù)應(yīng)用需求日益多樣化的背景下,銳捷網(wǎng)絡(luò)致力于推動網(wǎng)絡(luò)技術(shù)的進步和發(fā)展,AIGC智算中心網(wǎng)絡(luò)整體方案的推出正是其不斷探索和創(chuàng)新的有力證明。通過持續(xù)的技術(shù)研發(fā)和產(chǎn)品創(chuàng)新,銳捷網(wǎng)絡(luò)將繼續(xù)為全球的數(shù)據(jù)中心提供更加有效、可靠、智能的網(wǎng)絡(luò)解決方案,在AIGC時代,助力互聯(lián)網(wǎng)企業(yè)及各行各業(yè)的快速發(fā)展。
(推廣)