算力部署新趨勢:計算網(wǎng)絡化新賽道
作為大國競爭、產業(yè)創(chuàng)新、技術融合的必然趨勢,計算機網(wǎng)絡化以算網(wǎng)融合為目標,提出了算力多元分散、網(wǎng)絡廣域互聯(lián)、資源彈性供給、服務多維一體、應用規(guī)模部署等能力要求。
根據(jù)IDC公司的統(tǒng)計,截至2022年年底,包括高性能計算中心、超算中心、智算中心,以及大規(guī)模數(shù)據(jù)中心在內的全球主要算力中心,算力資源利用率都不足15%。在亟須大力發(fā)展算力的背景下,這一問題顯得尤為突出。這主要是因為傳統(tǒng)的算力中心部署并未考慮最終用戶的實際需要,簡化剛性的基礎網(wǎng)絡連接未能感知上層應用的算力服務需求,最終在算力供需方面出現(xiàn)了嚴重失衡和“算力孤島”現(xiàn)象。為了解決總體資源相對不足,局部資源相對冗余的現(xiàn)象,ICT(信息和通信技術,Information and Communications Technology)行業(yè)出現(xiàn)了計算網(wǎng)絡化的發(fā)展趨勢。本文聚焦計算網(wǎng)絡化這一主題,從國家戰(zhàn)略、行業(yè)發(fā)展、技術演進三個方面入手,剖析計算網(wǎng)絡化的發(fā)展背景,提煉計算網(wǎng)絡化的概念和內涵,圍繞其技術實現(xiàn)和部署實踐,概述計算網(wǎng)絡化的發(fā)展現(xiàn)狀,最后給出發(fā)展建議。算力競賽一直以來都是各國加速信息化升級,搶占技術布局的重點方向。隨著“計算+網(wǎng)絡”融合發(fā)展的不斷深入,世界主要國家紛紛加大投入,在計算網(wǎng)絡化方面,以新型計算基礎設施為核心,掀起新一輪的國家競賽。美國自2020年開始,先后出臺了《引領未來先進計算生態(tài)系統(tǒng)戰(zhàn)略計劃》《2021年美國創(chuàng)新與競爭法案》(S.1260)等戰(zhàn)略文件,明確提出要綜合構建覆蓋“政產學研”的國家級算力新體系和全境覆蓋的高速寬帶網(wǎng)絡。歐洲于2021年3月發(fā)布了《2030年數(shù)字指南針》規(guī)劃(《2030數(shù)字指南針:歐洲數(shù)字十年之路》),目標是到2030年加速部署1萬個邊緣節(jié)點,推動75%的歐洲企業(yè)使用云計算服務、大數(shù)據(jù)和人工智能服務,全面保持歐盟在數(shù)字經濟新賽道上的領先優(yōu)勢。中國政府高度重視算網(wǎng)基礎設施的發(fā)展機遇?!笆奈濉逼陂g,我國先后在“數(shù)字中國”戰(zhàn)略、“新型基礎設施”建設計劃、“東數(shù)西算”戰(zhàn)略等國家級建設指導文件中,明確了要發(fā)力算力網(wǎng)絡,加快全國性算力網(wǎng)絡樞紐的建設進程,進而系統(tǒng)性優(yōu)化計算基礎設施的整體布局,打通數(shù)字基礎設施的發(fā)展大動脈。
行業(yè)驅動:產業(yè)創(chuàng)新的新錨點
為全面解決算力供需不平衡、全局利用效率低的行業(yè)痛點,彈性化算力連接和整體化算力調度技術成為ICT行業(yè)創(chuàng)新發(fā)展的新錨點。面臨指數(shù)級增長的科學數(shù)據(jù)、全球化的科學協(xié)作、無處不在的計算,以及由此產生的對數(shù)據(jù)傳輸、存儲和共享的需求,傳統(tǒng)的科學計算面臨存不下、傳不動、算不及、難共享等問題。科學大裝置/科研設備攻關亟須支持“大算力+大連接”的融合設施。2022年5月,鵬程實驗室在國家相關部門的指導之下,正式啟動了“中國算力網(wǎng)”的發(fā)展計劃,明確要“像建設電網(wǎng)一樣發(fā)展國家算力網(wǎng),像運營互聯(lián)網(wǎng)一樣運營算力網(wǎng),讓用戶像用電一樣使用算力服務”。2022年7月,在中國算力大會上,濟南人工智能計算中心、青島人工智能計算中心、武漢超算中心正式接入“中國算力網(wǎng)”,中國算力網(wǎng)絡發(fā)展邁出關鍵一步。通信行業(yè)是推動算力連接技術創(chuàng)新,加快算力調度服務升級的主力軍。以“云網(wǎng)/算網(wǎng)一體”為目標,國內三大基礎運營商先后啟動了全局性發(fā)展戰(zhàn)略,全面提升數(shù)字化承載能力。其中,中國電信以“云網(wǎng)融合2030”為發(fā)展目標,積極布局“云+網(wǎng)”,發(fā)力計算、存儲等一系列關鍵核心技術,2023年成功上線了一系列算力調度平臺;中國移動以公司數(shù)智化轉型、高質量發(fā)展為目標,全面發(fā)力網(wǎng)、云、數(shù)、智、安、邊、端、鏈等多要素融合。2023年,中國移動成功發(fā)布了梧桐大數(shù)據(jù)分布式協(xié)同計算平臺;中國聯(lián)通以CUBE-Net 3.0為目標,全面構建融合計算、存儲、傳送資源的算網(wǎng)一體目標架構,2023年正式上線了“粵港澳大灣區(qū)算力調度平臺”,助力大灣區(qū)大數(shù)據(jù)中心的數(shù)字化建設。從技術角度看,如何便捷地獲取并使用算力,一直是IT領域發(fā)展的關鍵目標。計算網(wǎng)絡化的概念起源自20世紀80年代計算機網(wǎng)絡的出現(xiàn),彼時的計算網(wǎng)絡化強調通過網(wǎng)絡連接分散的計算機,匯聚網(wǎng)絡連接的各類硬件和軟件資源,形成能力更為強大的計算系統(tǒng)。歷經40年的發(fā)展,計算網(wǎng)絡化經過了三個發(fā)展階段,即單機獨立運算階段、域內規(guī)?;ヂ?lián)階段、跨域全面互聯(lián)階段。以分布式計算的出現(xiàn)為第一個斷代點,計算網(wǎng)絡化的發(fā)展起點是以個人電腦和工作站為代表的單機獨立運算階段。這一階段的計算設備和網(wǎng)絡設備獨立發(fā)展,以CPU、DSP、FPGA等為代表的計算芯片支撐了這一階段的算力發(fā)展。第二階段就是以集群規(guī)模計算為主要特征的域內規(guī)?;ヂ?lián)階段。這個時期,計算網(wǎng)絡化通過域內網(wǎng)絡進行連接,可以形成規(guī)模更大的算力系統(tǒng)。從服務器集群到大規(guī)模集群,隨著域內算力規(guī)模的不斷增大,集群管理技術也不斷增強,隨之也帶來集約化、能耗高,以及“算力孤島”等問題,進而推動了第三個階段的發(fā)展。第三個階段,就是以標準化算力接入+一體化算力服務于一體的跨域全面互聯(lián)階段。這個時期,不同類型的算力中心,利用域間高速互聯(lián)網(wǎng)絡,實現(xiàn)多元一體的復雜算力系統(tǒng)。這個階段包括了超算算力、智算算力、云算力、邊緣算力等在內的各類算力,通過標準化的接口,借助IPv6+、算力網(wǎng)絡、SD-WAN等先進網(wǎng)絡技術,實現(xiàn)跨域全面互聯(lián),并提供一體化的算力服務,真正落實了計算網(wǎng)絡化的發(fā)展目標。計算網(wǎng)絡化以算網(wǎng)融合為最終目標,旨在利用高質量互聯(lián)網(wǎng)絡連接算力軟硬件資源,構建算力規(guī)模更大、服務能力更強的算力系統(tǒng),其本質是一種算力資源服務。未來企業(yè)客戶或者個人用戶不僅需要網(wǎng)絡和云,也需要靈活地把計算任務調度到合適的地方。計算網(wǎng)絡化是算網(wǎng)融合發(fā)展的重要趨勢、必然路徑與發(fā)展階段。計算網(wǎng)絡化應滿足以下幾個條件。從基本內涵方面看,計算網(wǎng)絡化強調以計算服務為核心,網(wǎng)絡是算力服務的基礎。從呈現(xiàn)形式方面看,計算網(wǎng)絡化最終要構建一個算力全面互聯(lián)的一體化算力服務平臺/系統(tǒng)。從能力主體方面看,計算網(wǎng)絡化依賴于各類算力設備與多元算力中心提供的算力服務能力。從以網(wǎng)助算方面看,計算網(wǎng)絡化利用高質量互聯(lián)網(wǎng)絡保障計算服務過程中的網(wǎng)絡質量,并可通過網(wǎng)絡的調度與優(yōu)化,提升應用執(zhí)行效率。一是算力多元分散。算力多元分散特征指的是算力資源不再集中于單一的算力中心,而是分散在多個地方,具有異構多樣的特點,并且在不同的算力中心之間,算力資源角色也不盡相同。在算力中心內部,不同體系架構的計算硬件相互協(xié)作,滿足不同計算需求。二是網(wǎng)絡廣域互聯(lián)。網(wǎng)絡廣域互聯(lián)是計算網(wǎng)絡化的一個重要特征,它指的是計算網(wǎng)絡中不同算力中心之間可以通過高速網(wǎng)絡連接實現(xiàn)互通,同時還能夠在多方面廣域協(xié)同互聯(lián)的基礎上更好地實現(xiàn)資源共享、任務協(xié)同等目標。在高速網(wǎng)絡連接方面,算力中心之間需要建設高速網(wǎng)絡,以保證計算任務的高效執(zhí)行和數(shù)據(jù)的快速傳輸。其中,高帶寬和低延遲是最重要的指標要求。三是資源彈性供給。資源彈性供給特征是指基于資源虛擬化技術實現(xiàn)跨域資源聚合,并能夠根據(jù)用戶需求和應用負載等因素實現(xiàn)資源的彈性調度和供給。在資源聚合方面,計算網(wǎng)絡化利用虛擬化技術實現(xiàn)計算、存儲、網(wǎng)絡的資源聚合。計算網(wǎng)絡化中的云化環(huán)境通常采用資源虛擬化技術,將分布在不同地方的物理資源匯聚成虛擬的資源池,以便于用戶快速獲取和使用資源。在彈性調度方面,計算網(wǎng)絡化中的云化環(huán)境通常可以根據(jù)用戶需求和應用負載等因素,實現(xiàn)資源的彈性供給和調度。四是服務多維一體。服務多維一體特征是指計算網(wǎng)絡化中的算力服務從單節(jié)點多層次供給模式向多節(jié)點一體化服務平臺模式轉變,最終實現(xiàn)算力服務的多維一體。在一體化算力服務方面,基于網(wǎng)絡互聯(lián)互通和資源協(xié)同共享,計算網(wǎng)絡化要求構建跨各類算力中心的一體化算力服務能力。借助這種服務,算力用戶可以通過統(tǒng)一的算力服務平臺,根據(jù)地理位置、資源類型、配套軟件等不同因素進行選擇,快速構建應用。五是應用規(guī)模部署。應用規(guī)模部署特征是指行業(yè)應用從定制化的應用按需部署方式轉向規(guī)模化的應用分布式部署方式,實現(xiàn)應用的規(guī)模化和靈活部署。在應用按需部署方面,算力用戶可以根據(jù)地理位置、數(shù)據(jù)存儲位置、資源類型、開發(fā)環(huán)境等各類因素,選擇合適的算力中心快速部署應用。服務提供商可以將應用部署運行在不同的算力中心上,不同算力中心的應用可以按需進行協(xié)同聯(lián)動,滿足不同地區(qū)的用戶需求。在應用分布式部署方面,針對計算量大且存在跨域協(xié)作需求的應用,可以將應用分解為多個計算任務,由不同的算力中心協(xié)同計算。總之,從幾個階段和計算網(wǎng)絡的條件來看,在技術驅動之下,技術融合成為必然趨勢。計算網(wǎng)絡化的技術實現(xiàn)包含了邊緣計算、高性能計算云、分布式云、霧計算等多種新興技術手段。這里,以邊緣計算為例,分析一下邊緣計算與計算網(wǎng)絡化的關系。邊緣計算是一種典型的計算網(wǎng)絡化技術。通過聚合分散邊緣計算節(jié)點的異構算力資源,邊緣計算以網(wǎng)絡連通云、邊、端,實現(xiàn)協(xié)同聯(lián)動,基于資源虛擬化技術實現(xiàn)資源的池化和統(tǒng)一分配,提供數(shù)字化、網(wǎng)絡化、智能化服務,邊緣計算涵蓋計算網(wǎng)絡化等多項特征。在算力多元分散方面,邊緣計算的算力資源廣泛分布且多元異構,并且邊緣計算具備云邊協(xié)同、邊邊協(xié)同、云邊端一體化等多種服務模式,算力中心角色多樣,可滿足用戶差異化、定制化需求。在網(wǎng)絡廣域互聯(lián)方面,單一邊緣計算節(jié)點的算力資源規(guī)模有限,因此往往采用云邊、邊邊協(xié)同的服務模式,以高速網(wǎng)絡連接為基礎,協(xié)同利用多算力中心的算力資源,向用戶提供低時延、多樣化的服務能力。在資源彈性供給方面,邊緣計算以虛擬化技術為基礎,實現(xiàn)分散異構資源的池化,進而支撐資源的統(tǒng)一管理與彈性調度。在服務多維一體方面,邊緣計算與5G、人工智能等新一代ICT融合創(chuàng)新,提供高效算力、海量接入、安全防護、智能分析等融合服務能力。在應用規(guī)模部署方面,邊緣計算的算力資源有限,通常采用按需部署模式,以合理利用算力資源、滿足用戶的定制化需求。
計算網(wǎng)絡化的產業(yè)生態(tài)
隨著計算網(wǎng)絡化的戰(zhàn)略布局和試點部署不斷深入,算力產業(yè)涉及的設備提供商、電信服務商和算力提供商紛紛行動起來,形成了百花齊放的產業(yè)生態(tài)。其中,設備提供商不斷延展新業(yè)態(tài),設備形態(tài)趨于一體融合。主流的IT設備商、CT設備商、感知及智能終端設備商不斷迭代新的技術,最大程度提升和釋放設備算力,提升設備的計算能力和傳輸能力。為了最大程度減少因為數(shù)據(jù)傳輸和計算任務協(xié)同帶來的設備性能損耗,設備提供商積極轉變思路,研發(fā)具有確定傳輸、高效計算、數(shù)據(jù)安全等功能的一體化可編程設備,實現(xiàn)新型設備對計算、傳輸,以及存儲資源的一體化管理和調度。電信服務商加速探索新模式,全面升級網(wǎng)絡服務模式。基礎電信服務商以移動邊緣計算為網(wǎng)絡服務升級的重要抓手,依托自有的骨干網(wǎng)絡IP技術,將算力服務快速下沉到用戶側,為用戶提供優(yōu)質的算力服務,并提出“算力平臺+算力連接”的服務新模式。增值網(wǎng)絡服務商則利用自身在網(wǎng)絡建設和運營方面的優(yōu)勢,結合新的技術和業(yè)務模式,面向視頻直播、自動駕駛、家庭娛樂等場景,為用戶提供多層次、多粒度的增值網(wǎng)絡服務。算力提供商發(fā)力算力連接,打造彈性高效的算力服務。從通用算力服務商、智能算力服務商到高性能計算服務商,算力供給側全面發(fā)力算力連接網(wǎng)絡,通過自建網(wǎng)絡或者與運營商合作的方式,提高自身算力利用率。其中,“分布式云”“超算互聯(lián)網(wǎng)”“多云互聯(lián)”等新型網(wǎng)絡架構成為算力供給側新的關注點。總體上看,強調多個層面算力分解和實時彈性服務的“云-邊-端”架構行業(yè)認可度較高。面向前沿科技創(chuàng)新和全局算力部署,在未來算力需求持續(xù)增加的背景下,計算網(wǎng)絡化的部署實踐已經遍布各個領域。在超算互聯(lián)網(wǎng)方面,超級計算是推進大科學計劃和大科學工程研發(fā)的重要支撐。然而,由于對網(wǎng)絡技術的投入差距,在超算應用和超算服務等方面,我國與發(fā)達國家仍存在很大距離。2023年4月,科技部正式啟動了“超算互聯(lián)網(wǎng)”項目。超算互聯(lián)網(wǎng)是以互聯(lián)網(wǎng)的思維運營超算中心,并連接產業(yè)生態(tài)中的算力供給、應用開發(fā)、運營服務、用戶等各方資源,構建一體化超算算力網(wǎng)絡和服務平臺。預計到2025年年底,國家超算互聯(lián)網(wǎng)將可形成技術先進、模式創(chuàng)新、服務優(yōu)質、生態(tài)完善的總體布局。在智能制造-智能質檢方面,由于計算機、通信、消費類電子等3C產品通常對精密度和外觀要求非常高,而微小結構件檢測產量大、人力耗用巨大,缺陷類型多、數(shù)據(jù)難以收集。因此,傳統(tǒng)的人工檢測已經成為制造業(yè)效率提升和成本降低的瓶頸。為解決這一挑戰(zhàn),工業(yè)領域開始規(guī)?;渴鹬С钟嬎憔W(wǎng)絡化的工業(yè)AI質檢解決方案,即通過邊緣計算技術對5G傳輸來的數(shù)據(jù)進行實時分析處理,借助機器視覺+人工智能深度學習算法提取關鍵特征指標,保障工廠生產效率的同時,實現(xiàn)無人化質檢。作為一個新領域和新方向,計算網(wǎng)絡化仍然需要整合“政產學研用”各方力量,形成合力。對此,本文有以下幾點建議。一是建立健全標準體系,引導計算網(wǎng)絡化良性發(fā)展。當前,各國家均將計算網(wǎng)絡化作為重要戰(zhàn)略部署,但各類算力服務能力差異明顯、服務質量良莠不齊。構建完善的計算網(wǎng)絡化標準體系,通過健全的服務能力與服務質量評價標準,對云算力、超算算力、智能算力、邊緣算力等不同算力體系進行整合統(tǒng)一,是引導計算網(wǎng)絡化良性、規(guī)范發(fā)展的基本前提和根本保障。二是加速構建網(wǎng)絡基礎設施,推進算力全面互聯(lián)。與發(fā)達國家相比,我國網(wǎng)絡基礎設施的建設部署嚴重滯后,現(xiàn)有網(wǎng)絡資源不足。結合SDN/NFV、SD-WAN、算力網(wǎng)絡等未來網(wǎng)絡技術,建立跨地域算力中心高速互連網(wǎng)絡基礎設施,改善算力中心之間的網(wǎng)絡互連條件,提升環(huán)境網(wǎng)絡互連的性能和數(shù)據(jù)傳輸?shù)陌踩?,是實現(xiàn)算力全面互聯(lián)、協(xié)同的重要基礎。三是夯實計算網(wǎng)絡化技術底座,實現(xiàn)多元算力一體協(xié)同。計算網(wǎng)絡化發(fā)展匯聚多元泛在算力,提供一體化算力服務,在滿足用戶差異化需求的同時,也帶來了多元算力異構和跨域算力協(xié)同的挑戰(zhàn)。需要積極開展計算網(wǎng)絡化技術體系研究,突破跨域協(xié)同計算架構、異構算力統(tǒng)一管理與調度等關鍵技術,以加速計算網(wǎng)絡化發(fā)展,支持多元泛在算力一體化、協(xié)同化服務。