瞭望·瞭望訪談 | 中國超算另闢捷徑——專訪中國科學院院士錢德沛

首頁 > 科技

瞭望·瞭望訪談 | 中國超算另闢捷徑——專訪中國科學院院士錢德沛

來源:穿搭日記 釋出時間:2024-05-08 05:33

中國科學院院士錢德沛

  強調應用實效並不意味機器效能不重要,只是不以機器效能為唯一指標,而是把更多的力量放在軟硬結合、應用最佳化上,以取得應用實效為硬道理

  算力的巨大需求刺激超算發展,超算正在努力適應AI的需要,增強半精度浮點和整數運算能力,發展多種硬體加速器,高效支援AI的特徵操作

  推動超算網際網路服務AI應用,需要匯聚超算、智算等算力中心的異構算力資源,對資源進行池化管理與統一排程,而晶片多樣、體系異構、全域性儲存、高速互連等難題直接或間接影響算力排程系統的設計,需要發力解決

  文 |《瞭望》新聞週刊記者 扈永順

  超級計算能力是衡量一個國家或地區科技競爭力和綜合實力的重要標誌,是國之重器。近年來我國研發的高效能計算機支撐了系列重要科學研究和工程建設專案,無論在核聚變裝置設計和高能物理計算,仍是國產大飛機C919的空氣動力學分析和海洋石油鑽井平臺的研製,以及模擬人類大腦能力的類腦智慧和創新藥物研發方面,都有超算的協助。

  步入數字經濟時代,算力成為新型生產力。AI和大模型的發展對算力提出了前所未有的新需求,但急劇變化的國際環境對我國超算的可持續發展提出了嚴峻挑戰。“以應用成效論英雄,從機器效能世界領先轉向應用成效世界領先,應該成為我國高效能計算發展追求的新目標。”中國科學院院士、北京航空航天大學計算機學院教授錢德沛向《瞭望》新聞週刊記者表示,超算網際網路正是在這個背景下提出的重要任務。

  4月11日,國家超算網際網路平臺上線,聚焦降低算力使用門檻,提高資源利用效率,為數字中國建設、數字經濟發展等提供堅實支撐。“基於網際網路發展理念,超算中心提供超級算力,在超算網際網路上構建領域應用平臺,把各種應用軟體提供給使用者,使得更多使用者能利便獲得需要的計算應用資源,讓超算的使用更為普及。”錢德沛介紹。

  超級計算發展面臨新形勢

  《瞭望》:我國超算經歷了怎樣的發展歷程?

  錢德沛:過去30年,在我國科技人員的努力下,高效能計算事業取得了長足進步。效能也即運算速度是衡量超算水平的世界公認指標,按計算機效能劃分,我國經歷了4個階段,每個階段計算機效能提高1000倍,即從G級(每秒10億次)到T級(每秒萬億次),再到P級(每秒1000萬億次),再到E級(每秒百億億次)。相對應的典型計算機系統是早期的曙光1000(G級),20世紀末的曙光3000(百G級),本世紀初的聯想深騰6800和曙光4000A(T級),接著是天河一號、曙光6000和神威·藍光(P級),神威·太湖之光和天河二號(百P級)等。“十三五”規劃提出要突破E級(1000P級)計算機核心技術,也已實現了研究目標。

  自主研發的神威、天河、曙光系列超級計算機已11次位居世界超算TOP500排行榜第一,大氣模擬、地震模擬、量子模擬等關鍵領域大規模平行計算應用三次獲得世界高效能計算應用最高獎“戈登·貝爾”獎。全國範圍建成由14個國家超級計算中心支撐的國家高效能計算環境(中國國家網格)等戰略性資訊基礎設施。

  《瞭望》:當前超算發展面臨哪些新的挑戰?

  錢德沛:當前超算發展遇到瓶頸,TOP500的資料說明,超算效能增長從過去每10~11年增長1000倍降到了增長100倍以下。

  首先,能效指標約束下不能依靠擴大系統規模來提高效能。2022年,美國橡樹嶺國家實驗室研發的超級計算機Frontier成為世界上第一臺百億億級的E級超級計算機。該機是此規模系統世界最好水平,但每小時仍耗電2萬多度,相當於數十萬檯筆記本電腦的耗電量。在我國雙碳指標約束下,計算機系統研製和資料中心建設必須考慮能耗因素。

  其次,計算架構師們一直信奉的摩爾定律已經接近其極限。體系結構變化緩慢,量子計算機等顛覆性技術距離實用尚有距離,新原理的計算和儲存器件缺少突破,演算法、軟體和硬體之間匹配不良等問題,導致超級計算機效能的提升放緩。

  再者,我國後E級計算機的研製面臨挑戰。目前用於研製後E級系統的高效能處理器/加速器需進行進口替代;克服“儲存牆”壁壘的HBM記憶體及新型儲存器件方面我國與世界最提高前輩水平仍存差距;自主高階處理器的研發和製造仍受制於人。

  此外,我國超算應用軟體對外依賴度較高,多數並行的科學與工程計算軟體依靠進口。

  《瞭望》:為什麼說我國超算追求的新目標要從機器效能世界領先轉向應用成效世界領先?

  錢德沛:如前所述,超算技術和國際形勢正在發生變化。大模型等AI應用的興起使得算力需求急劇上升。AI需要更多的是半精度浮點運算和整數運算,而不是傳統衡量效能的雙精度浮點運算。而且隨著機器規模的不斷擴大,發揮系統全機能力的平行計算變得更加困難,能否使應用軟體充分發揮並行硬體的優勢成為必須解決的難題。再者,當前依靠自主技術,在不是採用最高效能處理器實現的系統上,取得世界領先的應用成效,是贏得主動的關鍵。

  強調應用實效並不意味機器效能不重要,只是不以機器效能為唯一指標,而是把更多的力量放在軟硬結合、應用最佳化上,以取得應用實效為硬道理。

  AI帶來機遇

  《瞭望》:智算與超算有什麼區別?

  錢德沛:超算提供的是超強雙精度浮點運算能力,主要用於解決數值模擬和第一性原理計算等科學與工程計算問題,如景象形象數值預報、材料計算、流體動力學計算等。透過用數學物理方程建立待研究物件的數學模型,在初始和邊界條件下求解方程,得到待研究物件的特徵和性態,這是開展預測性科學研究的經典手段。

  隨著大資料和深度學習技術的出現,出現了新的問題求解模式,即AI賦能的模式,對應的計算稱之為智算。在智算模式下,採用人工神經網路作為被研究物件的模型。在訓練階段,使用大資料反覆訓練模型。在求解或者說推理階段,將待解題目的資料送入模型,得到結果輸出。模型的訓練和推理主要使用半精度浮點數或整數運算,這是智算不同於傳統超算之處。

  《瞭望》:AI的快速發展對超算帶來哪些機遇與挑戰?

  錢德沛:傳統的超級計算機也可以完成模型訓練和推理的任務,但是其超強的雙精度浮點運算能力得不到充分利用,反而消耗了更多的電力,而智算所需要的半精度浮點數和整數運算效能又不足,這是智算給傳統超算帶來的新挑戰。

  伴隨AI的快速進步,超算也迎來新的發展機遇。AI催生了前所未有的巨大算力需求,AI大模型通常擁有千億以上引數,其訓練依賴大算力,例如若使用每秒1000萬億次的超級計算機訓練一次GPT-3模型,需要連續執行3600余天。算力的巨大需求刺激超算發展,超算正在努力適應AI的需要,增強半精度浮點和整數運算能力,發展多種硬體加速器,高效支援AI的特徵操作。

  此外,機器學習、深度學習等AI技術具有解決高維數學題目的強大能力,催生了一種新的科研正規化,即AI For Science,或稱科學智慧。目前AI方法在蛋白質結構預測、新材料設計、天氣預報、大規模分子模擬等方面取得了突破性進展,正在改變這些領域依賴數值模擬的傳統局面,推動了超級計算與AI的融合發展。一方面,超算的平行計算能力是AI for Science的基礎。AI演算法通常涉及大量的平行計算,而超算的多處理器架構和平行計算能力能夠充分滿足這一需求。另一方面,AI for Science所產生的新方法和新軟體將極大豐富傳統超算的軟體資源,提高其解決複雜挑戰性問題的能力。

  抓住AI發展的契機,能夠帶動超算領域硬體、演算法、軟體、應用和系統的協同創新。

  構建支撐AI應用的超算網際網路

  《瞭望》:超算網際網路是如何提供快捷算力服務的?

  錢德沛:超算網際網路是一種基於網際網路理念,借鑑網際網路應用的成功經驗而發展的超算基礎設施。它追求應用資源的互通共享和高效利用,開拓應用開發和服務的新模式,力求改善使用者體驗,幫助使用者更好地解決應用問題,同時也為資源提供者,服務運營者創造更大的價值。

  首先,超算網際網路提供更多樣的資源部署模式,使用者可以根據自身業務需求選擇合適的資源部署模式,並可動態調整。例如,同時使用公共算力和私有算力的混合雲部署模式,使用多個算力中心資源的多雲部署模式,支援中心訓練與邊緣推理一體部署的雲邊端協同模式等。

  其次,超算網際網路提供更多元的應用服務,為使用者帶來多樣、便捷、場景化的算力使用模式。使用者既可直接訪問超級計算機來執行自己的軟體,也能透過應用服務平臺使用應用服務,或透過應用場景APP獲取算力服務。該模式下,使用者按需使用應用軟體,按使用量付費,無需關注其使用的算力型別和地理位置,甚至無需關注使用了什麼應用軟體,從而大幅降低使用者的算力使用門檻。

  第三,提供更良性的算力中心競合模式。相比單個算力中心獨立為使用者提供服務,超算網際網路透過一體化算力服務平臺,允許使用者選擇最合適的算力中心或同時享受多個算力中心的服務。算力中心之間也將從競爭走向競合,從而彌補自身資源與能力不足,更好滿足使用者需求。

  第四,提供更緊密的產業生態協作模式。在超算網際網路上,活躍的不僅是算力的提供商和消費者,更有大量的應用軟體商、應用服務商、資料提供商、代算商、技術與資訊提供商、居間服務商等多元角色。超算網際網路平臺透過線上一站式配齊算力、軟體、資料、模型、技術服務、技術資料、培訓等各類要素資源,促進供需高效對接,從而形成算力產業的生態大協作平臺。

  《瞭望》:推動超算網際網路服務AI應用,還需解決哪些難題?

  錢德沛:要推動超算網際網路服務AI應用,需要匯聚超算、智算等算力中心的異構算力資源,對資源進行池化管理與統一排程,而晶片多樣、體系異構、全域性儲存、高速互連等難題直接或間接影響算力排程系統的設計,需要發力解決。

  晶片方面,隨著應用需求和晶片技術的發展,計算晶片呈現多樣化發展趨勢。算力中心的計算晶片主要包括通用處理器和AI處理器,提供不同精度的計算能力。目前國產AI晶片發展快速,如百度崑崙芯、華為昇騰、寒武紀等,還需大力完善國產AI晶片的應用生態,解決應用便捷開發和執行穩定性等問題。

  體系異構方面,異構計算已成為算力中心的主流架構。全球超級計算機超三成使用異構架構,智算中心中異構系統更加普遍,如CPU+英偉達GPU、CPU+深度學習處理器/加速器等結構。多種異構架構及加速硬體的出現,增加了並行程式設計的複雜性和算力排程的難度。要解決AI應用與異構硬體的適配問題,在改善應用效能的同時提高資源利用率。

  高效儲存方面,要在超算網際網路、多雲互聯的環境下,建立跨域虛擬資料空間,構建覆蓋多中心的全域性資料資源檢視,實現資料全域性可視、跨域資料訪問與排程、跨中心智慧化資料管理等必要功能,更好地滿足資料遷移、儲存佈局最佳化、故障預測、資料保護等需要。

  高速互連方面,要充分考慮AI應用對計算節點內、計算節點間的互連需求,在保證更高資料傳輸速率、更大資料傳輸頻寬和更低資料傳輸延遲的同時,提高互連的穩定性和可靠性,以保證大模型訓練等AI應用的長時間不亂執行。此外,還要提高算力中心內部和算力中心之間的網路效能,以支援更大範圍的資源共享和協同工作。

中國科學院院士錢德沛

  強調應用實效並不意味機器效能不重要,只是不以機器效能為唯一指標,而是把更多的力量放在軟硬結合、應用最佳化上,以取得應用實效為硬道理

  算力的巨大需求刺激超算發展,超算正在努力適應AI的需要,增強半精度浮點和整數運算能力,發展多種硬體加速器,高效支援AI的特徵操作

  推動超算網際網路服務AI應用,需要匯聚超算、智算等算力中心的異構算力資源,對資源進行池化管理與統一排程,而晶片多樣、體系異構、全域性儲存、高速互連等難題直接或間接影響算力排程系統的設計,需要發力解決

  文 |《瞭望》新聞週刊記者 扈永順

  超級計算能力是衡量一個國家或地區科技競爭力和綜合實力的重要標誌,是國之重器。近年來我國研發的高效能計算機支撐了系列重要科學研究和工程建設專案,無論在核聚變裝置設計和高能物理計算,仍是國產大飛機C919的空氣動力學分析和海洋石油鑽井平臺的研製,以及模擬人類大腦能力的類腦智慧和創新藥物研發方面,都有超算的協助。

  步入數字經濟時代,算力成為新型生產力。AI和大模型的發展對算力提出了前所未有的新需求,但急劇變化的國際環境對我國超算的可持續發展提出了嚴峻挑戰。“以應用成效論英雄,從機器效能世界領先轉向應用成效世界領先,應該成為我國高效能計算發展追求的新目標。”中國科學院院士、北京航空航天大學計算機學院教授錢德沛向《瞭望》新聞週刊記者表示,超算網際網路正是在這個背景下提出的重要任務。

  4月11日,國家超算網際網路平臺上線,聚焦降低算力使用門檻,提高資源利用效率,為數字中國建設、數字經濟發展等提供堅實支撐。“基於網際網路發展理念,超算中心提供超級算力,在超算網際網路上構建領域應用平臺,把各種應用軟體提供給使用者,使得更多使用者能利便獲得需要的計算應用資源,讓超算的使用更為普及。”錢德沛介紹。

  超級計算發展面臨新形勢

  《瞭望》:我國超算經歷了怎樣的發展歷程?

  錢德沛:過去30年,在我國科技人員的努力下,高效能計算事業取得了長足進步。效能也即運算速度是衡量超算水平的世界公認指標,按計算機效能劃分,我國經歷了4個階段,每個階段計算機效能提高1000倍,即從G級(每秒10億次)到T級(每秒萬億次),再到P級(每秒1000萬億次),再到E級(每秒百億億次)。相對應的典型計算機系統是早期的曙光1000(G級),20世紀末的曙光3000(百G級),本世紀初的聯想深騰6800和曙光4000A(T級),接著是天河一號、曙光6000和神威·藍光(P級),神威·太湖之光和天河二號(百P級)等。“十三五”規劃提出要突破E級(1000P級)計算機核心技術,也已實現了研究目標。

  自主研發的神威、天河、曙光系列超級計算機已11次位居世界超算TOP500排行榜第一,大氣模擬、地震模擬、量子模擬等關鍵領域大規模平行計算應用三次獲得世界高效能計算應用最高獎“戈登·貝爾”獎。全國範圍建成由14個國家超級計算中心支撐的國家高效能計算環境(中國國家網格)等戰略性資訊基礎設施。

  《瞭望》:當前超算發展面臨哪些新的挑戰?

  錢德沛:當前超算發展遇到瓶頸,TOP500的資料說明,超算效能增長從過去每10~11年增長1000倍降到了增長100倍以下。

  首先,能效指標約束下不能依靠擴大系統規模來提高效能。2022年,美國橡樹嶺國家實驗室研發的超級計算機Frontier成為世界上第一臺百億億級的E級超級計算機。該機是此規模系統世界最好水平,但每小時仍耗電2萬多度,相當於數十萬檯筆記本電腦的耗電量。在我國雙碳指標約束下,計算機系統研製和資料中心建設必須考慮能耗因素。

  其次,計算架構師們一直信奉的摩爾定律已經接近其極限。體系結構變化緩慢,量子計算機等顛覆性技術距離實用尚有距離,新原理的計算和儲存器件缺少突破,演算法、軟體和硬體之間匹配不良等問題,導致超級計算機效能的提升放緩。

  再者,我國後E級計算機的研製面臨挑戰。目前用於研製後E級系統的高效能處理器/加速器需進行進口替代;克服“儲存牆”壁壘的HBM記憶體及新型儲存器件方面我國與世界最提高前輩水平仍存差距;自主高階處理器的研發和製造仍受制於人。

  此外,我國超算應用軟體對外依賴度較高,多數並行的科學與工程計算軟體依靠進口。

  《瞭望》:為什麼說我國超算追求的新目標要從機器效能世界領先轉向應用成效世界領先?

  錢德沛:如前所述,超算技術和國際形勢正在發生變化。大模型等AI應用的興起使得算力需求急劇上升。AI需要更多的是半精度浮點運算和整數運算,而不是傳統衡量效能的雙精度浮點運算。而且隨著機器規模的不斷擴大,發揮系統全機能力的平行計算變得更加困難,能否使應用軟體充分發揮並行硬體的優勢成為必須解決的難題。再者,當前依靠自主技術,在不是採用最高效能處理器實現的系統上,取得世界領先的應用成效,是贏得主動的關鍵。

  強調應用實效並不意味機器效能不重要,只是不以機器效能為唯一指標,而是把更多的力量放在軟硬結合、應用最佳化上,以取得應用實效為硬道理。

  AI帶來機遇

  《瞭望》:智算與超算有什麼區別?

  錢德沛:超算提供的是超強雙精度浮點運算能力,主要用於解決數值模擬和第一性原理計算等科學與工程計算問題,如景象形象數值預報、材料計算、流體動力學計算等。透過用數學物理方程建立待研究物件的數學模型,在初始和邊界條件下求解方程,得到待研究物件的特徵和性態,這是開展預測性科學研究的經典手段。

  隨著大資料和深度學習技術的出現,出現了新的問題求解模式,即AI賦能的模式,對應的計算稱之為智算。在智算模式下,採用人工神經網路作為被研究物件的模型。在訓練階段,使用大資料反覆訓練模型。在求解或者說推理階段,將待解題目的資料送入模型,得到結果輸出。模型的訓練和推理主要使用半精度浮點數或整數運算,這是智算不同於傳統超算之處。

  《瞭望》:AI的快速發展對超算帶來哪些機遇與挑戰?

  錢德沛:傳統的超級計算機也可以完成模型訓練和推理的任務,但是其超強的雙精度浮點運算能力得不到充分利用,反而消耗了更多的電力,而智算所需要的半精度浮點數和整數運算效能又不足,這是智算給傳統超算帶來的新挑戰。

  伴隨AI的快速進步,超算也迎來新的發展機遇。AI催生了前所未有的巨大算力需求,AI大模型通常擁有千億以上引數,其訓練依賴大算力,例如若使用每秒1000萬億次的超級計算機訓練一次GPT-3模型,需要連續執行3600余天。算力的巨大需求刺激超算發展,超算正在努力適應AI的需要,增強半精度浮點和整數運算能力,發展多種硬體加速器,高效支援AI的特徵操作。

  此外,機器學習、深度學習等AI技術具有解決高維數學題目的強大能力,催生了一種新的科研正規化,即AI For Science,或稱科學智慧。目前AI方法在蛋白質結構預測、新材料設計、天氣預報、大規模分子模擬等方面取得了突破性進展,正在改變這些領域依賴數值模擬的傳統局面,推動了超級計算與AI的融合發展。一方面,超算的平行計算能力是AI for Science的基礎。AI演算法通常涉及大量的平行計算,而超算的多處理器架構和平行計算能力能夠充分滿足這一需求。另一方面,AI for Science所產生的新方法和新軟體將極大豐富傳統超算的軟體資源,提高其解決複雜挑戰性問題的能力。

  抓住AI發展的契機,能夠帶動超算領域硬體、演算法、軟體、應用和系統的協同創新。

  構建支撐AI應用的超算網際網路

  《瞭望》:超算網際網路是如何提供快捷算力服務的?

  錢德沛:超算網際網路是一種基於網際網路理念,借鑑網際網路應用的成功經驗而發展的超算基礎設施。它追求應用資源的互通共享和高效利用,開拓應用開發和服務的新模式,力求改善使用者體驗,幫助使用者更好地解決應用問題,同時也為資源提供者,服務運營者創造更大的價值。

  首先,超算網際網路提供更多樣的資源部署模式,使用者可以根據自身業務需求選擇合適的資源部署模式,並可動態調整。例如,同時使用公共算力和私有算力的混合雲部署模式,使用多個算力中心資源的多雲部署模式,支援中心訓練與邊緣推理一體部署的雲邊端協同模式等。

  其次,超算網際網路提供更多元的應用服務,為使用者帶來多樣、便捷、場景化的算力使用模式。使用者既可直接訪問超級計算機來執行自己的軟體,也能透過應用服務平臺使用應用服務,或透過應用場景APP獲取算力服務。該模式下,使用者按需使用應用軟體,按使用量付費,無需關注其使用的算力型別和地理位置,甚至無需關注使用了什麼應用軟體,從而大幅降低使用者的算力使用門檻。

  第三,提供更良性的算力中心競合模式。相比單個算力中心獨立為使用者提供服務,超算網際網路透過一體化算力服務平臺,允許使用者選擇最合適的算力中心或同時享受多個算力中心的服務。算力中心之間也將從競爭走向競合,從而彌補自身資源與能力不足,更好滿足使用者需求。

  第四,提供更緊密的產業生態協作模式。在超算網際網路上,活躍的不僅是算力的提供商和消費者,更有大量的應用軟體商、應用服務商、資料提供商、代算商、技術與資訊提供商、居間服務商等多元角色。超算網際網路平臺透過線上一站式配齊算力、軟體、資料、模型、技術服務、技術資料、培訓等各類要素資源,促進供需高效對接,從而形成算力產業的生態大協作平臺。

  《瞭望》:推動超算網際網路服務AI應用,還需解決哪些難題?

  錢德沛:要推動超算網際網路服務AI應用,需要匯聚超算、智算等算力中心的異構算力資源,對資源進行池化管理與統一排程,而晶片多樣、體系異構、全域性儲存、高速互連等難題直接或間接影響算力排程系統的設計,需要發力解決。

  晶片方面,隨著應用需求和晶片技術的發展,計算晶片呈現多樣化發展趨勢。算力中心的計算晶片主要包括通用處理器和AI處理器,提供不同精度的計算能力。目前國產AI晶片發展快速,如百度崑崙芯、華為昇騰、寒武紀等,還需大力完善國產AI晶片的應用生態,解決應用便捷開發和執行穩定性等問題。

  體系異構方面,異構計算已成為算力中心的主流架構。全球超級計算機超三成使用異構架構,智算中心中異構系統更加普遍,如CPU+英偉達GPU、CPU+深度學習處理器/加速器等結構。多種異構架構及加速硬體的出現,增加了並行程式設計的複雜性和算力排程的難度。要解決AI應用與異構硬體的適配問題,在改善應用效能的同時提高資源利用率。

  高效儲存方面,要在超算網際網路、多雲互聯的環境下,建立跨域虛擬資料空間,構建覆蓋多中心的全域性資料資源檢視,實現資料全域性可視、跨域資料訪問與排程、跨中心智慧化資料管理等必要功能,更好地滿足資料遷移、儲存佈局最佳化、故障預測、資料保護等需要。

  高速互連方面,要充分考慮AI應用對計算節點內、計算節點間的互連需求,在保證更高資料傳輸速率、更大資料傳輸頻寬和更低資料傳輸延遲的同時,提高互連的穩定性和可靠性,以保證大模型訓練等AI應用的長時間不亂執行。此外,還要提高算力中心內部和算力中心之間的網路效能,以支援更大範圍的資源共享和協同工作。

中國科學院院士錢德沛

  強調應用實效並不意味機器效能不重要,只是不以機器效能為唯一指標,而是把更多的力量放在軟硬結合、應用最佳化上,以取得應用實效為硬道理

  算力的巨大需求刺激超算發展,超算正在努力適應AI的需要,增強半精度浮點和整數運算能力,發展多種硬體加速器,高效支援AI的特徵操作

  推動超算網際網路服務AI應用,需要匯聚超算、智算等算力中心的異構算力資源,對資源進行池化管理與統一排程,而晶片多樣、體系異構、全域性儲存、高速互連等難題直接或間接影響算力排程系統的設計,需要發力解決

  文 |《瞭望》新聞週刊記者 扈永順

  超級計算能力是衡量一個國家或地區科技競爭力和綜合實力的重要標誌,是國之重器。近年來我國研發的高效能計算機支撐了系列重要科學研究和工程建設專案,無論在核聚變裝置設計和高能物理計算,仍是國產大飛機C919的空氣動力學分析和海洋石油鑽井平臺的研製,以及模擬人類大腦能力的類腦智慧和創新藥物研發方面,都有超算的協助。

  步入數字經濟時代,算力成為新型生產力。AI和大模型的發展對算力提出了前所未有的新需求,但急劇變化的國際環境對我國超算的可持續發展提出了嚴峻挑戰。“以應用成效論英雄,從機器效能世界領先轉向應用成效世界領先,應該成為我國高效能計算發展追求的新目標。”中國科學院院士、北京航空航天大學計算機學院教授錢德沛向《瞭望》新聞週刊記者表示,超算網際網路正是在這個背景下提出的重要任務。

  4月11日,國家超算網際網路平臺上線,聚焦降低算力使用門檻,提高資源利用效率,為數字中國建設、數字經濟發展等提供堅實支撐。“基於網際網路發展理念,超算中心提供超級算力,在超算網際網路上構建領域應用平臺,把各種應用軟體提供給使用者,使得更多使用者能利便獲得需要的計算應用資源,讓超算的使用更為普及。”錢德沛介紹。

  超級計算發展面臨新形勢

  《瞭望》:我國超算經歷了怎樣的發展歷程?

  錢德沛:過去30年,在我國科技人員的努力下,高效能計算事業取得了長足進步。效能也即運算速度是衡量超算水平的世界公認指標,按計算機效能劃分,我國經歷了4個階段,每個階段計算機效能提高1000倍,即從G級(每秒10億次)到T級(每秒萬億次),再到P級(每秒1000萬億次),再到E級(每秒百億億次)。相對應的典型計算機系統是早期的曙光1000(G級),20世紀末的曙光3000(百G級),本世紀初的聯想深騰6800和曙光4000A(T級),接著是天河一號、曙光6000和神威·藍光(P級),神威·太湖之光和天河二號(百P級)等。“十三五”規劃提出要突破E級(1000P級)計算機核心技術,也已實現了研究目標。

  自主研發的神威、天河、曙光系列超級計算機已11次位居世界超算TOP500排行榜第一,大氣模擬、地震模擬、量子模擬等關鍵領域大規模平行計算應用三次獲得世界高效能計算應用最高獎“戈登·貝爾”獎。全國範圍建成由14個國家超級計算中心支撐的國家高效能計算環境(中國國家網格)等戰略性資訊基礎設施。

  《瞭望》:當前超算發展面臨哪些新的挑戰?

  錢德沛:當前超算發展遇到瓶頸,TOP500的資料說明,超算效能增長從過去每10~11年增長1000倍降到了增長100倍以下。

  首先,能效指標約束下不能依靠擴大系統規模來提高效能。2022年,美國橡樹嶺國家實驗室研發的超級計算機Frontier成為世界上第一臺百億億級的E級超級計算機。該機是此規模系統世界最好水平,但每小時仍耗電2萬多度,相當於數十萬檯筆記本電腦的耗電量。在我國雙碳指標約束下,計算機系統研製和資料中心建設必須考慮能耗因素。

  其次,計算架構師們一直信奉的摩爾定律已經接近其極限。體系結構變化緩慢,量子計算機等顛覆性技術距離實用尚有距離,新原理的計算和儲存器件缺少突破,演算法、軟體和硬體之間匹配不良等問題,導致超級計算機效能的提升放緩。

  再者,我國後E級計算機的研製面臨挑戰。目前用於研製後E級系統的高效能處理器/加速器需進行進口替代;克服“儲存牆”壁壘的HBM記憶體及新型儲存器件方面我國與世界最提高前輩水平仍存差距;自主高階處理器的研發和製造仍受制於人。

  此外,我國超算應用軟體對外依賴度較高,多數並行的科學與工程計算軟體依靠進口。

  《瞭望》:為什麼說我國超算追求的新目標要從機器效能世界領先轉向應用成效世界領先?

  錢德沛:如前所述,超算技術和國際形勢正在發生變化。大模型等AI應用的興起使得算力需求急劇上升。AI需要更多的是半精度浮點運算和整數運算,而不是傳統衡量效能的雙精度浮點運算。而且隨著機器規模的不斷擴大,發揮系統全機能力的平行計算變得更加困難,能否使應用軟體充分發揮並行硬體的優勢成為必須解決的難題。再者,當前依靠自主技術,在不是採用最高效能處理器實現的系統上,取得世界領先的應用成效,是贏得主動的關鍵。

  強調應用實效並不意味機器效能不重要,只是不以機器效能為唯一指標,而是把更多的力量放在軟硬結合、應用最佳化上,以取得應用實效為硬道理。

  AI帶來機遇

  《瞭望》:智算與超算有什麼區別?

  錢德沛:超算提供的是超強雙精度浮點運算能力,主要用於解決數值模擬和第一性原理計算等科學與工程計算問題,如景象形象數值預報、材料計算、流體動力學計算等。透過用數學物理方程建立待研究物件的數學模型,在初始和邊界條件下求解方程,得到待研究物件的特徵和性態,這是開展預測性科學研究的經典手段。

  隨著大資料和深度學習技術的出現,出現了新的問題求解模式,即AI賦能的模式,對應的計算稱之為智算。在智算模式下,採用人工神經網路作為被研究物件的模型。在訓練階段,使用大資料反覆訓練模型。在求解或者說推理階段,將待解題目的資料送入模型,得到結果輸出。模型的訓練和推理主要使用半精度浮點數或整數運算,這是智算不同於傳統超算之處。

  《瞭望》:AI的快速發展對超算帶來哪些機遇與挑戰?

  錢德沛:傳統的超級計算機也可以完成模型訓練和推理的任務,但是其超強的雙精度浮點運算能力得不到充分利用,反而消耗了更多的電力,而智算所需要的半精度浮點數和整數運算效能又不足,這是智算給傳統超算帶來的新挑戰。

  伴隨AI的快速進步,超算也迎來新的發展機遇。AI催生了前所未有的巨大算力需求,AI大模型通常擁有千億以上引數,其訓練依賴大算力,例如若使用每秒1000萬億次的超級計算機訓練一次GPT-3模型,需要連續執行3600余天。算力的巨大需求刺激超算發展,超算正在努力適應AI的需要,增強半精度浮點和整數運算能力,發展多種硬體加速器,高效支援AI的特徵操作。

  此外,機器學習、深度學習等AI技術具有解決高維數學題目的強大能力,催生了一種新的科研正規化,即AI For Science,或稱科學智慧。目前AI方法在蛋白質結構預測、新材料設計、天氣預報、大規模分子模擬等方面取得了突破性進展,正在改變這些領域依賴數值模擬的傳統局面,推動了超級計算與AI的融合發展。一方面,超算的平行計算能力是AI for Science的基礎。AI演算法通常涉及大量的平行計算,而超算的多處理器架構和平行計算能力能夠充分滿足這一需求。另一方面,AI for Science所產生的新方法和新軟體將極大豐富傳統超算的軟體資源,提高其解決複雜挑戰性問題的能力。

  抓住AI發展的契機,能夠帶動超算領域硬體、演算法、軟體、應用和系統的協同創新。

  構建支撐AI應用的超算網際網路

  《瞭望》:超算網際網路是如何提供快捷算力服務的?

  錢德沛:超算網際網路是一種基於網際網路理念,借鑑網際網路應用的成功經驗而發展的超算基礎設施。它追求應用資源的互通共享和高效利用,開拓應用開發和服務的新模式,力求改善使用者體驗,幫助使用者更好地解決應用問題,同時也為資源提供者,服務運營者創造更大的價值。

  首先,超算網際網路提供更多樣的資源部署模式,使用者可以根據自身業務需求選擇合適的資源部署模式,並可動態調整。例如,同時使用公共算力和私有算力的混合雲部署模式,使用多個算力中心資源的多雲部署模式,支援中心訓練與邊緣推理一體部署的雲邊端協同模式等。

  其次,超算網際網路提供更多元的應用服務,為使用者帶來多樣、便捷、場景化的算力使用模式。使用者既可直接訪問超級計算機來執行自己的軟體,也能透過應用服務平臺使用應用服務,或透過應用場景APP獲取算力服務。該模式下,使用者按需使用應用軟體,按使用量付費,無需關注其使用的算力型別和地理位置,甚至無需關注使用了什麼應用軟體,從而大幅降低使用者的算力使用門檻。

  第三,提供更良性的算力中心競合模式。相比單個算力中心獨立為使用者提供服務,超算網際網路透過一體化算力服務平臺,允許使用者選擇最合適的算力中心或同時享受多個算力中心的服務。算力中心之間也將從競爭走向競合,從而彌補自身資源與能力不足,更好滿足使用者需求。

  第四,提供更緊密的產業生態協作模式。在超算網際網路上,活躍的不僅是算力的提供商和消費者,更有大量的應用軟體商、應用服務商、資料提供商、代算商、技術與資訊提供商、居間服務商等多元角色。超算網際網路平臺透過線上一站式配齊算力、軟體、資料、模型、技術服務、技術資料、培訓等各類要素資源,促進供需高效對接,從而形成算力產業的生態大協作平臺。

  《瞭望》:推動超算網際網路服務AI應用,還需解決哪些難題?

  錢德沛:要推動超算網際網路服務AI應用,需要匯聚超算、智算等算力中心的異構算力資源,對資源進行池化管理與統一排程,而晶片多樣、體系異構、全域性儲存、高速互連等難題直接或間接影響算力排程系統的設計,需要發力解決。

  晶片方面,隨著應用需求和晶片技術的發展,計算晶片呈現多樣化發展趨勢。算力中心的計算晶片主要包括通用處理器和AI處理器,提供不同精度的計算能力。目前國產AI晶片發展快速,如百度崑崙芯、華為昇騰、寒武紀等,還需大力完善國產AI晶片的應用生態,解決應用便捷開發和執行穩定性等問題。

  體系異構方面,異構計算已成為算力中心的主流架構。全球超級計算機超三成使用異構架構,智算中心中異構系統更加普遍,如CPU+英偉達GPU、CPU+深度學習處理器/加速器等結構。多種異構架構及加速硬體的出現,增加了並行程式設計的複雜性和算力排程的難度。要解決AI應用與異構硬體的適配問題,在改善應用效能的同時提高資源利用率。

  高效儲存方面,要在超算網際網路、多雲互聯的環境下,建立跨域虛擬資料空間,構建覆蓋多中心的全域性資料資源檢視,實現資料全域性可視、跨域資料訪問與排程、跨中心智慧化資料管理等必要功能,更好地滿足資料遷移、儲存佈局最佳化、故障預測、資料保護等需要。

  高速互連方面,要充分考慮AI應用對計算節點內、計算節點間的互連需求,在保證更高資料傳輸速率、更大資料傳輸頻寬和更低資料傳輸延遲的同時,提高互連的穩定性和可靠性,以保證大模型訓練等AI應用的長時間不亂執行。此外,還要提高算力中心內部和算力中心之間的網路效能,以支援更大範圍的資源共享和協同工作。

中國科學院院士錢德沛

  強調應用實效並不意味機器效能不重要,只是不以機器效能為唯一指標,而是把更多的力量放在軟硬結合、應用最佳化上,以取得應用實效為硬道理

  算力的巨大需求刺激超算發展,超算正在努力適應AI的需要,增強半精度浮點和整數運算能力,發展多種硬體加速器,高效支援AI的特徵操作

  推動超算網際網路服務AI應用,需要匯聚超算、智算等算力中心的異構算力資源,對資源進行池化管理與統一排程,而晶片多樣、體系異構、全域性儲存、高速互連等難題直接或間接影響算力排程系統的設計,需要發力解決

  文 |《瞭望》新聞週刊記者 扈永順

  超級計算能力是衡量一個國家或地區科技競爭力和綜合實力的重要標誌,是國之重器。近年來我國研發的高效能計算機支撐了系列重要科學研究和工程建設專案,無論在核聚變裝置設計和高能物理計算,仍是國產大飛機C919的空氣動力學分析和海洋石油鑽井平臺的研製,以及模擬人類大腦能力的類腦智慧和創新藥物研發方面,都有超算的協助。

  步入數字經濟時代,算力成為新型生產力。AI和大模型的發展對算力提出了前所未有的新需求,但急劇變化的國際環境對我國超算的可持續發展提出了嚴峻挑戰。“以應用成效論英雄,從機器效能世界領先轉向應用成效世界領先,應該成為我國高效能計算發展追求的新目標。”中國科學院院士、北京航空航天大學計算機學院教授錢德沛向《瞭望》新聞週刊記者表示,超算網際網路正是在這個背景下提出的重要任務。

  4月11日,國家超算網際網路平臺上線,聚焦降低算力使用門檻,提高資源利用效率,為數字中國建設、數字經濟發展等提供堅實支撐。“基於網際網路發展理念,超算中心提供超級算力,在超算網際網路上構建領域應用平臺,把各種應用軟體提供給使用者,使得更多使用者能利便獲得需要的計算應用資源,讓超算的使用更為普及。”錢德沛介紹。

  超級計算發展面臨新形勢

  《瞭望》:我國超算經歷了怎樣的發展歷程?

  錢德沛:過去30年,在我國科技人員的努力下,高效能計算事業取得了長足進步。效能也即運算速度是衡量超算水平的世界公認指標,按計算機效能劃分,我國經歷了4個階段,每個階段計算機效能提高1000倍,即從G級(每秒10億次)到T級(每秒萬億次),再到P級(每秒1000萬億次),再到E級(每秒百億億次)。相對應的典型計算機系統是早期的曙光1000(G級),20世紀末的曙光3000(百G級),本世紀初的聯想深騰6800和曙光4000A(T級),接著是天河一號、曙光6000和神威·藍光(P級),神威·太湖之光和天河二號(百P級)等。“十三五”規劃提出要突破E級(1000P級)計算機核心技術,也已實現了研究目標。

  自主研發的神威、天河、曙光系列超級計算機已11次位居世界超算TOP500排行榜第一,大氣模擬、地震模擬、量子模擬等關鍵領域大規模平行計算應用三次獲得世界高效能計算應用最高獎“戈登·貝爾”獎。全國範圍建成由14個國家超級計算中心支撐的國家高效能計算環境(中國國家網格)等戰略性資訊基礎設施。

  《瞭望》:當前超算發展面臨哪些新的挑戰?

  錢德沛:當前超算發展遇到瓶頸,TOP500的資料說明,超算效能增長從過去每10~11年增長1000倍降到了增長100倍以下。

  首先,能效指標約束下不能依靠擴大系統規模來提高效能。2022年,美國橡樹嶺國家實驗室研發的超級計算機Frontier成為世界上第一臺百億億級的E級超級計算機。該機是此規模系統世界最好水平,但每小時仍耗電2萬多度,相當於數十萬檯筆記本電腦的耗電量。在我國雙碳指標約束下,計算機系統研製和資料中心建設必須考慮能耗因素。

  其次,計算架構師們一直信奉的摩爾定律已經接近其極限。體系結構變化緩慢,量子計算機等顛覆性技術距離實用尚有距離,新原理的計算和儲存器件缺少突破,演算法、軟體和硬體之間匹配不良等問題,導致超級計算機效能的提升放緩。

  再者,我國後E級計算機的研製面臨挑戰。目前用於研製後E級系統的高效能處理器/加速器需進行進口替代;克服“儲存牆”壁壘的HBM記憶體及新型儲存器件方面我國與世界最提高前輩水平仍存差距;自主高階處理器的研發和製造仍受制於人。

  此外,我國超算應用軟體對外依賴度較高,多數並行的科學與工程計算軟體依靠進口。

  《瞭望》:為什麼說我國超算追求的新目標要從機器效能世界領先轉向應用成效世界領先?

  錢德沛:如前所述,超算技術和國際形勢正在發生變化。大模型等AI應用的興起使得算力需求急劇上升。AI需要更多的是半精度浮點運算和整數運算,而不是傳統衡量效能的雙精度浮點運算。而且隨著機器規模的不斷擴大,發揮系統全機能力的平行計算變得更加困難,能否使應用軟體充分發揮並行硬體的優勢成為必須解決的難題。再者,當前依靠自主技術,在不是採用最高效能處理器實現的系統上,取得世界領先的應用成效,是贏得主動的關鍵。

  強調應用實效並不意味機器效能不重要,只是不以機器效能為唯一指標,而是把更多的力量放在軟硬結合、應用最佳化上,以取得應用實效為硬道理。

  AI帶來機遇

  《瞭望》:智算與超算有什麼區別?

  錢德沛:超算提供的是超強雙精度浮點運算能力,主要用於解決數值模擬和第一性原理計算等科學與工程計算問題,如景象形象數值預報、材料計算、流體動力學計算等。透過用數學物理方程建立待研究物件的數學模型,在初始和邊界條件下求解方程,得到待研究物件的特徵和性態,這是開展預測性科學研究的經典手段。

  隨著大資料和深度學習技術的出現,出現了新的問題求解模式,即AI賦能的模式,對應的計算稱之為智算。在智算模式下,採用人工神經網路作為被研究物件的模型。在訓練階段,使用大資料反覆訓練模型。在求解或者說推理階段,將待解題目的資料送入模型,得到結果輸出。模型的訓練和推理主要使用半精度浮點數或整數運算,這是智算不同於傳統超算之處。

  《瞭望》:AI的快速發展對超算帶來哪些機遇與挑戰?

  錢德沛:傳統的超級計算機也可以完成模型訓練和推理的任務,但是其超強的雙精度浮點運算能力得不到充分利用,反而消耗了更多的電力,而智算所需要的半精度浮點數和整數運算效能又不足,這是智算給傳統超算帶來的新挑戰。

  伴隨AI的快速進步,超算也迎來新的發展機遇。AI催生了前所未有的巨大算力需求,AI大模型通常擁有千億以上引數,其訓練依賴大算力,例如若使用每秒1000萬億次的超級計算機訓練一次GPT-3模型,需要連續執行3600余天。算力的巨大需求刺激超算發展,超算正在努力適應AI的需要,增強半精度浮點和整數運算能力,發展多種硬體加速器,高效支援AI的特徵操作。

  此外,機器學習、深度學習等AI技術具有解決高維數學題目的強大能力,催生了一種新的科研正規化,即AI For Science,或稱科學智慧。目前AI方法在蛋白質結構預測、新材料設計、天氣預報、大規模分子模擬等方面取得了突破性進展,正在改變這些領域依賴數值模擬的傳統局面,推動了超級計算與AI的融合發展。一方面,超算的平行計算能力是AI for Science的基礎。AI演算法通常涉及大量的平行計算,而超算的多處理器架構和平行計算能力能夠充分滿足這一需求。另一方面,AI for Science所產生的新方法和新軟體將極大豐富傳統超算的軟體資源,提高其解決複雜挑戰性問題的能力。

  抓住AI發展的契機,能夠帶動超算領域硬體、演算法、軟體、應用和系統的協同創新。

  構建支撐AI應用的超算網際網路

  《瞭望》:超算網際網路是如何提供快捷算力服務的?

  錢德沛:超算網際網路是一種基於網際網路理念,借鑑網際網路應用的成功經驗而發展的超算基礎設施。它追求應用資源的互通共享和高效利用,開拓應用開發和服務的新模式,力求改善使用者體驗,幫助使用者更好地解決應用問題,同時也為資源提供者,服務運營者創造更大的價值。

  首先,超算網際網路提供更多樣的資源部署模式,使用者可以根據自身業務需求選擇合適的資源部署模式,並可動態調整。例如,同時使用公共算力和私有算力的混合雲部署模式,使用多個算力中心資源的多雲部署模式,支援中心訓練與邊緣推理一體部署的雲邊端協同模式等。

  其次,超算網際網路提供更多元的應用服務,為使用者帶來多樣、便捷、場景化的算力使用模式。使用者既可直接訪問超級計算機來執行自己的軟體,也能透過應用服務平臺使用應用服務,或透過應用場景APP獲取算力服務。該模式下,使用者按需使用應用軟體,按使用量付費,無需關注其使用的算力型別和地理位置,甚至無需關注使用了什麼應用軟體,從而大幅降低使用者的算力使用門檻。

  第三,提供更良性的算力中心競合模式。相比單個算力中心獨立為使用者提供服務,超算網際網路透過一體化算力服務平臺,允許使用者選擇最合適的算力中心或同時享受多個算力中心的服務。算力中心之間也將從競爭走向競合,從而彌補自身資源與能力不足,更好滿足使用者需求。

  第四,提供更緊密的產業生態協作模式。在超算網際網路上,活躍的不僅是算力的提供商和消費者,更有大量的應用軟體商、應用服務商、資料提供商、代算商、技術與資訊提供商、居間服務商等多元角色。超算網際網路平臺透過線上一站式配齊算力、軟體、資料、模型、技術服務、技術資料、培訓等各類要素資源,促進供需高效對接,從而形成算力產業的生態大協作平臺。

  《瞭望》:推動超算網際網路服務AI應用,還需解決哪些難題?

  錢德沛:要推動超算網際網路服務AI應用,需要匯聚超算、智算等算力中心的異構算力資源,對資源進行池化管理與統一排程,而晶片多樣、體系異構、全域性儲存、高速互連等難題直接或間接影響算力排程系統的設計,需要發力解決。

  晶片方面,隨著應用需求和晶片技術的發展,計算晶片呈現多樣化發展趨勢。算力中心的計算晶片主要包括通用處理器和AI處理器,提供不同精度的計算能力。目前國產AI晶片發展快速,如百度崑崙芯、華為昇騰、寒武紀等,還需大力完善國產AI晶片的應用生態,解決應用便捷開發和執行穩定性等問題。

  體系異構方面,異構計算已成為算力中心的主流架構。全球超級計算機超三成使用異構架構,智算中心中異構系統更加普遍,如CPU+英偉達GPU、CPU+深度學習處理器/加速器等結構。多種異構架構及加速硬體的出現,增加了並行程式設計的複雜性和算力排程的難度。要解決AI應用與異構硬體的適配問題,在改善應用效能的同時提高資源利用率。

  高效儲存方面,要在超算網際網路、多雲互聯的環境下,建立跨域虛擬資料空間,構建覆蓋多中心的全域性資料資源檢視,實現資料全域性可視、跨域資料訪問與排程、跨中心智慧化資料管理等必要功能,更好地滿足資料遷移、儲存佈局最佳化、故障預測、資料保護等需要。

  高速互連方面,要充分考慮AI應用對計算節點內、計算節點間的互連需求,在保證更高資料傳輸速率、更大資料傳輸頻寬和更低資料傳輸延遲的同時,提高互連的穩定性和可靠性,以保證大模型訓練等AI應用的長時間不亂執行。此外,還要提高算力中心內部和算力中心之間的網路效能,以支援更大範圍的資源共享和協同工作。

中國科學院院士錢德沛

  強調應用實效並不意味機器效能不重要,只是不以機器效能為唯一指標,而是把更多的力量放在軟硬結合、應用最佳化上,以取得應用實效為硬道理

  算力的巨大需求刺激超算發展,超算正在努力適應AI的需要,增強半精度浮點和整數運算能力,發展多種硬體加速器,高效支援AI的特徵操作

  推動超算網際網路服務AI應用,需要匯聚超算、智算等算力中心的異構算力資源,對資源進行池化管理與統一排程,而晶片多樣、體系異構、全域性儲存、高速互連等難題直接或間接影響算力排程系統的設計,需要發力解決

  文 |《瞭望》新聞週刊記者 扈永順

  超級計算能力是衡量一個國家或地區科技競爭力和綜合實力的重要標誌,是國之重器。近年來我國研發的高效能計算機支撐了系列重要科學研究和工程建設專案,無論在核聚變裝置設計和高能物理計算,仍是國產大飛機C919的空氣動力學分析和海洋石油鑽井平臺的研製,以及模擬人類大腦能力的類腦智慧和創新藥物研發方面,都有超算的協助。

  步入數字經濟時代,算力成為新型生產力。AI和大模型的發展對算力提出了前所未有的新需求,但急劇變化的國際環境對我國超算的可持續發展提出了嚴峻挑戰。“以應用成效論英雄,從機器效能世界領先轉向應用成效世界領先,應該成為我國高效能計算發展追求的新目標。”中國科學院院士、北京航空航天大學計算機學院教授錢德沛向《瞭望》新聞週刊記者表示,超算網際網路正是在這個背景下提出的重要任務。

  4月11日,國家超算網際網路平臺上線,聚焦降低算力使用門檻,提高資源利用效率,為數字中國建設、數字經濟發展等提供堅實支撐。“基於網際網路發展理念,超算中心提供超級算力,在超算網際網路上構建領域應用平臺,把各種應用軟體提供給使用者,使得更多使用者能利便獲得需要的計算應用資源,讓超算的使用更為普及。”錢德沛介紹。

  超級計算發展面臨新形勢

  《瞭望》:我國超算經歷了怎樣的發展歷程?

  錢德沛:過去30年,在我國科技人員的努力下,高效能計算事業取得了長足進步。效能也即運算速度是衡量超算水平的世界公認指標,按計算機效能劃分,我國經歷了4個階段,每個階段計算機效能提高1000倍,即從G級(每秒10億次)到T級(每秒萬億次),再到P級(每秒1000萬億次),再到E級(每秒百億億次)。相對應的典型計算機系統是早期的曙光1000(G級),20世紀末的曙光3000(百G級),本世紀初的聯想深騰6800和曙光4000A(T級),接著是天河一號、曙光6000和神威·藍光(P級),神威·太湖之光和天河二號(百P級)等。“十三五”規劃提出要突破E級(1000P級)計算機核心技術,也已實現了研究目標。

  自主研發的神威、天河、曙光系列超級計算機已11次位居世界超算TOP500排行榜第一,大氣模擬、地震模擬、量子模擬等關鍵領域大規模平行計算應用三次獲得世界高效能計算應用最高獎“戈登·貝爾”獎。全國範圍建成由14個國家超級計算中心支撐的國家高效能計算環境(中國國家網格)等戰略性資訊基礎設施。

  《瞭望》:當前超算發展面臨哪些新的挑戰?

  錢德沛:當前超算發展遇到瓶頸,TOP500的資料說明,超算效能增長從過去每10~11年增長1000倍降到了增長100倍以下。

  首先,能效指標約束下不能依靠擴大系統規模來提高效能。2022年,美國橡樹嶺國家實驗室研發的超級計算機Frontier成為世界上第一臺百億億級的E級超級計算機。該機是此規模系統世界最好水平,但每小時仍耗電2萬多度,相當於數十萬檯筆記本電腦的耗電量。在我國雙碳指標約束下,計算機系統研製和資料中心建設必須考慮能耗因素。

  其次,計算架構師們一直信奉的摩爾定律已經接近其極限。體系結構變化緩慢,量子計算機等顛覆性技術距離實用尚有距離,新原理的計算和儲存器件缺少突破,演算法、軟體和硬體之間匹配不良等問題,導致超級計算機效能的提升放緩。

  再者,我國後E級計算機的研製面臨挑戰。目前用於研製後E級系統的高效能處理器/加速器需進行進口替代;克服“儲存牆”壁壘的HBM記憶體及新型儲存器件方面我國與世界最提高前輩水平仍存差距;自主高階處理器的研發和製造仍受制於人。

  此外,我國超算應用軟體對外依賴度較高,多數並行的科學與工程計算軟體依靠進口。

  《瞭望》:為什麼說我國超算追求的新目標要從機器效能世界領先轉向應用成效世界領先?

  錢德沛:如前所述,超算技術和國際形勢正在發生變化。大模型等AI應用的興起使得算力需求急劇上升。AI需要更多的是半精度浮點運算和整數運算,而不是傳統衡量效能的雙精度浮點運算。而且隨著機器規模的不斷擴大,發揮系統全機能力的平行計算變得更加困難,能否使應用軟體充分發揮並行硬體的優勢成為必須解決的難題。再者,當前依靠自主技術,在不是採用最高效能處理器實現的系統上,取得世界領先的應用成效,是贏得主動的關鍵。

  強調應用實效並不意味機器效能不重要,只是不以機器效能為唯一指標,而是把更多的力量放在軟硬結合、應用最佳化上,以取得應用實效為硬道理。

  AI帶來機遇

  《瞭望》:智算與超算有什麼區別?

  錢德沛:超算提供的是超強雙精度浮點運算能力,主要用於解決數值模擬和第一性原理計算等科學與工程計算問題,如景象形象數值預報、材料計算、流體動力學計算等。透過用數學物理方程建立待研究物件的數學模型,在初始和邊界條件下求解方程,得到待研究物件的特徵和性態,這是開展預測性科學研究的經典手段。

  隨著大資料和深度學習技術的出現,出現了新的問題求解模式,即AI賦能的模式,對應的計算稱之為智算。在智算模式下,採用人工神經網路作為被研究物件的模型。在訓練階段,使用大資料反覆訓練模型。在求解或者說推理階段,將待解題目的資料送入模型,得到結果輸出。模型的訓練和推理主要使用半精度浮點數或整數運算,這是智算不同於傳統超算之處。

  《瞭望》:AI的快速發展對超算帶來哪些機遇與挑戰?

  錢德沛:傳統的超級計算機也可以完成模型訓練和推理的任務,但是其超強的雙精度浮點運算能力得不到充分利用,反而消耗了更多的電力,而智算所需要的半精度浮點數和整數運算效能又不足,這是智算給傳統超算帶來的新挑戰。

  伴隨AI的快速進步,超算也迎來新的發展機遇。AI催生了前所未有的巨大算力需求,AI大模型通常擁有千億以上引數,其訓練依賴大算力,例如若使用每秒1000萬億次的超級計算機訓練一次GPT-3模型,需要連續執行3600余天。算力的巨大需求刺激超算發展,超算正在努力適應AI的需要,增強半精度浮點和整數運算能力,發展多種硬體加速器,高效支援AI的特徵操作。

  此外,機器學習、深度學習等AI技術具有解決高維數學題目的強大能力,催生了一種新的科研正規化,即AI For Science,或稱科學智慧。目前AI方法在蛋白質結構預測、新材料設計、天氣預報、大規模分子模擬等方面取得了突破性進展,正在改變這些領域依賴數值模擬的傳統局面,推動了超級計算與AI的融合發展。一方面,超算的平行計算能力是AI for Science的基礎。AI演算法通常涉及大量的平行計算,而超算的多處理器架構和平行計算能力能夠充分滿足這一需求。另一方面,AI for Science所產生的新方法和新軟體將極大豐富傳統超算的軟體資源,提高其解決複雜挑戰性問題的能力。

  抓住AI發展的契機,能夠帶動超算領域硬體、演算法、軟體、應用和系統的協同創新。

  構建支撐AI應用的超算網際網路

  《瞭望》:超算網際網路是如何提供快捷算力服務的?

  錢德沛:超算網際網路是一種基於網際網路理念,借鑑網際網路應用的成功經驗而發展的超算基礎設施。它追求應用資源的互通共享和高效利用,開拓應用開發和服務的新模式,力求改善使用者體驗,幫助使用者更好地解決應用問題,同時也為資源提供者,服務運營者創造更大的價值。

  首先,超算網際網路提供更多樣的資源部署模式,使用者可以根據自身業務需求選擇合適的資源部署模式,並可動態調整。例如,同時使用公共算力和私有算力的混合雲部署模式,使用多個算力中心資源的多雲部署模式,支援中心訓練與邊緣推理一體部署的雲邊端協同模式等。

  其次,超算網際網路提供更多元的應用服務,為使用者帶來多樣、便捷、場景化的算力使用模式。使用者既可直接訪問超級計算機來執行自己的軟體,也能透過應用服務平臺使用應用服務,或透過應用場景APP獲取算力服務。該模式下,使用者按需使用應用軟體,按使用量付費,無需關注其使用的算力型別和地理位置,甚至無需關注使用了什麼應用軟體,從而大幅降低使用者的算力使用門檻。

  第三,提供更良性的算力中心競合模式。相比單個算力中心獨立為使用者提供服務,超算網際網路透過一體化算力服務平臺,允許使用者選擇最合適的算力中心或同時享受多個算力中心的服務。算力中心之間也將從競爭走向競合,從而彌補自身資源與能力不足,更好滿足使用者需求。

  第四,提供更緊密的產業生態協作模式。在超算網際網路上,活躍的不僅是算力的提供商和消費者,更有大量的應用軟體商、應用服務商、資料提供商、代算商、技術與資訊提供商、居間服務商等多元角色。超算網際網路平臺透過線上一站式配齊算力、軟體、資料、模型、技術服務、技術資料、培訓等各類要素資源,促進供需高效對接,從而形成算力產業的生態大協作平臺。

  《瞭望》:推動超算網際網路服務AI應用,還需解決哪些難題?

  錢德沛:要推動超算網際網路服務AI應用,需要匯聚超算、智算等算力中心的異構算力資源,對資源進行池化管理與統一排程,而晶片多樣、體系異構、全域性儲存、高速互連等難題直接或間接影響算力排程系統的設計,需要發力解決。

  晶片方面,隨著應用需求和晶片技術的發展,計算晶片呈現多樣化發展趨勢。算力中心的計算晶片主要包括通用處理器和AI處理器,提供不同精度的計算能力。目前國產AI晶片發展快速,如百度崑崙芯、華為昇騰、寒武紀等,還需大力完善國產AI晶片的應用生態,解決應用便捷開發和執行穩定性等問題。

  體系異構方面,異構計算已成為算力中心的主流架構。全球超級計算機超三成使用異構架構,智算中心中異構系統更加普遍,如CPU+英偉達GPU、CPU+深度學習處理器/加速器等結構。多種異構架構及加速硬體的出現,增加了並行程式設計的複雜性和算力排程的難度。要解決AI應用與異構硬體的適配問題,在改善應用效能的同時提高資源利用率。

  高效儲存方面,要在超算網際網路、多雲互聯的環境下,建立跨域虛擬資料空間,構建覆蓋多中心的全域性資料資源檢視,實現資料全域性可視、跨域資料訪問與排程、跨中心智慧化資料管理等必要功能,更好地滿足資料遷移、儲存佈局最佳化、故障預測、資料保護等需要。

  高速互連方面,要充分考慮AI應用對計算節點內、計算節點間的互連需求,在保證更高資料傳輸速率、更大資料傳輸頻寬和更低資料傳輸延遲的同時,提高互連的穩定性和可靠性,以保證大模型訓練等AI應用的長時間不亂執行。此外,還要提高算力中心內部和算力中心之間的網路效能,以支援更大範圍的資源共享和協同工作。

上一篇:特斯拉:Cybe... 下一篇:專注家庭看護...
猜你喜歡
熱門閱讀
同類推薦