share_log

对话中科驭数CEO鄢贵海:AI算力热潮下,对标英伟达的国产芯片如何发挥更大价值?|钛媒体AGI

對話中科馭數CEO鄢貴海:AI算力熱潮下,對標英偉達的國產芯片如何發揮更大價值?|鈦媒體AGI

鈦媒體 ·  06/21 09:06

中科馭數創始人、CEO鄢貴海

中科馭數創始人、CEO鄢貴海

鈦媒體AGI獲悉,6月19日下午,孵化於中科院計算所、產品用於數據中心的國內DPU芯片公司中科馭數發佈基於28nm製程的第三代DPU芯片K2-Pro,以及芯片軟件、智能網卡、低時延網卡、馭雲高性能雲底座開發平台等一系列產品。

這是繼2022年底,中科馭數第二代DPU(數據處理單元)芯片K2成爲首顆成功點亮的國產DPU芯片後,又一次新的升級。同時,K2-Pro也是國內首顆面向量產的全功能DPU芯片產品。

而基於K2-Pro的低時延網絡DPU卡的價格最高達22922元人民幣。

清華大學教授、中國工程院院士鄭緯民在會上表示,大數據、算法和算力已經成爲 AI 產業發展的“三駕馬車”。而DPU芯片被稱爲是數據中心繼CPU、GPU之後的第三顆主力芯片。作爲數據處理器,它承擔數據網絡傳輸、存儲、計算、安全等任務,是重要的新型算力基礎設施。

“算力是數字經濟的底座,沒有算力,做不了ChatGPT。芯片是算力的核心,是算力提升的關鍵所在。”鄭緯民稱。

會後,中科馭數創始人、CEO鄢貴海對鈦媒體App等表示,生成式 AI 浪潮引發數據處理需求增加,凸顯了DPU產品的重要性。

他透露,預計到2025年,中科馭數將推出14nm製程的第四代DPU芯片K3,採用最新KPU架構以及KISA 2.0指令集,集成RISC-V輕量級控制核,處理帶寬將是K2-Pro的四倍,達到800G,延遲低於1微秒,功耗比K2-Pro下降40%。

鄢貴海強調,預計2024年全年,中科馭數DPU芯片K2-Pro的出貨量超過1萬片。公司預估未來三年內,DPU產品出貨量將突破百萬量級,同時整個網絡帶寬領域的佔有率能夠達到30%。

據悉,中科馭數成立於2018年,孵化於中科院計算所計算機體系結構國家重點實驗室,是一家聚焦於專用數據處理器的研發設計企業,致力於解決後摩爾定律時代通用算力不足的核心問題,爲智能計算提供DPU芯片和解決方案。公司創始人鄢貴海還擔任中科院計算所研究員、博士生導師,主要研究專用計算機體系結構。

DPU是面向基礎設施層的數據處理單元,也是未來算力網絡的核心基礎設施,將被廣泛應用於超低延遲網絡、大數據處理、5G邊緣計算、高速存儲等低時延、數據密集型計算場景。類似思路很早就存在於市場當中,業內稱之爲“智能網卡”(SmartNIC)。

英偉達則將DPU這一概念重新推向時代潮頭中。2020年4月,英偉達以69億美元,完成對以色列網絡芯片商邁絡思(Mellanox)的收購。隨後在2020年10月,英偉達推出首款DPU芯片。

英偉達CEO黃仁勳曾表示,CPU(中央處理器)、GPU(圖形處理器)、DPU是數據中心的“三大支柱”。因爲加上DPU後,網絡、存儲、安全和虛擬化等基礎功能將由DPU驅動,與CPU之間增加隔離層,可解決黑客通過雲端入侵數據中心等問題。

鄢貴海對此有一個生動的比喻。他認爲,如果把一臺計算機或服務器比作一個人,把CPU比作大腦、那麼GPU就好比是肌肉、而DPU就是神經中樞。CPU承載了應用生態,決定了計算系統是否可以通用;GPU提供了高密度各類精度的算力,決定了系統是否有足夠的“力量”;DPU負責數據在各種CPU和GPU之間高效流通,決定了系統是否能協同工作。

目前,國際上做DPU的公司主要包括英特爾、英偉達、AMD、微軟、Marvell(邁威爾科技)、Broadcom(博通)等芯片巨頭,而國內在DPU領域佈局的廠商達30家左右。

融資方面,成立的六年間,中科馭數已完成四輪融資,投資方包括金融街資本、華泰創新、國新思創、中科創星、崑崙資本、靈均投資等機構。

在硬件產品研發層面,至今,中科馭數已經開展了三款DPU芯片的研發迭代。2019年流片了第一代DPU芯片K1,第二代DPU芯片K2,如今是第三代的K2 Pro。而基於DPU芯片技術,中科馭數有三大DPU卡系列:思威SWIFT、福來FlexFlow、功夫Conflux。

中科馭數聯合創始人兼CTO盧文巖在演講中表示,中科馭數第三代DPU芯片K2-Pro DPU芯片是專爲破解大規模數據中心性能瓶頸而生的高效能數據處理芯片,基於自研的KPU和KISA指令集架構,包處理速率翻倍至80Mpps,最高支持200G網絡帶寬,具備高度可編程性,確保了系統的靈活擴展性,爲數據中心的業務增長和算力擴容提供堅實基礎。在處理複雜任務時,K2-Pro相比上一代芯片能耗降低30%。作爲一款純國產的高性能解決方案,K2-Pro適用於雲計算、智能計算及高性能計算等領域,可助力數據中心應對日益增長的規模和性能需求。

談到 AI 領域 DPU能發揮哪些更大價值點,盧文巖向鈦媒體App表示,對於生成式 AI,數據量特別大,DPU嘗試做優化,K2-Pro芯片裏面有可編程的處理引擎,團隊也在針對特定的場景做一些類似構架的升級開發,在數據通路上做一些事情。

市場應用與商業化層面,DPU產品主要應用於金融、數據中心等場景。中科馭數已經在雲數據中心、智算中心、金融計算等領域有上百家客戶深度市場合作落地。和幾十家國內主流算力產業鏈合作伙伴完成兼容認證,並建立戰略合作關係 。

另外,在會上,中科馭數還公佈DPU敏捷異構軟件開發平台HADOS 3.0、基於K2-Pro芯片的三個系列6大DPU卡產品、馭雲高性能雲異構算力解決方案等。

其中在硬件層面,GPU領域,英偉達之所以能夠“一騎絕塵”,是因爲其很早就設計出了CUDA架構。而中科馭數稱,此次升級,K2-Pro DPU芯片採用了自主研發的KPU(Kernel Processing Unit)架構,該架構以定製化的功能核作爲基本單元,直接對上層應用中計算密集型任務進行抽象,集網絡、存儲、安全及計算等多業務卸載功能於一體,這也是該芯片升級的“秘訣”之一。

在軟件層面,中科馭數表示,對比英偉達DPU的DOCA,和Intel IPU的IPDK,馭數HADOS在不少方面都有獨特的沉澱和積累,HADOS 3.0在高性能雲原生網絡,尤其是微服務治理、運維管控、仿真模擬、生態適配、國內安全加解密、以及最重要的人工智能場景下,國產AI和GPU適配均佔據了明顯的優勢,HADOS已經站在了業界的最前沿,與業界巨頭競爭角力。

鄢貴海向鈦媒體App等坦言,英偉達已經是一個“大象”,大象專屬權力就是慢,慢慢吞吞的,雖然IPU定位很好,基礎也不錯,但是總是感覺迭代非常慢。而DPU某種意義來看定位作用應該要把能夠承載類似NV-Link的互聯搭在上面。而K2-Pro很好能夠解決這類關鍵性需求。

在鄭緯民看來,DPU芯片作爲重要算力基礎設施,在實現自主可控方面也具有重要的戰略意義,“國外廠商英偉達、英特爾、AMD都有推出相應的DPU產品。面對新形勢新要求,國產DPU要持續加強基礎研究,充分利用資源和技術優勢,緊密圍繞產業創新能力和產業鏈完整新發展,深入推進核心技術突破,打造核心技術制高點。在DPU這一領域我們也要打破國外芯片巨頭的壟斷,助力算力領域的安全自主可控。”

“回顧在50年前,當英特爾發佈他們最重要的CPU的時候,中國還沒有改革開放。30年前英偉達發佈了起死回生的GeForce系列GPU,國內我們還處於濃濃的“做不如買,買不如租”的氛圍中。在4年前,當DPU成爲了風口浪尖,成爲熱點的時候,這時候我們終於領先了2年出發,這一次,我們終於有希望不僅是起得早,還希望能趕上早集。我們更希望,人們以後記住Intel=CPU,Nvidia(英偉達)=GPU,而中科馭數=DPU,讓DPU也等於中科馭數。”鄢貴海在演講結尾表示。

事實上,目前火熱的AIGC應用中,AI大模型的訓練往往同時使用數千或數萬個GPU芯片,整個服務器集群規模達到10萬+,此時DPU可以支持超大規模組網算力互連,並可支持200G+的超高帶寬,是AI產業發展的“加速器”。

鄭緯民強調,“DPU產業已經成爲國內外競爭的新焦點,在未來數據中心、智算中心等高帶寬、低時延、高吞吐的應用場景都將發揮重要作用,爲東數西算、算力網絡等重要新型算力基礎設施建設提供核心組件。”

以下是鄢貴海與鈦媒體等媒體的對話速記,經鈦媒體AGI編輯整理,有刪減:

問:今天說了很多“重新定義DPU”,這怎麼理解?

鄢貴海:爲什麼叫重新定義DPU?我們重新定義DPU有兩個維度可以理解,第一我們現在認爲DPU已經不單獨是單純的芯片事情,所以今天下午我們發佈的時候叫架構決勝,這主要是芯片層次的。另外叫軟件護城,基礎軟件包括最後的平台要上門,這是DPU軟硬件技術在雲裏面的落地深耕。我們現在認爲要把DPU做好其實要在這三個層次都要同時下工夫才行。所以這是第一個維度。

第二個維度,所謂重新定義是跟DPU本身一個是目標應用我們要跟原來狹義理解上的DPU不一樣,可能大家很多對DPU的理解都還覺得DPU是做一些卸載,做一些CPU業務的卸載。這個第一是特別老舊的觀念,第二是很誤導性的觀念,因爲今天DPU應用絕對不僅僅是卸載一點CPU上的負載那麼簡單,有些任務不僅GPU幹不了,CPU也幹不了,比如處理安全上的業務,比如做分佈式安全機制,這些業務都是CPU本身不太能有效處理的,而在DPU上面做這件事情就會非常簡單。

今天我提到叫DPU,是我們進行算網融合的關鍵組件,其中網中有算這件事情只有DPU可以幹,這種負載類型其實不是在所謂的CPU可以處理。

DPU首先定義要分層次,不能單純只搞芯片這一件事情。第二個事情,DPU本身它的功能應該要跟原來狹義理解的DPU卸載CPU的負載侷限的視角去看它,而應該是更廣,更甚至於現在看計算機系統的時候其實看的分佈式大的集群性系統,我們對於資源的理解,對於它上面承載好的負載類型都要跟原來對單機、單個服務器視角明顯不同。

問:談到客戶應用,DPU特別傾向於什麼類型的客戶使用?

鄢貴海:DPU本身作爲算力基礎設施裏面核心的組件,它有一定通用性,也就是說需要提高你的計算集群效率,需要提高你的計算集群運維水平,需要提高你的集群本身算力大小,把它切換到DPU方案類型上都是非常好的一種選擇。這也就意味着本身DPU有一定的通用性,只要你的客戶需求有升級改造需求,那我覺得DPU就是很好的選擇,如果業務量還比較小,可能每天就處理幾個文檔,那就沒有必要了。

問:商業化這塊,這次K2-Pro定位於面向大規模商用,今天會上也看見很多高校和科研單位,高校教育行業也是我們的一個目標市場麼?決定能不能大規模商業化,技術能力上的因素在於什麼?

鄢貴海:能不能大規模商業化有三點,第一點,你的成本,一顆DPU賣5萬塊錢,做得再好也沒有希望,都不太可能大規模商業化。現在DPU通常都不便宜,英偉達的DPU也很貴,三四千美金以上。成本上要想達到比較大規模的量產,還要進一步降低成本。

第二個,軟硬件成熟度問題,就像今天鄭院士講整個DPU趁着AI對算力基礎設施要求才發展起來的。而AI對於整個算力需求才多少時間?其實我們是比較新的趨勢。原來數據中心裏面沒有DPU的,但是今天我們看到對於隨着本身算力的需求,對於本身算力基礎設施系統結構從原來網絡、交易節點、分佈式,現在朝着“三U一體”演進的時候就慢慢起來了。儘管趨勢是對的,但是所有趨勢沉澱需要時間,對大的芯片來講3-5年就想讓它走到成熟這是不現實的,也得5-10年才能成熟。我覺得其實是比較中性的,甚至偏樂觀的預測,它在發佈的時候也沒有預料到後面過去一兩年大模型那麼火,對算力要求那麼快,也許AI算力需求會加速DPU的成熟。

但是它只是會加速,放在當前眼下節點,爲什麼K2-Pro能夠作爲面向量產的全功能芯片走在前面,很顯然整個行業的應用還沒有那麼成熟。這也是一個原因爲什麼馭數不僅做芯片、基礎軟件還有云原生應用的原因,那麼多雲廠商,爲什麼我們要做雲原生應用?如果我們不做,我覺得整個DPU大規模部署可能還會需要很長時間,因爲最懂DPU的人不是雲廠商,而是我們。某種意義來看我們了解雲裏面應用難度其實比雲的廠商理解DPU難度還是要低的,所以我們願意花一點資源在雲的示範應用上。其實就是想縮短DPU規模化部署的路徑,讓三個層次DPU接觸更多不同類型的客戶,如果客戶做雲,有云的方案幫助你,如果做驅動,做SaaS的也有HADOS平台,如果就只做底層硬件集成的,就是做硬件方案的,也沒有問題,可以直接把DPU芯片給你,你在上面自己搭。我們基本可以把不同類型生態客戶都可以納入進來,這是非常有利於DPU迅速從示範應用擴展到到規模化部署的路徑。

第三個因素,爲什麼馭雲裏面會做這個示範案例?甚至會面向科研機構、高校,這也是我們馭數下的一步棋,從學科發展而言,我覺得是過去十年計算機體系裏面很核心的內容都沒有變化,今天學生教科書裏面寫的東西還是比較老舊的東西。他們考試的東西還是馮諾伊曼,最經典的五級流水線。我們特別希望高校、研究所,有研究生教育的機構,他們的研究生應該要研究最新的技術趨勢,研究最新的技術產品。這塊怎麼能讓他們更快接觸到呢?我們願意把整個DPU包括DPU仿真器向他們免費開放,可以讓他們更早的接觸到我們在先進網絡,下一代算力基礎設施裏面的計算機系統結構,新的技術趨勢,新的變化,等他們用3-5天完成研究生、碩士博士教育的時候,他們腦子裏裝的就是“三U一體”架構,這樣才能更好真正推動未來的算力經濟發展。

我不覺得在教育裏它是因爲市場小,然後就不值得做,反而我覺得非常值得做,因爲今天是學生,明天就是專家,甚至是你的客戶,甚至他們會在你的基礎上發展更新的產業,這些其實都是一個產業能夠良性發展的基礎。

說到底一個行業要發展,你必須要有相應人才基礎,而人才是要用更長的時間維度去佈局,把你的所關注的技術趨勢植入到現在的教育方向裏面去。這點美國做得比我們要好,不管是英特爾也好,還是早期IBM,他們實驗室都是在美國很多常青藤高校實習生聖地,他們有這個傳統,中高年級研究生一定要實習的,實習最好地方在英特爾,在IBM,再加上後面有谷歌等等一線科技企業,所謂產教融合做得挺透徹的。他們要真正用我們的東西,研究下一代網絡技術的時候可以用我們平台去做,這樣可以把科研整體創新水平提到一個更高的高度。只要馭數還在做這個方向我們就會持續做這件事情。

問:英偉達最近更新它的路線圖的時候,DPU不像前兩年BF2、BF3,現在除了Link,以太網網絡平台做更迭,不能說它弱化,它把DPU做了很多平台內部核心支撐。這對於國內第三方DPU初創企業來講會有哪些啓發?

鄢貴海:這個問題特別好,因爲對於IT技術發展來講當它把技術擺到桌面上的時候,大家特別容易判斷誰的技術高,誰的技術相對落後,它是非常容易判斷的。

英偉達搞的一體化技術,重型遊戲,對於國內做算力、做大芯片相關的廠商,我覺得一個非常好的指向,包括網絡他可以做400G、800G,包括它現在把GPU跟DPU在一起,這也是未來我們國內做算力芯片產業大家可以真正參考的事情,因爲別人已經走通了那條路,我覺得是非常值得關注的。

但是也要看到,我覺得我們國內本身芯片產業發展,跟別人是有代差的,我們不僅僅是在工藝上補一些作業,結構設計上面仍然有差距,更重要的是產業成熟度,英偉達一家市值3.43萬億,這時候拿一個體量只有1%的企業跟它做同樣的東西,還要全方位超越或者全方位接近,這其實是不現實的。這個產業成熟度需要時間的,暫且不說需要英偉達那麼大的級別,但是也弄出幾家穩定的市值千億以上的企業,還是需要時間的。我們需要一些龍頭企業,國內對於芯片設計企業來看幾百億規模的就算很大了,最大的海光一千多億,其他好多都是百億,到幾百億就算已經很大了。

我們判斷一個行業程度怎麼樣,要看這個行業有沒有一衆比較有規模的企業競爭才是真正高水平的競爭,才能代表行業的成熟,現在還沒有到這一步。我覺得如果說別人是大學生水平,那我們可能就是小學生水平,這塊乾的事情要補課,耐心一個題一個題把它做好,等待時機慢慢更加成熟去做。

這點聚焦非常重要,要做DPU就做DPU,像英特爾再分一半力量做CPU,再分1/3做GPU?我覺得要在每一個階段上都要有高質量的企業,在單品上能夠做到領先,企業先要做到單向冠軍,然後再尋求未來的發展。而未來它會怎麼樣,這不完全是技術決定的,GPU和CPU在一起是非常好,能夠提高更高的算力,但是決定這件事情的背後還有商業原因,兩家都是龍頭企業,一家CPU的,一家GPU的,他們願不願意結合起來?這個很難講,背後還有商業原因。包括像英特爾他們不想做GPU嗎?也很想做,包括英偉達不想做CPU嗎?也很想做,要買ARM還沒有買成。最後這個產業會到什麼樣?影響因素太多了,根本沒法預測。但是對於一個企業在自己專項上面能夠做到多好,這個事情可以判斷。

問:智算中心裏面DPU應用趨勢如何?

鄢貴海:智算中心網卡的功能,首先要解決的是GPU跟存儲之間,GPU和GPU之間通信問題,這些路徑裏面是帶寬最高,流量最大的數據路徑,反而GPU跟CPU路徑沒有那麼顯著,原來網卡解決網絡數據進來以後通過PCIe設備接入主機裏面,並沒有對帶寬要求高到需要特殊待遇。這種情況下傳統網卡不太適用於擔任未來智算中心的網絡接口的角色。

DPU要支持類似於GBR、GBS的負載,就是給GPU和GPU之間的通信,GPU和CPU之間的通信找到一條快速通路,這個快速通路要搭建在全新的網絡設備接口上,全新的網絡接口就是DPU。所以基於此,我覺得未來智算中心裏DPU的用量不僅不會少,還會越來越多。

當然,數據中心那麼複雜的網絡結構,通常它的網絡不可能只有一套,因爲它的不同網絡要用不同的功能,運維、管控、監控用傳統以太網做,智算用無損RDMA的網絡。這種情況下在智算中心裏面它有用傳統網卡的需求,但是更大的需求,增長更快的需求還是在高速網絡上,高速的RDMA,無損網絡上。

問:關於私有架構是數據的架構通過軟件實現,對於開放工具應該要求很高,經過了三代產品的打磨還有迭代升級,能分享一下這方面的心得經驗嗎?

鄢貴海:當時選DPU技術路線也是有原因的,對體系結構來講很難創造新的結構,做數據流架構和非數據流架構,沒有其他選擇了,你要麼就是控制驅動,要是數據驅動,還有其他選擇嗎?設計空間上早給你布好了,只不過是你願不願意開發它的問題。我們選擇數據流架構本身在技術路線上做了一個選擇,數據流架構本身是不完全新的東西,至少從概念來看我覺得它是我們在體系結構領域早就相對比較成熟理念,人家說沒有不好的技術路線,只有不適用的技術路線。DPU裏面用數據流架構非常適應,就像你穿高跟鞋老爬山就不對,但是逛商場很合適。同樣的道理,數據流架構針對DPU而言是非常切實的有效。而且數據流架構原來很多缺點也許在DPU裏面都不太出現,而數據流架構原來很多優點可以在DPU裏面得到充分的啓用,專業的人幹到這兒一定會這麼選擇的。

剛才您提到編程,數據流架構它的編程受到約束條件確實比原來通用CPU,所謂控制指令編程可能稍微不能說複雜,只不過對於數據抽象不一樣。他看到的語言不一樣。就像兩門語言,其實它的表達能力是一樣的,但是我覺得中文簡單,因爲我熟,我覺得法文看不懂,所以覺得它難。但是他們要講的東西是同樣的東西,只不過屬於技術裏面不同的體系而已,一旦發現你在法國你就覺得它很好,這是同樣的道理。

這塊怎麼把數據流架構通過編程軟件把它的優勢釋放出來,這也是我們需要KISA的重要原因,KISA是馭數的老概念,大家有沒有感受到馭數跟K特別有用,我們提KPU,指令集的KISA,HADOS的前身叫KOS。我們沒有刻意的非得跟K過不去,但是我們後來在做技術佈局的時候,做驗證的時候不知不覺的K又向着我們迎面奔來的感覺,慢慢變成了馭數自己的技術體系。

在這塊如果有了經驗的話,第一個經驗就是對於DPU提了相對完整的指令集,有了這個以後相當於定義了一套language,只要有了這個定義,學language這件事情就是時間問題,而且更何況對於任何一門語言跟任何一個指令一樣,最開始指令不會特別豐富,即便到現在1.0也不過120條指令,英特爾X86指令是過千的,數量相比是小巫見大巫。

所以我們覺得不要過分的多慮開發者學習能力,只要你把語義講清楚,量控制在一定程度,對於絕大多數很多開發者而言,他還是可以接受的。

其二,光有定義還不行,後面相應配套,相應的像示範案例都要做的,而且對於指令定義而言很少有指令定義完了以後就是完美的,定義完了以後還得用它表達你的示範應用,表達一個案例,好像這塊有冗餘信息,回去把指令改一改,還有指令的域面對的情況比較複雜,需要更多的信息,把它的字長適當的擴大,這些其實都是在不斷打磨的過程中,從使用中回過來優化指令設計,再指導一些案例的開發。

迭代以後,我們馭數6年,KISA今天發佈才把它叫做1.0,這個過程很難關起門來討論一個星期就定了,管它好不好這就是基礎了,不是這樣的。這點上有了定義以後同步開發過程中就會完善整個編譯的系統,包括不斷的跟上層語言做交互,比如P4,他上面做編程,我們下面用KISA對它進行編譯,包括上面用C表達,下面用KISA表達底層語義。中間就是經典的編譯過程。

對於非編譯專業的人覺得好像很難,相當於讓一個不懂語言的人讓他當翻譯也是一樣的,其實對於當翻譯的人來看覺得無所謂,只要你的兩邊語義從描述能力來看是等價的,這個翻譯一定有可行解的,只不過效率高一點低一點,效率總是可以迭代優化的。這點我們很重視。

所以整個HADOS的ADP部分爲什麼專門把裏面支撐各種各樣的,在有可能的地方做更好的分裝面向開發者。但是我們也不喪失一些對底層的控制,可以用特別底層的指令控制DPU單元裏面的行爲。有了開放性以後就知道架構不再是黑盒子,而是隻要你想去看,只要你想去優化它裏面的性能,你總能夠找到渠道,總能夠找到切入點,更開放的體系。

我們長遠地來看,從技術上就是兩句話:軟件開源、硬件開放。

這也是我們整個IT行業尤其是做算力芯片行業大家以後殊途同歸的那條路。現在大家也在討論硬件開源的問題。也有開源芯片的理念。這個方向也是值得關注的。

(本文首發於鈦媒體App,作者|林志佳,編輯|胡潤峯)

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論