正在閱讀:

DeepSeek“開源周”收官,連續(xù)五天到底都發(fā)布了什么?

掃一掃下載界面新聞APP

DeepSeek“開源周”收官,連續(xù)五天到底都發(fā)布了什么?

全球開發(fā)者可基于這些開源項目進(jìn)行二次開發(fā)與改進(jìn)。

圖片來源:視覺中國

界面新聞記者 | 宋佳楠

2月28日,國內(nèi)AI明星公司DeepSeek為期五天的 “開源周” 告一段落。其于2月24日正式啟動,計劃開源5個代碼庫,旨在以完全透明的方式與全球開發(fā)者社區(qū)分享其在通用人工智能(AGI)領(lǐng)域的研究進(jìn)展。

回顧這五日,其最先開源的是FlashMLA,這是專為英偉達(dá)Hopper GPU優(yōu)化的高效MLA解碼內(nèi)核,專為處理可變長度序列設(shè)計。

在自然語言處理等任務(wù)里,數(shù)據(jù)序列長度不一,傳統(tǒng)處理方式會造成算力浪費。而FlashMLA如同智能交通調(diào)度員,能依據(jù)序列長度動態(tài)調(diào)配計算資源。例如在同時處理長文本和短文本時,它可以精準(zhǔn)地為不同長度的文本分配恰當(dāng)?shù)乃懔?,避?“大馬拉小車” 或資源不足的情況。發(fā)布6小時內(nèi),GitHub上收藏量突破5000次,被認(rèn)為對國產(chǎn)GPU性能提升意義重大。

第二日開源的是DeepEP。DeepEP是首個用于MoE(混合專家模型)訓(xùn)練和推理的開源EP通信庫。MoE模型訓(xùn)練和推理中,不同專家模型需高效協(xié)作,這對通信效率要求極高。DeepEP支持優(yōu)化的全對全通信模式,就像構(gòu)建了一條順暢的高速公路,讓數(shù)據(jù)在各個節(jié)點間高效傳輸。

它還原生支持FP8低精度運(yùn)算調(diào)度,降低計算資源消耗,并且在節(jié)點內(nèi)和節(jié)點間都支持NVLink和RDMA,擁有用于訓(xùn)練和推理預(yù)填充的高吞吐量內(nèi)核以及用于推理解碼的低延遲內(nèi)核。簡單來說,它讓MoE模型各部分間溝通更快、消耗更少,提升了整體運(yùn)行效率 。

第三日是DeepGEMM,矩陣乘法加速庫,為V3/R1的訓(xùn)練和推理提供支持。通用矩陣乘法是眾多高性能計算任務(wù)的核心,其性能優(yōu)化是大模型降本增效的關(guān)鍵。DeepGEMM采用了DeepSeek-V3中提出的細(xì)粒度scaling技術(shù),僅用300行代碼就實現(xiàn)了簡潔高效的FP8通用矩陣乘法。

它支持普通GEMM以及專家混合(MoE)分組GEMM,在Hopper GPU上最高可達(dá)到1350+ FP8 TFLOPS(每秒萬億次浮點運(yùn)算)的計算性能,在各種矩陣形狀上的性能與專家調(diào)優(yōu)的庫相當(dāng),甚至在某些情況下更優(yōu),且安裝時無需編譯,通過輕量級JIT模塊在運(yùn)行時編譯所有內(nèi)核。

第四日開源優(yōu)化并行策略(DualPipe和EPLB)。DualPipe是一種用于V3/R1訓(xùn)練中計算與通信重疊的雙向管道并行算法。以往的管道并行存在 “氣泡” 問題,即計算和通信階段存在等待時間,造成資源浪費。DualPipe通過實現(xiàn) “向前” 與 “向后” 計算通信階段的雙向重疊,將硬件資源利用率提升超30%。

EPLB則是一種針對V3/R1的專家并行負(fù)載均衡器。基于混合專家(MoE)架構(gòu),它通過冗余專家策略復(fù)制高負(fù)載專家,并結(jié)合啟發(fā)式分配算法優(yōu)化GPU間的負(fù)載分布,減少GPU閑置現(xiàn)象。

在第五日,DeepSeep開源了面向全數(shù)據(jù)訪問的推進(jìn)器3FS,也就是Fire-Flyer文件系統(tǒng)。它是一個專門為了充分利用現(xiàn)代SSD和RDMA網(wǎng)絡(luò)帶寬而設(shè)計的并行文件系統(tǒng),能實現(xiàn)高速數(shù)據(jù)訪問,提升AI模型訓(xùn)練和推理的效率。

此外,DeepSeek還開源了基于3FS的數(shù)據(jù)處理框架Smallpond,它可以進(jìn)一步優(yōu)化3FS的數(shù)據(jù)管理能力,讓數(shù)據(jù)處理更加方便、快捷。

全球開發(fā)者可基于上述開源項目進(jìn)行二次開發(fā)與改進(jìn),有望推動AI技術(shù)在更多領(lǐng)域的應(yīng)用。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。

寶潔

3.7k
  • 新品登頂微信小游戲暢銷榜 三七互娛多元化產(chǎn)品持續(xù)發(fā)力
  • 且初背后的這家公司,有可能成為中國寶潔嗎?

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

DeepSeek“開源周”收官,連續(xù)五天到底都發(fā)布了什么?

全球開發(fā)者可基于這些開源項目進(jìn)行二次開發(fā)與改進(jìn)。

圖片來源:視覺中國

界面新聞記者 | 宋佳楠

2月28日,國內(nèi)AI明星公司DeepSeek為期五天的 “開源周” 告一段落。其于2月24日正式啟動,計劃開源5個代碼庫,旨在以完全透明的方式與全球開發(fā)者社區(qū)分享其在通用人工智能(AGI)領(lǐng)域的研究進(jìn)展。

回顧這五日,其最先開源的是FlashMLA,這是專為英偉達(dá)Hopper GPU優(yōu)化的高效MLA解碼內(nèi)核,專為處理可變長度序列設(shè)計。

在自然語言處理等任務(wù)里,數(shù)據(jù)序列長度不一,傳統(tǒng)處理方式會造成算力浪費。而FlashMLA如同智能交通調(diào)度員,能依據(jù)序列長度動態(tài)調(diào)配計算資源。例如在同時處理長文本和短文本時,它可以精準(zhǔn)地為不同長度的文本分配恰當(dāng)?shù)乃懔Γ苊?“大馬拉小車” 或資源不足的情況。發(fā)布6小時內(nèi),GitHub上收藏量突破5000次,被認(rèn)為對國產(chǎn)GPU性能提升意義重大。

第二日開源的是DeepEP。DeepEP是首個用于MoE(混合專家模型)訓(xùn)練和推理的開源EP通信庫。MoE模型訓(xùn)練和推理中,不同專家模型需高效協(xié)作,這對通信效率要求極高。DeepEP支持優(yōu)化的全對全通信模式,就像構(gòu)建了一條順暢的高速公路,讓數(shù)據(jù)在各個節(jié)點間高效傳輸。

它還原生支持FP8低精度運(yùn)算調(diào)度,降低計算資源消耗,并且在節(jié)點內(nèi)和節(jié)點間都支持NVLink和RDMA,擁有用于訓(xùn)練和推理預(yù)填充的高吞吐量內(nèi)核以及用于推理解碼的低延遲內(nèi)核。簡單來說,它讓MoE模型各部分間溝通更快、消耗更少,提升了整體運(yùn)行效率 。

第三日是DeepGEMM,矩陣乘法加速庫,為V3/R1的訓(xùn)練和推理提供支持。通用矩陣乘法是眾多高性能計算任務(wù)的核心,其性能優(yōu)化是大模型降本增效的關(guān)鍵。DeepGEMM采用了DeepSeek-V3中提出的細(xì)粒度scaling技術(shù),僅用300行代碼就實現(xiàn)了簡潔高效的FP8通用矩陣乘法。

它支持普通GEMM以及專家混合(MoE)分組GEMM,在Hopper GPU上最高可達(dá)到1350+ FP8 TFLOPS(每秒萬億次浮點運(yùn)算)的計算性能,在各種矩陣形狀上的性能與專家調(diào)優(yōu)的庫相當(dāng),甚至在某些情況下更優(yōu),且安裝時無需編譯,通過輕量級JIT模塊在運(yùn)行時編譯所有內(nèi)核。

第四日開源優(yōu)化并行策略(DualPipe和EPLB)。DualPipe是一種用于V3/R1訓(xùn)練中計算與通信重疊的雙向管道并行算法。以往的管道并行存在 “氣泡” 問題,即計算和通信階段存在等待時間,造成資源浪費。DualPipe通過實現(xiàn) “向前” 與 “向后” 計算通信階段的雙向重疊,將硬件資源利用率提升超30%。

EPLB則是一種針對V3/R1的專家并行負(fù)載均衡器?;诨旌蠈<遥∕oE)架構(gòu),它通過冗余專家策略復(fù)制高負(fù)載專家,并結(jié)合啟發(fā)式分配算法優(yōu)化GPU間的負(fù)載分布,減少GPU閑置現(xiàn)象。

在第五日,DeepSeep開源了面向全數(shù)據(jù)訪問的推進(jìn)器3FS,也就是Fire-Flyer文件系統(tǒng)。它是一個專門為了充分利用現(xiàn)代SSD和RDMA網(wǎng)絡(luò)帶寬而設(shè)計的并行文件系統(tǒng),能實現(xiàn)高速數(shù)據(jù)訪問,提升AI模型訓(xùn)練和推理的效率。

此外,DeepSeek還開源了基于3FS的數(shù)據(jù)處理框架Smallpond,它可以進(jìn)一步優(yōu)化3FS的數(shù)據(jù)管理能力,讓數(shù)據(jù)處理更加方便、快捷。

全球開發(fā)者可基于上述開源項目進(jìn)行二次開發(fā)與改進(jìn),有望推動AI技術(shù)在更多領(lǐng)域的應(yīng)用。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。