界面新聞?dòng)浾?| 李彪
界面新聞編輯 | 文姝琪
持續(xù)五天的“DeepSeek開源周”剛結(jié)束,DeepSeek團(tuán)隊(duì)就在國內(nèi)知乎平臺(tái)注冊官方賬戶,并在3月1日當(dāng)天發(fā)布了第一條動(dòng)態(tài)。這篇最新的帖子首次對外公布模了型的優(yōu)化技術(shù)細(xì)節(jié)、成本利潤率等關(guān)鍵信息。
這篇帖子最吸引眼球的一個(gè)結(jié)論是,按DeepSeek測算,假定GPU租賃成本為2美元/小時(shí),總成本為8.7萬美元/天。如果統(tǒng)計(jì)包括網(wǎng)頁、App和API在內(nèi)的所有負(fù)載,將所有模型tokens全部按照DeepSeek-R1的定價(jià)(DeepSeek R1 的定價(jià):$0.14 / 百萬輸入 tokens (緩存命中),$0.55 / 百萬輸入 tokens (緩存未命中),$2.19 / 百萬輸出 tokens)計(jì)算,理論上一天的總收入為56.2萬美元,算下來成本利潤率為545%。
高達(dá)545%的利潤率意味著什么,又會(huì)給行業(yè)帶來了怎樣的影響?界面新聞采訪了復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授張奇,他的研究方向?yàn)樽匀徽Z言處理、信息檢索 、數(shù)據(jù)密集型計(jì)算。
在自然語言處理中,Token是語言文本被分割后的基本單位,每個(gè)用戶向AI提問并獲取回答,問題及答案的文本長度對應(yīng)數(shù)量不等的Token。AI處理每個(gè)Token都需要消耗算力。此外,還存在命中緩存與否的情況,命中緩存指用戶向AI提問涉及的相關(guān)數(shù)據(jù)已存在于緩存之中,模型可直接調(diào)用,無需重新計(jì)算或從數(shù)據(jù)庫檢索,節(jié)省了算力、時(shí)間及存儲(chǔ)資源,成本更低,若沒能命中,則需要消耗更多算力等資源,成本更高。
目前,按Token計(jì)價(jià)收費(fèi)是AI公司的主要商業(yè)模式。命中緩存相對價(jià)格較低,未命中則收費(fèi)更高。
張奇告訴記者,對行業(yè)來說,DeepSeek在最新的文章中提到的56.3%緩存命中率(原文稱,在 24 小時(shí)統(tǒng)計(jì)時(shí)段內(nèi),DeepSeek V3 和 R1都能實(shí)現(xiàn)輸入 token 總數(shù)為 608B,其中 342B tokens(56.3%)命中 KVCache 硬盤緩存)是一項(xiàng)具有重要意義數(shù)據(jù)。
“雖然各家沒有公布過相關(guān)數(shù)據(jù),但超過一半的命中率在業(yè)內(nèi)應(yīng)該已是很高的水平?!睆埰嬲J(rèn)為,像在DeepSeek所開發(fā)的6710億參數(shù)超大模型上,幾億用戶提問時(shí)所寫的文本多多少少存在差異,在這種前提下能夠?qū)崿F(xiàn)高中率,說明團(tuán)隊(duì)在模型整體優(yōu)化上做了很多工作。
據(jù)DeepSeek團(tuán)隊(duì)介紹,V3、R1推理系統(tǒng)的優(yōu)化目標(biāo)就是追求“更大的吞吐,更低的延遲?!?/span>
基于DeepSeek采取的混合專家模型核心架構(gòu)(MOE),超大模型由眾多規(guī)模較小的專家模型組成,并承擔(dān)不同的分工。通俗用人類世界的團(tuán)隊(duì)合作來解釋其中所需要的調(diào)度工作,如果一個(gè)團(tuán)隊(duì)要將各個(gè)領(lǐng)域的專家集合到一起來攻克某項(xiàng)任務(wù),就需要事先把整體任務(wù)拆分成多個(gè)流程環(huán)節(jié)的任務(wù),再按照分配給不同領(lǐng)域的專家,讓他們每個(gè)人都發(fā)揮專業(yè)技能解決問題,最后匯總結(jié)論。
DeepSeek在文中寫道,由于DeepSeek-V3 / R1的專家數(shù)量眾多,并且按照最初的設(shè)計(jì)規(guī)則,每層256個(gè)專家在實(shí)際運(yùn)行中僅激活其中8個(gè)。要實(shí)現(xiàn)團(tuán)隊(duì)的“大吞吐,低延遲”的優(yōu)化目標(biāo),就需要做到短時(shí)間處理大量任務(wù)時(shí)“高效調(diào)用”每個(gè)專家,也就是DeepSeek在文中提到的“大規(guī)模跨節(jié)點(diǎn)專家并行(Expert Parallelism / EP)”。
“這是一項(xiàng)難度極大的平衡工作,如果模型優(yōu)化分配上做不好,就會(huì)使得一個(gè)6000多億參數(shù)的超大模型,每次可能只有8個(gè)或幾個(gè)專家在實(shí)際運(yùn)行,而且如果某一個(gè)沒有運(yùn)行完,剩下的所有專家可能在等待。等待則通常又意味著計(jì)算資源的浪費(fèi)。”張奇認(rèn)為,在DeepSeek開源前,混合專家模型的平衡設(shè)計(jì)對許多AI模型大廠都是尚未攻克的難題。
此外,據(jù)DeepSeek介紹,另外,由于白天用戶訪問量大、服務(wù)負(fù)荷高,晚上的服務(wù)負(fù)荷低,團(tuán)隊(duì)實(shí)現(xiàn)了一套機(jī)制,在白天負(fù)荷高的時(shí)候,利用所有模型節(jié)點(diǎn)部署推理服務(wù)。晚上負(fù)荷低的時(shí)候,減少推理節(jié)點(diǎn),以用來做研究和訓(xùn)練。

根據(jù)DeepSeek統(tǒng)計(jì),按照這套“白天推理——晚上訓(xùn)練”的方案規(guī)劃,在最近的24小時(shí)內(nèi),將DeepSeek V3和R1推理服務(wù)占用節(jié)點(diǎn)加到一起,任務(wù)繁忙的高峰期最多占用278個(gè)節(jié)點(diǎn),平均占用226.75個(gè)節(jié)點(diǎn)(每個(gè)節(jié)點(diǎn)為8個(gè)英偉達(dá)H800 GPU)。
張奇認(rèn)為,考慮到DeepSeek還有新模型項(xiàng)目及其他工作需要GPU,上述1800-2000張H800GPU(平均占用節(jié)點(diǎn)數(shù)乘以8個(gè)GPU),大概率已經(jīng)用上了DeepSeek現(xiàn)階段為DeepSeek V3與R1模型所能調(diào)用的“全部算力資源”。
此前按照行業(yè)觀點(diǎn),DeepSeek的創(chuàng)新突破在于,在有限資源的環(huán)境下,將效率提升到了極致,從而實(shí)現(xiàn)了模型的低成本開發(fā)。在上述一系列優(yōu)化效率的基礎(chǔ)之上,才有了545%的成本利潤率。

但DeepSeek也強(qiáng)調(diào),545%只是一個(gè)理論值,實(shí)際運(yùn)行時(shí)沒“有這么多收入”。因?yàn)?span> V3 的定價(jià)更低,同時(shí)收費(fèi)服務(wù)只占一部分,另外夜間還另有折扣。
此前,DeepSeek在同類模型廠商中就以“AI拼多多”的低價(jià)標(biāo)簽備受關(guān)注。
去年推出V2模型時(shí),DeepSeek就曾在4月首次將API調(diào)用價(jià)格降至輸入1元/百萬tokens、輸出2元/百萬tokens,引發(fā)了豆包、Kimi、文心一言等廠商的跟進(jìn),帶動(dòng)了第一波模型價(jià)格戰(zhàn)。最新的V3模型服務(wù)定價(jià)僅為OpenAI同類模型4o的1/15,R1模型的價(jià)格也遠(yuǎn)低于同行。
此次公布出的高利潤率也讓外界看清了DeepSeek降價(jià)的“底牌”。
在此之前,業(yè)內(nèi)一度熱議“DeepSeek模型API定價(jià)過低是否會(huì)帶來巨大虧損”,DeepSeek前研究員羅福莉去年5月在個(gè)人知乎上否認(rèn)了這一點(diǎn)。據(jù)她透露,目前以DeepSeek現(xiàn)在的定價(jià),大規(guī)模服提供服務(wù),不虧本,利潤率超50%。DeepSeek創(chuàng)始人梁文峰也在接受36氪媒體專訪時(shí)提到,公司的定價(jià)策略是“原則上不虧本銷售,也不追求過高利潤。目前的定價(jià)僅在成本之上保留了一定的利潤空間。”
目前,業(yè)內(nèi)宣布接入部署“滿血版”DeepSeek R1模型的廠商大多以單機(jī)(8張GPU的服務(wù)器)、雙機(jī)這一類小規(guī)模設(shè)備為主。據(jù)記者了解,“四機(jī)目前是業(yè)內(nèi)考驗(yàn)公司技術(shù)能力的一道分水嶺”。而隨著服務(wù)器臺(tái)數(shù)越多,規(guī)模化部署調(diào)度和優(yōu)化難度越大,DeepSeek團(tuán)隊(duì)所實(shí)現(xiàn)的300多臺(tái)服務(wù)器部署工程對團(tuán)隊(duì)技術(shù)能力要求更是急劇上升。
眼下,雖然545%的成本利潤率是DeepSeek基于大規(guī)模部署測算的一個(gè)理論值,實(shí)際的利潤水平官方并未公布,但依然讓行業(yè)開始看到了“賺錢的希望”。
張奇認(rèn)為,DeepSeek在公布利潤率的同時(shí)也將模型優(yōu)化方法開源,行業(yè)會(huì)更加積極學(xué)習(xí)這套優(yōu)化方法部署DeepSeek。雖然對絕大多數(shù)公司來說,“知道”和“做到”是兩件事,將同樣優(yōu)化方法落到實(shí)際會(huì)遇到各種新問題,但整個(gè)行業(yè)會(huì)在這方面進(jìn)行更多嘗試。
(界面新聞?dòng)浾呶檠笥顚Υ宋囊嘤胸暙I(xiàn))