正在閱讀:

DeepSeek們的成本,是怎么計算的?

掃一掃下載界面新聞APP

DeepSeek們的成本,是怎么計算的?

大模型混戰(zhàn),一邊卷能力,一邊卷“成本”。

圖片來源:界面圖庫

文 | 定焦One 王璐

編輯 | 魏佳

DeepSeek徹底讓全球都坐不住了。

昨天,馬斯克攜“地球上最聰明的AI”——Gork 3在直播中亮相,自稱其“推理能力超越目前所有已知模型”,在推理-測試時間得分上,也好于DeepSeek R1、OpenAI o1。不久前,國民級應(yīng)用微信宣布接入DeepSeek R1,正在灰度測試中,這一王炸組合被外界認(rèn)為AI搜索領(lǐng)域要變天。

如今,微軟、英偉達(dá)、華為云、騰訊云等全球多家科技大廠都已接入DeepSeek。網(wǎng)友也開發(fā)出了算命、預(yù)測彩票等新奇玩法,其熱度直接轉(zhuǎn)化成了真金白銀,助推DeepSeek估值一路上漲,最高已經(jīng)達(dá)到了千億美金。

DeepSeek能出圈,除了免費和好用之外,還因為其僅以557.6萬美元的GPU成本,就訓(xùn)練出了與OpenAI o1能力不相上下的DeepSeek R1模型。畢竟,在過去幾年的“百模大戰(zhàn)”中,國內(nèi)外AI大模型公司都砸了幾十億甚至上百億美元。Gork 3成為“全球最聰明AI”的代價也是高昂的,馬斯克稱Gork 3訓(xùn)練累計消耗20萬塊英偉達(dá)GPU(單塊成本大約在3萬美元),而業(yè)內(nèi)人士估計DeepSeek僅在1萬多張。

但也有人在成本上卷DeepSeek。近日李飛飛團(tuán)隊稱,僅花費不到50美元的云計算費用,就訓(xùn)練出了一款推理模型S1,其在數(shù)學(xué)和編碼能力測試中的表現(xiàn)媲美OpenAI的o1和DeepSeek的R1。但需要注意的是,S1是中型模型,與DeepSeek R1的上千億參數(shù)級別存在差距。

即便如此,從50美元到上百億美元的巨大訓(xùn)練成本差異,還是讓大家好奇,一方面想知道DeepSeek的能力有多強(qiáng),為什么各家都在試圖趕上甚至超過它,另一方面,訓(xùn)練一個大模型究竟需要多少錢?它涉及哪些環(huán)節(jié)?未來,是否還有可能進(jìn)一步降低訓(xùn)練成本?

被“以偏概全”的DeepSeek

在從業(yè)者看來,在解答這些問題前,得先捋清幾個概念。

首先是對DeepSeek的理解“以偏概全”。大家驚嘆的是它眾多大模型之中的一個——推理大模型DeepSeek-R1,但它還有其他的大模型,不同大模型產(chǎn)品之間的功能不一樣。而557.6萬美元,是其通用大模型DeepSeek-V3訓(xùn)練過程中的GPU花費,可以理解為凈算力成本。

簡單對比下:

  • 通用大模型:

接收明確指令,拆解步驟,用戶要把任務(wù)描述清楚,包括回答順序,比如用戶需要提示是先做總結(jié)再給出標(biāo)題,還是相反。

回復(fù)速度較快,基于概率預(yù)測(快速反應(yīng)),通過大量數(shù)據(jù)預(yù)測答案。

  • 推理大模型:

接收簡單明了、聚焦目標(biāo)的任務(wù),用戶要什么直接說,它可以自己做規(guī)劃。

回復(fù)速度較慢,基于鏈?zhǔn)剿季S(慢速思考),推理問題步驟得到答案。

兩者主要的技術(shù)差別在于訓(xùn)練數(shù)據(jù),通用大模型是問題+答案,推理大模型是問題+思考過程+答案。

第二,由于Deepseek的推理大模型DeepSeek-R1關(guān)注度更高,很多人錯誤地認(rèn)為推理大模型一定比通用大模型高級。

需要肯定的是,推理大模型屬于前沿模型類型,是大模型預(yù)訓(xùn)練范式撞墻后,OpenAI推出的在推理階段增加算力的新范式。相比通用大模型,推理大模型更燒錢,訓(xùn)練時間也更長。

但并不意味著,推理大模型一定比通用大模型好用,甚至對于某類問題,推理大模型反而顯得雞肋。

大模型領(lǐng)域知名專家劉聰對「定焦One」解釋,比如問某個國家的首都/某個地方的省會城市,推理大模型就不如通用大模型好用。

DeepSeek-R1面對簡單問題時的過度思考

他表示,面對這類比較簡單的問題,推理大模型不僅回答效率低于通用大模型,消耗的算力成本也比較昂貴,甚至?xí)霈F(xiàn)過度思考等情況,最后可能給出錯誤答案。

他建議,完成數(shù)學(xué)難題、挑戰(zhàn)性編碼等復(fù)雜任務(wù)時使用推理模型,總結(jié)、翻譯、基礎(chǔ)問答等簡單任務(wù),通用模型使用效果更佳。

第三是DeepSeek的真正實力到底如何。

綜合權(quán)威榜單和從業(yè)者的說法,「定焦One」分別在推理大模型和通用大模型領(lǐng)域,給DeepSeek排了個位。

推理大模型第一梯隊主要有四家:國外OpenAI的o系列模型(如o3-mini)、Google的Gemini 2.0;國內(nèi)的DeepSeek-R1、阿里的QwQ。

不止一位從業(yè)者認(rèn)為,雖然外界都在討論DeepSeek-R1作為國內(nèi)頂尖的模型,能力趕超OpenAI,但從技術(shù)角度看,相比OpenAI最新的o3,還有一定的差距。

它更重要的意義是,大大縮小了國內(nèi)外頂尖水平之間的差距?!叭绻f之前的差距是2-3代,DeepSeek-R1出現(xiàn)后已經(jīng)縮小到了0.5代?!盇I行業(yè)資深從業(yè)者江樹表示。

他結(jié)合自身使用經(jīng)驗,介紹了四家的優(yōu)缺點:

在通用大模型領(lǐng)域,根據(jù)LM Arena(用于評估和比較大型語言模型(LLM)性能的開源平臺)榜單,排在第一梯隊的有五家:國外Google的Gemini(閉源)、OpenAI的ChatGPT、Anthropic的Claude;國內(nèi)的DeepSeek、阿里的Qwen。

江樹也列舉出了使用它們的體驗。

不難發(fā)現(xiàn),盡管DeepSeek-R1震驚了全球科技圈,其價值毋庸置疑,但每家大模型產(chǎn)品都有自身的優(yōu)劣勢,DeepSeek也不是所有大模型都完美無缺。比如劉聰就發(fā)現(xiàn),DeepSeek最新發(fā)布的專注于圖像理解和生成任務(wù)的多模態(tài)大模型Janus-Pro,使用效果一般。

訓(xùn)練大模型,要花多少錢?

回到訓(xùn)練大模型的成本問題,一個大模型究竟是如何誕生的?

劉聰表示,大模型誕生主要分為預(yù)訓(xùn)練-后訓(xùn)練兩個階段,如果把大模型比作小孩,預(yù)訓(xùn)練和后訓(xùn)練要做的是,讓小孩從出生時的只會哭,到懂得大人講的內(nèi)容,再到主動和大人講話。

預(yù)訓(xùn)練主要指訓(xùn)練語料。比如將大量的文本語料投給模型,讓小孩完成知識攝取,但此刻他只是學(xué)了知識還不會用。

后訓(xùn)練則要告訴小孩,如何去用學(xué)了的知識,包含兩種方法,模型微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RLHF)。

劉聰表示,無論是通用大模型還是推理大模型、國內(nèi)還是國外,大家遵循的都是這一流程。江樹也告訴「定焦One」,各家都用的是Transformer模型,因此在最底層的模型構(gòu)成和訓(xùn)練步驟上,無本質(zhì)區(qū)別。

多位從業(yè)者表示,各家大模型的訓(xùn)練成本差別很大,主要集中在硬件、數(shù)據(jù)、人工三大部分,每一部分也可能采取不同的方式,對應(yīng)的成本也不同。

劉聰分別舉例,比如硬件是買是租,兩者間的價格相差很大,如果是買,前期的一次性投入很大,但后期會大幅降低,基本只用交電費,如果是租,可能前期投入不大,但這部分成本始終無法省去。所使用的訓(xùn)練數(shù)據(jù)上,是直接購買現(xiàn)成數(shù)據(jù),還是自己人工爬,也差別很大。每次的訓(xùn)練成本也不太一樣,像第一次要寫爬蟲、做數(shù)據(jù)篩選,但下一個版本由于可使用上個版本的重復(fù)操作,成本會有所降低。以及在最終展現(xiàn)模型前,中間迭代了多少版本,也決定著成本高低,但大模型公司對此諱莫如深。

總之,每個環(huán)節(jié)都涉及很多高額的隱形成本。

外界曾按照GPU估算,在頂尖模型中,GPT-4的訓(xùn)練成本大約為7800萬美元,Llama3.1超6000萬美元,Claude3.5約為1億美元。但由于這些頂尖大模型都是閉源,以及各家是否存在算力浪費現(xiàn)象,外界很難知曉。直到同梯隊的DeepSeek以557.6萬美元出現(xiàn)。

需要注意的是,557.6萬美元是DeepSeek技術(shù)報告中提到的基座模型DeepSeek-V3的訓(xùn)練成本?!瓣P(guān)于V3版本的訓(xùn)練成本只能代表最后一次成功訓(xùn)練的成本,前期的研究、架構(gòu)及算法的試錯等成本都沒有包含在內(nèi);而R1的具體訓(xùn)練成本,論文中沒有提到。”劉聰表示。也就是說,557.6萬美元僅為模型總成本的一小部分。

半導(dǎo)體市場分析和預(yù)測公司SemiAnalysis指出,考慮到服務(wù)器資本支出、運(yùn)營成本等因素,DeepSeek的總成本在4年內(nèi)可能達(dá)到25.73億美元。

從業(yè)者認(rèn)為,相較其他大模型公司百億美元的投入,即便按25.73億美元計算,DeepSeek的成本也是低的。

而且,DeepSeek-V3的訓(xùn)練過程僅需2048張英偉達(dá)GPU、所用GPU小時僅為278.8萬,相比之下,OpenAI耗費了上萬張GPU,Meta訓(xùn)練模型Llama-3.1-405B所用的GPU小時為3084萬。

DeepSeek不僅在模型訓(xùn)練階段效率更高,在調(diào)用推理階段也更高效、成本更低。

從DeepSeek給出的各大模型API定價(開發(fā)者可以通過API調(diào)用大模型,實現(xiàn)文本生成、對話交互、代碼生成等功能),能看出成本其低于“OpenAI們”。通常認(rèn)為,高開發(fā)成本的API通常需要通過較高的定價來回收成本。

DeepSeek-R1的API定價為:每百萬輸入tokens1元(緩存命中),每百萬輸出tokens16元,反觀OpenAI的o3-mini,輸入(緩存命中)、輸出每百萬tokens的定價,分別為0.55美元(4元人民幣)、4.4美元(31元人民幣)。

緩存命中,即從緩存中讀取數(shù)據(jù)而非重新計算或調(diào)用模型生成結(jié)果,可以減少數(shù)據(jù)處理的時間、降低成本。行業(yè)通過區(qū)分緩存命中和緩存未命中,從而提高API定價的競爭力,低價也讓中小企業(yè)也更容易接入。

近期結(jié)束了優(yōu)惠期的DeepSeek-V3,雖然從原來的每百萬輸入tokens0.1元(緩存命中)、每百萬輸出tokens2元,分別上調(diào)到了0.5元、8元,價格仍然低于其他主流模型。

雖然大模型總訓(xùn)練成本很難預(yù)估,但從業(yè)者一致認(rèn)為,DeepSeek可能代表的是目前一流大模型的最低成本,未來各家應(yīng)該會參照DeepSeek往下降。

DeepSeek的降本啟示

DeepSeek的錢省在哪了?綜合從業(yè)者的說法,從模型結(jié)構(gòu)-預(yù)訓(xùn)練-后訓(xùn)練,每個方面都做了優(yōu)化。

比如為了保證回答的專業(yè)性,很多大模型公司采用的是MoE模型(混合專家模型),即面對一個復(fù)雜難題,大模型會將其拆解為多個子任務(wù),然后將不同子任務(wù)交給不同專家解答。雖然很多家大模型公司都曾提到過這一模型,但DeepSeek達(dá)到了終極專家專業(yè)化水平。

秘訣是采用了細(xì)粒度專家分割(對專家在同一類別中再進(jìn)行子任務(wù)細(xì)分)和共享專家隔離(隔離部分專家減輕知識冗余),這樣做的好處是,能大幅提高M(jìn)oE參數(shù)效率和性能,做到更快更準(zhǔn)確給予答案。

有從業(yè)者估算,DeepSeekMoE相當(dāng)于僅用大約40%的計算量,便達(dá)到了與LLaMA2-7B差不多的效果。

數(shù)據(jù)處理也是大模型訓(xùn)練的一道坎,各家都琢磨著如何提高計算效率,同時還能降低內(nèi)存和帶寬等硬件需求。DeepSeek找到的方法是,在處理數(shù)據(jù)時用FP8低精度訓(xùn)練(用于加速深度學(xué)習(xí)訓(xùn)練),“此舉在已知開源模型中比較領(lǐng)先,畢竟大多數(shù)大模型使用的是FP16或BF16混合精度訓(xùn)練,F(xiàn)P8的訓(xùn)練速度比它們快很多?!眲⒙敱硎尽?/p>

后訓(xùn)練中的強(qiáng)化學(xué)習(xí)上,策略優(yōu)化是一大難點,可以理解為讓大模型更好地進(jìn)行過決策,比如AlphaGo通過策略優(yōu)化學(xué)會了如何在圍棋中選擇最優(yōu)的落子策略。

DeepSeek選擇GRPO(分組相對策略優(yōu)化)而非PPO(近端策略優(yōu)化)算法,兩者的主要區(qū)別在于在進(jìn)行算法優(yōu)化時,是否借助價值模型,前者通過組內(nèi)相對獎勵來估計優(yōu)勢函數(shù),后者用的是單獨的價值模型。少一個模型,算力要求自然更小,也會節(jié)省成本。

以及推理層面上,用多頭潛在注意力機(jī)制(MLA)而非傳統(tǒng)的多頭注意力(MHA),顯著降低了顯存占用和計算復(fù)雜度,最直接的好處是,API接口費用下降。

不過,這次DeepSeek給劉聰?shù)淖畲髥l(fā)是,可以從不同角度提升大模型推理能力,純模型微調(diào)(SFT)和純強(qiáng)化學(xué)習(xí)(RLHF)都可以做出不錯的推理大模型。

也就是說,目前做推理模型,可以有四種方式:

第一種:純強(qiáng)化學(xué)習(xí)(DeepSeek-R1-zero)

第二種:SFT+強(qiáng)化學(xué)習(xí)(DeepSeek-R1)

第三種:純SFT(DeepSeek蒸餾模型)

第四種:純提示詞(低成本小模型)

“之前圈內(nèi)都是標(biāo)注SFT+強(qiáng)化學(xué)習(xí),大家都沒有想到,原來做純SFT和純做強(qiáng)化學(xué)習(xí),也能得到很好的效果?!眲⒙敱硎尽?/p>

DeepSeek的降本不僅給從業(yè)者帶來了技術(shù)上的啟發(fā),也影響著AI公司的發(fā)展路徑。

英諾天使基金合伙人王晟介紹,AI產(chǎn)業(yè)在跑通AGI方向上往往有兩種不同的路徑選擇:一個是“算力軍備”范式,堆技術(shù)堆錢堆算力,先把大模型性能拉至一個高點,再考慮產(chǎn)業(yè)落地;另外一個是“算法效率”范式,一開始就以產(chǎn)業(yè)落地為目標(biāo),通過架構(gòu)創(chuàng)新和工程化能力,推出低成本高性能模型。

“DeepSeek的一系列模型證明了,在天花板漲不動的情況下,把重點放在優(yōu)化效率而非能力增長上的范式具有可行性。”王晟稱。

從業(yè)者們相信,未來隨著算法的進(jìn)化,大模型的訓(xùn)練成本還會進(jìn)一步降低。

方舟投資管理公司的創(chuàng)始人兼CEO“木頭姐”曾指出,在DeepSeek之前,人工智能訓(xùn)練成本每年下降75%,推理成本甚至下降85%到90%。王晟也曾表示,年初發(fā)布的模型到年底再發(fā)布同樣的模型,成本都會有大幅度下降,甚至有可能降至1/10。

獨立研究機(jī)構(gòu)SemiAnalysis在最近一篇分析報告中指出,推理成本的下降是人工智能不斷進(jìn)步的標(biāo)志之一。原來需要超級計算機(jī)、多張GPU才能完成的GPT-3大模型性能,現(xiàn)在一些安裝在筆記本電腦上的小模型也能實現(xiàn)同樣效果。而且成本也下降了很多,Anthropic首席執(zhí)行官Dario認(rèn)為,算法定價成朝著GPT-3質(zhì)量發(fā)展,成本已經(jīng)降低1200倍。

未來,大模型的降本速度還會越來越快。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

DeepSeek們的成本,是怎么計算的?

大模型混戰(zhàn),一邊卷能力,一邊卷“成本”。

圖片來源:界面圖庫

文 | 定焦One 王璐

編輯 | 魏佳

DeepSeek徹底讓全球都坐不住了。

昨天,馬斯克攜“地球上最聰明的AI”——Gork 3在直播中亮相,自稱其“推理能力超越目前所有已知模型”,在推理-測試時間得分上,也好于DeepSeek R1、OpenAI o1。不久前,國民級應(yīng)用微信宣布接入DeepSeek R1,正在灰度測試中,這一王炸組合被外界認(rèn)為AI搜索領(lǐng)域要變天。

如今,微軟、英偉達(dá)、華為云、騰訊云等全球多家科技大廠都已接入DeepSeek。網(wǎng)友也開發(fā)出了算命、預(yù)測彩票等新奇玩法,其熱度直接轉(zhuǎn)化成了真金白銀,助推DeepSeek估值一路上漲,最高已經(jīng)達(dá)到了千億美金。

DeepSeek能出圈,除了免費和好用之外,還因為其僅以557.6萬美元的GPU成本,就訓(xùn)練出了與OpenAI o1能力不相上下的DeepSeek R1模型。畢竟,在過去幾年的“百模大戰(zhàn)”中,國內(nèi)外AI大模型公司都砸了幾十億甚至上百億美元。Gork 3成為“全球最聰明AI”的代價也是高昂的,馬斯克稱Gork 3訓(xùn)練累計消耗20萬塊英偉達(dá)GPU(單塊成本大約在3萬美元),而業(yè)內(nèi)人士估計DeepSeek僅在1萬多張。

但也有人在成本上卷DeepSeek。近日李飛飛團(tuán)隊稱,僅花費不到50美元的云計算費用,就訓(xùn)練出了一款推理模型S1,其在數(shù)學(xué)和編碼能力測試中的表現(xiàn)媲美OpenAI的o1和DeepSeek的R1。但需要注意的是,S1是中型模型,與DeepSeek R1的上千億參數(shù)級別存在差距。

即便如此,從50美元到上百億美元的巨大訓(xùn)練成本差異,還是讓大家好奇,一方面想知道DeepSeek的能力有多強(qiáng),為什么各家都在試圖趕上甚至超過它,另一方面,訓(xùn)練一個大模型究竟需要多少錢?它涉及哪些環(huán)節(jié)?未來,是否還有可能進(jìn)一步降低訓(xùn)練成本?

被“以偏概全”的DeepSeek

在從業(yè)者看來,在解答這些問題前,得先捋清幾個概念。

首先是對DeepSeek的理解“以偏概全”。大家驚嘆的是它眾多大模型之中的一個——推理大模型DeepSeek-R1,但它還有其他的大模型,不同大模型產(chǎn)品之間的功能不一樣。而557.6萬美元,是其通用大模型DeepSeek-V3訓(xùn)練過程中的GPU花費,可以理解為凈算力成本。

簡單對比下:

  • 通用大模型:

接收明確指令,拆解步驟,用戶要把任務(wù)描述清楚,包括回答順序,比如用戶需要提示是先做總結(jié)再給出標(biāo)題,還是相反。

回復(fù)速度較快,基于概率預(yù)測(快速反應(yīng)),通過大量數(shù)據(jù)預(yù)測答案。

  • 推理大模型:

接收簡單明了、聚焦目標(biāo)的任務(wù),用戶要什么直接說,它可以自己做規(guī)劃。

回復(fù)速度較慢,基于鏈?zhǔn)剿季S(慢速思考),推理問題步驟得到答案。

兩者主要的技術(shù)差別在于訓(xùn)練數(shù)據(jù),通用大模型是問題+答案,推理大模型是問題+思考過程+答案。

第二,由于Deepseek的推理大模型DeepSeek-R1關(guān)注度更高,很多人錯誤地認(rèn)為推理大模型一定比通用大模型高級。

需要肯定的是,推理大模型屬于前沿模型類型,是大模型預(yù)訓(xùn)練范式撞墻后,OpenAI推出的在推理階段增加算力的新范式。相比通用大模型,推理大模型更燒錢,訓(xùn)練時間也更長。

但并不意味著,推理大模型一定比通用大模型好用,甚至對于某類問題,推理大模型反而顯得雞肋。

大模型領(lǐng)域知名專家劉聰對「定焦One」解釋,比如問某個國家的首都/某個地方的省會城市,推理大模型就不如通用大模型好用。

DeepSeek-R1面對簡單問題時的過度思考

他表示,面對這類比較簡單的問題,推理大模型不僅回答效率低于通用大模型,消耗的算力成本也比較昂貴,甚至?xí)霈F(xiàn)過度思考等情況,最后可能給出錯誤答案。

他建議,完成數(shù)學(xué)難題、挑戰(zhàn)性編碼等復(fù)雜任務(wù)時使用推理模型,總結(jié)、翻譯、基礎(chǔ)問答等簡單任務(wù),通用模型使用效果更佳。

第三是DeepSeek的真正實力到底如何。

綜合權(quán)威榜單和從業(yè)者的說法,「定焦One」分別在推理大模型和通用大模型領(lǐng)域,給DeepSeek排了個位。

推理大模型第一梯隊主要有四家:國外OpenAI的o系列模型(如o3-mini)、Google的Gemini 2.0;國內(nèi)的DeepSeek-R1、阿里的QwQ。

不止一位從業(yè)者認(rèn)為,雖然外界都在討論DeepSeek-R1作為國內(nèi)頂尖的模型,能力趕超OpenAI,但從技術(shù)角度看,相比OpenAI最新的o3,還有一定的差距。

它更重要的意義是,大大縮小了國內(nèi)外頂尖水平之間的差距?!叭绻f之前的差距是2-3代,DeepSeek-R1出現(xiàn)后已經(jīng)縮小到了0.5代?!盇I行業(yè)資深從業(yè)者江樹表示。

他結(jié)合自身使用經(jīng)驗,介紹了四家的優(yōu)缺點:

在通用大模型領(lǐng)域,根據(jù)LM Arena(用于評估和比較大型語言模型(LLM)性能的開源平臺)榜單,排在第一梯隊的有五家:國外Google的Gemini(閉源)、OpenAI的ChatGPT、Anthropic的Claude;國內(nèi)的DeepSeek、阿里的Qwen。

江樹也列舉出了使用它們的體驗。

不難發(fā)現(xiàn),盡管DeepSeek-R1震驚了全球科技圈,其價值毋庸置疑,但每家大模型產(chǎn)品都有自身的優(yōu)劣勢,DeepSeek也不是所有大模型都完美無缺。比如劉聰就發(fā)現(xiàn),DeepSeek最新發(fā)布的專注于圖像理解和生成任務(wù)的多模態(tài)大模型Janus-Pro,使用效果一般。

訓(xùn)練大模型,要花多少錢?

回到訓(xùn)練大模型的成本問題,一個大模型究竟是如何誕生的?

劉聰表示,大模型誕生主要分為預(yù)訓(xùn)練-后訓(xùn)練兩個階段,如果把大模型比作小孩,預(yù)訓(xùn)練和后訓(xùn)練要做的是,讓小孩從出生時的只會哭,到懂得大人講的內(nèi)容,再到主動和大人講話。

預(yù)訓(xùn)練主要指訓(xùn)練語料。比如將大量的文本語料投給模型,讓小孩完成知識攝取,但此刻他只是學(xué)了知識還不會用。

后訓(xùn)練則要告訴小孩,如何去用學(xué)了的知識,包含兩種方法,模型微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RLHF)。

劉聰表示,無論是通用大模型還是推理大模型、國內(nèi)還是國外,大家遵循的都是這一流程。江樹也告訴「定焦One」,各家都用的是Transformer模型,因此在最底層的模型構(gòu)成和訓(xùn)練步驟上,無本質(zhì)區(qū)別。

多位從業(yè)者表示,各家大模型的訓(xùn)練成本差別很大,主要集中在硬件、數(shù)據(jù)、人工三大部分,每一部分也可能采取不同的方式,對應(yīng)的成本也不同。

劉聰分別舉例,比如硬件是買是租,兩者間的價格相差很大,如果是買,前期的一次性投入很大,但后期會大幅降低,基本只用交電費,如果是租,可能前期投入不大,但這部分成本始終無法省去。所使用的訓(xùn)練數(shù)據(jù)上,是直接購買現(xiàn)成數(shù)據(jù),還是自己人工爬,也差別很大。每次的訓(xùn)練成本也不太一樣,像第一次要寫爬蟲、做數(shù)據(jù)篩選,但下一個版本由于可使用上個版本的重復(fù)操作,成本會有所降低。以及在最終展現(xiàn)模型前,中間迭代了多少版本,也決定著成本高低,但大模型公司對此諱莫如深。

總之,每個環(huán)節(jié)都涉及很多高額的隱形成本。

外界曾按照GPU估算,在頂尖模型中,GPT-4的訓(xùn)練成本大約為7800萬美元,Llama3.1超6000萬美元,Claude3.5約為1億美元。但由于這些頂尖大模型都是閉源,以及各家是否存在算力浪費現(xiàn)象,外界很難知曉。直到同梯隊的DeepSeek以557.6萬美元出現(xiàn)。

需要注意的是,557.6萬美元是DeepSeek技術(shù)報告中提到的基座模型DeepSeek-V3的訓(xùn)練成本。“關(guān)于V3版本的訓(xùn)練成本只能代表最后一次成功訓(xùn)練的成本,前期的研究、架構(gòu)及算法的試錯等成本都沒有包含在內(nèi);而R1的具體訓(xùn)練成本,論文中沒有提到?!眲⒙敱硎?。也就是說,557.6萬美元僅為模型總成本的一小部分。

半導(dǎo)體市場分析和預(yù)測公司SemiAnalysis指出,考慮到服務(wù)器資本支出、運(yùn)營成本等因素,DeepSeek的總成本在4年內(nèi)可能達(dá)到25.73億美元。

從業(yè)者認(rèn)為,相較其他大模型公司百億美元的投入,即便按25.73億美元計算,DeepSeek的成本也是低的。

而且,DeepSeek-V3的訓(xùn)練過程僅需2048張英偉達(dá)GPU、所用GPU小時僅為278.8萬,相比之下,OpenAI耗費了上萬張GPU,Meta訓(xùn)練模型Llama-3.1-405B所用的GPU小時為3084萬。

DeepSeek不僅在模型訓(xùn)練階段效率更高,在調(diào)用推理階段也更高效、成本更低。

從DeepSeek給出的各大模型API定價(開發(fā)者可以通過API調(diào)用大模型,實現(xiàn)文本生成、對話交互、代碼生成等功能),能看出成本其低于“OpenAI們”。通常認(rèn)為,高開發(fā)成本的API通常需要通過較高的定價來回收成本。

DeepSeek-R1的API定價為:每百萬輸入tokens1元(緩存命中),每百萬輸出tokens16元,反觀OpenAI的o3-mini,輸入(緩存命中)、輸出每百萬tokens的定價,分別為0.55美元(4元人民幣)、4.4美元(31元人民幣)。

緩存命中,即從緩存中讀取數(shù)據(jù)而非重新計算或調(diào)用模型生成結(jié)果,可以減少數(shù)據(jù)處理的時間、降低成本。行業(yè)通過區(qū)分緩存命中和緩存未命中,從而提高API定價的競爭力,低價也讓中小企業(yè)也更容易接入。

近期結(jié)束了優(yōu)惠期的DeepSeek-V3,雖然從原來的每百萬輸入tokens0.1元(緩存命中)、每百萬輸出tokens2元,分別上調(diào)到了0.5元、8元,價格仍然低于其他主流模型。

雖然大模型總訓(xùn)練成本很難預(yù)估,但從業(yè)者一致認(rèn)為,DeepSeek可能代表的是目前一流大模型的最低成本,未來各家應(yīng)該會參照DeepSeek往下降。

DeepSeek的降本啟示

DeepSeek的錢省在哪了?綜合從業(yè)者的說法,從模型結(jié)構(gòu)-預(yù)訓(xùn)練-后訓(xùn)練,每個方面都做了優(yōu)化。

比如為了保證回答的專業(yè)性,很多大模型公司采用的是MoE模型(混合專家模型),即面對一個復(fù)雜難題,大模型會將其拆解為多個子任務(wù),然后將不同子任務(wù)交給不同專家解答。雖然很多家大模型公司都曾提到過這一模型,但DeepSeek達(dá)到了終極專家專業(yè)化水平。

秘訣是采用了細(xì)粒度專家分割(對專家在同一類別中再進(jìn)行子任務(wù)細(xì)分)和共享專家隔離(隔離部分專家減輕知識冗余),這樣做的好處是,能大幅提高M(jìn)oE參數(shù)效率和性能,做到更快更準(zhǔn)確給予答案。

有從業(yè)者估算,DeepSeekMoE相當(dāng)于僅用大約40%的計算量,便達(dá)到了與LLaMA2-7B差不多的效果。

數(shù)據(jù)處理也是大模型訓(xùn)練的一道坎,各家都琢磨著如何提高計算效率,同時還能降低內(nèi)存和帶寬等硬件需求。DeepSeek找到的方法是,在處理數(shù)據(jù)時用FP8低精度訓(xùn)練(用于加速深度學(xué)習(xí)訓(xùn)練),“此舉在已知開源模型中比較領(lǐng)先,畢竟大多數(shù)大模型使用的是FP16或BF16混合精度訓(xùn)練,F(xiàn)P8的訓(xùn)練速度比它們快很多?!眲⒙敱硎?。

后訓(xùn)練中的強(qiáng)化學(xué)習(xí)上,策略優(yōu)化是一大難點,可以理解為讓大模型更好地進(jìn)行過決策,比如AlphaGo通過策略優(yōu)化學(xué)會了如何在圍棋中選擇最優(yōu)的落子策略。

DeepSeek選擇GRPO(分組相對策略優(yōu)化)而非PPO(近端策略優(yōu)化)算法,兩者的主要區(qū)別在于在進(jìn)行算法優(yōu)化時,是否借助價值模型,前者通過組內(nèi)相對獎勵來估計優(yōu)勢函數(shù),后者用的是單獨的價值模型。少一個模型,算力要求自然更小,也會節(jié)省成本。

以及推理層面上,用多頭潛在注意力機(jī)制(MLA)而非傳統(tǒng)的多頭注意力(MHA),顯著降低了顯存占用和計算復(fù)雜度,最直接的好處是,API接口費用下降。

不過,這次DeepSeek給劉聰?shù)淖畲髥l(fā)是,可以從不同角度提升大模型推理能力,純模型微調(diào)(SFT)和純強(qiáng)化學(xué)習(xí)(RLHF)都可以做出不錯的推理大模型。

也就是說,目前做推理模型,可以有四種方式:

第一種:純強(qiáng)化學(xué)習(xí)(DeepSeek-R1-zero)

第二種:SFT+強(qiáng)化學(xué)習(xí)(DeepSeek-R1)

第三種:純SFT(DeepSeek蒸餾模型)

第四種:純提示詞(低成本小模型)

“之前圈內(nèi)都是標(biāo)注SFT+強(qiáng)化學(xué)習(xí),大家都沒有想到,原來做純SFT和純做強(qiáng)化學(xué)習(xí),也能得到很好的效果?!眲⒙敱硎尽?/p>

DeepSeek的降本不僅給從業(yè)者帶來了技術(shù)上的啟發(fā),也影響著AI公司的發(fā)展路徑。

英諾天使基金合伙人王晟介紹,AI產(chǎn)業(yè)在跑通AGI方向上往往有兩種不同的路徑選擇:一個是“算力軍備”范式,堆技術(shù)堆錢堆算力,先把大模型性能拉至一個高點,再考慮產(chǎn)業(yè)落地;另外一個是“算法效率”范式,一開始就以產(chǎn)業(yè)落地為目標(biāo),通過架構(gòu)創(chuàng)新和工程化能力,推出低成本高性能模型。

“DeepSeek的一系列模型證明了,在天花板漲不動的情況下,把重點放在優(yōu)化效率而非能力增長上的范式具有可行性。”王晟稱。

從業(yè)者們相信,未來隨著算法的進(jìn)化,大模型的訓(xùn)練成本還會進(jìn)一步降低。

方舟投資管理公司的創(chuàng)始人兼CEO“木頭姐”曾指出,在DeepSeek之前,人工智能訓(xùn)練成本每年下降75%,推理成本甚至下降85%到90%。王晟也曾表示,年初發(fā)布的模型到年底再發(fā)布同樣的模型,成本都會有大幅度下降,甚至有可能降至1/10。

獨立研究機(jī)構(gòu)SemiAnalysis在最近一篇分析報告中指出,推理成本的下降是人工智能不斷進(jìn)步的標(biāo)志之一。原來需要超級計算機(jī)、多張GPU才能完成的GPT-3大模型性能,現(xiàn)在一些安裝在筆記本電腦上的小模型也能實現(xiàn)同樣效果。而且成本也下降了很多,Anthropic首席執(zhí)行官Dario認(rèn)為,算法定價成朝著GPT-3質(zhì)量發(fā)展,成本已經(jīng)降低1200倍。

未來,大模型的降本速度還會越來越快。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。