正在閱讀:

海天瑞聲(688787.SH):大模型強化學習環(huán)節(jié)的整體數(shù)據(jù)需求在逐漸攀升,逐漸向更多垂類拓展

掃一掃下載界面新聞APP

海天瑞聲(688787.SH):大模型強化學習環(huán)節(jié)的整體數(shù)據(jù)需求在逐漸攀升,逐漸向更多垂類拓展

2024年6月6日海天瑞聲接受華夏基金等機構調(diào)研,證券事務代表:張哲參與接待,并回答了調(diào)研機構提出的問題。

圖片來源: 圖蟲創(chuàng)意

海天瑞聲(688787.SH)2024年6月11日發(fā)布消息稱,2024年6月6日海天瑞聲接受華夏基金等機構調(diào)研,證券事務代表:張哲參與接待,并回答了調(diào)研機構提出的問題。

調(diào)研機構詳情如下:

賈靜雯/華夏基金;白海波/樂正資本;張宸/銀河證券;王霆/國華興盛資產(chǎn);楊子平/川流資本;范明/國泰君安證券資產(chǎn)管理;許斐/霽峰資本;錢小英/上海鍇量。

調(diào)研主要內(nèi)容:

1、請問公司2023年收入下滑的原因是什么?

2023年,公司營業(yè)收入為1.70億元,較去年同期下降35.33%,主要系受境外部分客戶進行階段性裁員、業(yè)務方向及研發(fā)節(jié)奏周期性調(diào)整等影響,部分客戶2023年預算釋放進度放緩,同時疊加2023年上半年數(shù)據(jù)出境相關法規(guī)落地實施的階段性影響,公司境外收入同比大幅下滑。境內(nèi)業(yè)務方面,雖然宏觀穩(wěn)經(jīng)濟政策已初見成效,但國內(nèi)仍面臨復雜嚴峻的內(nèi)外部環(huán)境考驗,部分境內(nèi)客戶對集中性研發(fā)投入仍持謹慎態(tài)度,基礎數(shù)據(jù)服務領域客戶預算及需求釋放出現(xiàn)階段性減緩,疊加行業(yè)內(nèi)競爭加劇,綜合導致境內(nèi)收入同比下滑。

2、公司2024年第一季度收入同比增長的原因是什么?

公司2024年第一季度收入增長主要系在大模型技術的逐步發(fā)展和應用領域不斷拓展的帶動下,全球各類型科技公司對人工智能領域的研發(fā)投入呈現(xiàn)出復蘇并增長的趨勢,帶動以多語言智能語音、文本為代表的數(shù)據(jù)需求快速增加,整體拉動公司第一季度營業(yè)收入同比大幅提升。

3、公司政企類項目目前有哪些進展?

目前,公司正在與北京、安徽、山東、河北等地進行對接。若相關合作達到信息披露要求,公司將及時履行信息披露義務。

4、大模型范式下的預訓練階段數(shù)據(jù)需求和傳統(tǒng)的數(shù)據(jù)需求有什么區(qū)別?

大模型預訓練階段的數(shù)據(jù)需求和深度學習技術路線下的傳統(tǒng)訓練數(shù)據(jù)需求,兩者在形態(tài)上基本一致,都是文本、語音和圖像,但在數(shù)據(jù)規(guī)模、質(zhì)量、來源等方面,預訓練數(shù)據(jù)較傳統(tǒng)訓練數(shù)據(jù)會存在一定差異。例如,規(guī)模上,預訓練數(shù)據(jù)的token量普遍在萬億量級,而傳統(tǒng)模型數(shù)量則大約在10億量級。從數(shù)據(jù)來源的角度看,由于大模型所需數(shù)據(jù)規(guī)模遠超傳統(tǒng)模型,因此其數(shù)據(jù)來源將更加豐富以滿足規(guī)?;⒍嘣瘮?shù)據(jù)需求。具體來說,大模型數(shù)據(jù)來源除了來自傳統(tǒng)的定向采集外,還將涉及版權數(shù)據(jù)、公共數(shù)據(jù)等新型海量高質(zhì)量數(shù)據(jù)來源。

此外,數(shù)據(jù)處理的核心技術也存在一定差異。例如,由于大模型預訓練階段的原料數(shù)據(jù)規(guī)模更大,因此大模型預訓練數(shù)據(jù)更加注重數(shù)據(jù)清洗的工程化能力,在預訓練階段需要結合原料數(shù)據(jù)特點以及所涉及的主題、領域等,對海量數(shù)據(jù)完成高質(zhì)量清洗,這對數(shù)據(jù)服務商的工程化數(shù)據(jù)處理能力以及過往服務經(jīng)驗的積累都提出了更高要求。

5、目前已經(jīng)有很多大模型陸續(xù)發(fā)布,未來數(shù)據(jù)需求是會持續(xù)增長還是下降?原因是什么?

隨著更多大模型產(chǎn)品面向公眾推出上線、以及不斷進行版本迭代,未來的大模型相關數(shù)據(jù)需求會持續(xù)、顯著增長,這符合當AI進行應用側后,對數(shù)據(jù)的需求才會規(guī)模性增長的規(guī)律。預期該類增長將主要體現(xiàn)在預訓練階段對高質(zhì)量、大規(guī)模的版權數(shù)據(jù)、公共數(shù)據(jù)、多模態(tài)數(shù)據(jù)、垂直領域的實際場景數(shù)據(jù)等方面的需求,以及不斷提升其交互精準度的強化學習階段各類數(shù)據(jù)需求等。例如,若某大模型應用領域為文學創(chuàng)作,就會需要來自版權方的散文、小說、詩詞等數(shù)據(jù)進行創(chuàng)作能力訓練;若某大模型擬提升其在民生政務領域的客服能力,則來自民生政務服務平臺的此類對話數(shù)據(jù)將產(chǎn)生重要價值。未來,隨著大模型向更高級、更多維、更廣泛垂向拓展,大模型數(shù)據(jù)需求將呈現(xiàn)快速增長趨勢。

6、強化學習階段的數(shù)據(jù)服務,今年有何進展或者變化?

目前來看,隨著各大模型的陸續(xù)上線,強化學習環(huán)節(jié)的整體數(shù)據(jù)需求在逐漸攀升,并在具體標注任務上呈現(xiàn)如下趨勢:

(1)逐漸向更多垂類拓展(例如,法律、金融、醫(yī)療);(2)強化學習標注的評價/評分指標變得更為豐富,會要求標注人員從更多維度對模型的問答進行評判和打分;(3)由單模態(tài)向多模態(tài)轉(zhuǎn)變:23年主要的標注需求集中在文本類標注,今年開始逐步向多模態(tài)拓展(例如,文本-視頻、文本-圖像等)。


未經(jīng)正式授權嚴禁轉(zhuǎn)載本文,侵權必究。如需轉(zhuǎn)載請聯(lián)系:youlianyunpindao@163.com
以上內(nèi)容與數(shù)據(jù)僅供參考,與界面有連云頻道立場無關,不構成投資建議,使用前請核實。據(jù)此操作,風險自擔。

海天瑞聲

150
  • 海天瑞聲(688787.SH):2024年年報凈利潤為1133.61萬元
  • 海天瑞聲(688787.SH):2025年一季報凈利潤為37.16萬元

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

海天瑞聲(688787.SH):大模型強化學習環(huán)節(jié)的整體數(shù)據(jù)需求在逐漸攀升,逐漸向更多垂類拓展

2024年6月6日海天瑞聲接受華夏基金等機構調(diào)研,證券事務代表:張哲參與接待,并回答了調(diào)研機構提出的問題。

圖片來源: 圖蟲創(chuàng)意

海天瑞聲(688787.SH)2024年6月11日發(fā)布消息稱,2024年6月6日海天瑞聲接受華夏基金等機構調(diào)研,證券事務代表:張哲參與接待,并回答了調(diào)研機構提出的問題。

調(diào)研機構詳情如下:

賈靜雯/華夏基金;白海波/樂正資本;張宸/銀河證券;王霆/國華興盛資產(chǎn);楊子平/川流資本;范明/國泰君安證券資產(chǎn)管理;許斐/霽峰資本;錢小英/上海鍇量。

調(diào)研主要內(nèi)容:

1、請問公司2023年收入下滑的原因是什么?

2023年,公司營業(yè)收入為1.70億元,較去年同期下降35.33%,主要系受境外部分客戶進行階段性裁員、業(yè)務方向及研發(fā)節(jié)奏周期性調(diào)整等影響,部分客戶2023年預算釋放進度放緩,同時疊加2023年上半年數(shù)據(jù)出境相關法規(guī)落地實施的階段性影響,公司境外收入同比大幅下滑。境內(nèi)業(yè)務方面,雖然宏觀穩(wěn)經(jīng)濟政策已初見成效,但國內(nèi)仍面臨復雜嚴峻的內(nèi)外部環(huán)境考驗,部分境內(nèi)客戶對集中性研發(fā)投入仍持謹慎態(tài)度,基礎數(shù)據(jù)服務領域客戶預算及需求釋放出現(xiàn)階段性減緩,疊加行業(yè)內(nèi)競爭加劇,綜合導致境內(nèi)收入同比下滑。

2、公司2024年第一季度收入同比增長的原因是什么?

公司2024年第一季度收入增長主要系在大模型技術的逐步發(fā)展和應用領域不斷拓展的帶動下,全球各類型科技公司對人工智能領域的研發(fā)投入呈現(xiàn)出復蘇并增長的趨勢,帶動以多語言智能語音、文本為代表的數(shù)據(jù)需求快速增加,整體拉動公司第一季度營業(yè)收入同比大幅提升。

3、公司政企類項目目前有哪些進展?

目前,公司正在與北京、安徽、山東、河北等地進行對接。若相關合作達到信息披露要求,公司將及時履行信息披露義務。

4、大模型范式下的預訓練階段數(shù)據(jù)需求和傳統(tǒng)的數(shù)據(jù)需求有什么區(qū)別?

大模型預訓練階段的數(shù)據(jù)需求和深度學習技術路線下的傳統(tǒng)訓練數(shù)據(jù)需求,兩者在形態(tài)上基本一致,都是文本、語音和圖像,但在數(shù)據(jù)規(guī)模、質(zhì)量、來源等方面,預訓練數(shù)據(jù)較傳統(tǒng)訓練數(shù)據(jù)會存在一定差異。例如,規(guī)模上,預訓練數(shù)據(jù)的token量普遍在萬億量級,而傳統(tǒng)模型數(shù)量則大約在10億量級。從數(shù)據(jù)來源的角度看,由于大模型所需數(shù)據(jù)規(guī)模遠超傳統(tǒng)模型,因此其數(shù)據(jù)來源將更加豐富以滿足規(guī)?;?、多元化數(shù)據(jù)需求。具體來說,大模型數(shù)據(jù)來源除了來自傳統(tǒng)的定向采集外,還將涉及版權數(shù)據(jù)、公共數(shù)據(jù)等新型海量高質(zhì)量數(shù)據(jù)來源。

此外,數(shù)據(jù)處理的核心技術也存在一定差異。例如,由于大模型預訓練階段的原料數(shù)據(jù)規(guī)模更大,因此大模型預訓練數(shù)據(jù)更加注重數(shù)據(jù)清洗的工程化能力,在預訓練階段需要結合原料數(shù)據(jù)特點以及所涉及的主題、領域等,對海量數(shù)據(jù)完成高質(zhì)量清洗,這對數(shù)據(jù)服務商的工程化數(shù)據(jù)處理能力以及過往服務經(jīng)驗的積累都提出了更高要求。

5、目前已經(jīng)有很多大模型陸續(xù)發(fā)布,未來數(shù)據(jù)需求是會持續(xù)增長還是下降?原因是什么?

隨著更多大模型產(chǎn)品面向公眾推出上線、以及不斷進行版本迭代,未來的大模型相關數(shù)據(jù)需求會持續(xù)、顯著增長,這符合當AI進行應用側后,對數(shù)據(jù)的需求才會規(guī)模性增長的規(guī)律。預期該類增長將主要體現(xiàn)在預訓練階段對高質(zhì)量、大規(guī)模的版權數(shù)據(jù)、公共數(shù)據(jù)、多模態(tài)數(shù)據(jù)、垂直領域的實際場景數(shù)據(jù)等方面的需求,以及不斷提升其交互精準度的強化學習階段各類數(shù)據(jù)需求等。例如,若某大模型應用領域為文學創(chuàng)作,就會需要來自版權方的散文、小說、詩詞等數(shù)據(jù)進行創(chuàng)作能力訓練;若某大模型擬提升其在民生政務領域的客服能力,則來自民生政務服務平臺的此類對話數(shù)據(jù)將產(chǎn)生重要價值。未來,隨著大模型向更高級、更多維、更廣泛垂向拓展,大模型數(shù)據(jù)需求將呈現(xiàn)快速增長趨勢。

6、強化學習階段的數(shù)據(jù)服務,今年有何進展或者變化?

目前來看,隨著各大模型的陸續(xù)上線,強化學習環(huán)節(jié)的整體數(shù)據(jù)需求在逐漸攀升,并在具體標注任務上呈現(xiàn)如下趨勢:

(1)逐漸向更多垂類拓展(例如,法律、金融、醫(yī)療);(2)強化學習標注的評價/評分指標變得更為豐富,會要求標注人員從更多維度對模型的問答進行評判和打分;(3)由單模態(tài)向多模態(tài)轉(zhuǎn)變:23年主要的標注需求集中在文本類標注,今年開始逐步向多模態(tài)拓展(例如,文本-視頻、文本-圖像等)。

未經(jīng)正式授權嚴禁轉(zhuǎn)載本文,侵權必究。