正在閱讀:

發(fā)布多模態(tài)融合大模型,商湯想搶占未來的交互入口

掃一掃下載界面新聞APP

發(fā)布多模態(tài)融合大模型,商湯想搶占未來的交互入口

商湯科技正式推出全新版本的“商湯日日新 SenseNova”多模態(tài)融合大模型及“商湯大裝置 SenseCore 2.0”端到端能力體系。

商湯科技董事長兼CEO徐立 界面新聞?dòng)浾邤z

界面新聞?dòng)浾?| 李如嘉

界面新聞編輯 | 文姝琪

4月10日,在商湯技術(shù)交流日上,商湯科技正式推出全新版本的“商湯日日新 SenseNova”多模態(tài)融合大模型及“商湯大裝置 SenseCore 2.0”端到端能力體系

本次發(fā)布的“日日新 SenseNova V6”大模型系列包含四個(gè)版本,其中SenseNova V6 Pro為原生多模態(tài)通用大模型,采用了6200億參數(shù)的混合專家架構(gòu),實(shí)現(xiàn)文本、圖像和視頻的原生融合;SenseNova V6 Reasoner Pro在SenseNova V6 Pro基礎(chǔ)上通過多模態(tài)長思維鏈訓(xùn)練和多模態(tài)增強(qiáng)學(xué)習(xí),形成突出的多模態(tài)推理能力;SenseNova V6 Video是視頻理解模型,可以理解總結(jié)視頻內(nèi)容,并在此基礎(chǔ)上進(jìn)行深入分析和推理;SenseNova V6 Omni是輕量級的全模態(tài)交互模型,深度融合語言、語音和視頻,提供實(shí)時(shí)交互體驗(yàn)。

在現(xiàn)場,商湯展示了SenseNova V6的多模態(tài)能力。例如,用戶可以將自己的數(shù)學(xué)題手寫答案拍照上傳,通過V6 Reasoner Pro多步驟推理思考,模型先進(jìn)行解題,并對用戶的答案進(jìn)行分析,然后通過V6 Omni音視頻溝通能力,模型以引導(dǎo)提問的方式為用戶逐步剖析解題思路,還支持語音實(shí)時(shí)答疑,隨時(shí)解答用戶在解題過程中遇到的問題。

比起市面上的其他拍照搜題應(yīng)用,V6更像是一個(gè)“一對一私教”。SenseNova V6還可以實(shí)現(xiàn)通過攝像頭實(shí)時(shí)解讀繪本,根據(jù)畫面和用戶的語音要求講故事,在交流中,V6可針對不同的對話內(nèi)容和場景需求,即時(shí)切換語氣、情感與音調(diào)。

“未來的交互一定是一個(gè)多模態(tài)、全模態(tài)的交互,商湯要打通未來交互入口的核心技術(shù)。”商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事及人工智能基礎(chǔ)設(shè)施和大模型首席科學(xué)家林達(dá)華告訴界面新聞,人類生活在一個(gè)豐富多彩的世界,交流的方式一直是多模態(tài)的,而不是單純的文字交流,這也是未來大模型發(fā)展的必然方向。

“從Gemini 2.0、GPT 4.5到最近剛發(fā)布的Llama 4,都可以看到國際主流機(jī)構(gòu)正在持續(xù)提升原生多模態(tài)能力?!彼硎?,但目前在國內(nèi)還很少有企業(yè)集中在多模態(tài)推理、交互能力的研發(fā)上。因此,基于在計(jì)算機(jī)視覺領(lǐng)域的積累,商湯選擇不去參與大語言模型的競爭,而是提前進(jìn)入多模態(tài)大模型的賽道,希望能搶占未來多模態(tài)交互的入口。

商湯稱,目前SenseNova V6 Pro的多模態(tài)綜合能力可以對標(biāo)Gemini 2.0 Pro和GPT-4.5。此外,在技術(shù)能力上還有三項(xiàng)關(guān)鍵突破:強(qiáng)推理、強(qiáng)交互和長記憶。

此前,商湯科技確立了“大裝置-大模型-應(yīng)用”三位一體核心戰(zhàn)略,日日新(SenseNova)多模態(tài)大模型為基石,以生產(chǎn)力工具和交互工具為兩大落地方向

其認(rèn)為,在AI 2.0時(shí)代,基礎(chǔ)設(shè)施、大模型和應(yīng)用三者的關(guān)系是密不可分的:應(yīng)用場景推動(dòng)模型發(fā)展,而大模型通過差異化創(chuàng)新來突破各種垂直領(lǐng)域的需求;同時(shí),大模型的發(fā)展也牽引AI基礎(chǔ)設(shè)施的持續(xù)優(yōu)化,反過來,強(qiáng)大的AI基礎(chǔ)設(shè)施又能支撐大模型能力的躍遷。

具體從大模型和應(yīng)用兩者之間的關(guān)系來看,商湯認(rèn)為,大模型對商業(yè)應(yīng)用主要有兩個(gè)方面的關(guān)鍵價(jià)值:一是融入真實(shí)的業(yè)務(wù)應(yīng)用,具備處理復(fù)雜信息和解決復(fù)雜問題的能力;二是以更有親和力的方式與人交互,讓人感受到和模型交流的良好體驗(yàn),愿意和模型持續(xù)交流。

為了實(shí)現(xiàn)上述目標(biāo),模型需要具備強(qiáng)大的推理能力,以支撐對人類意圖的深度理解、對復(fù)雜信息的分析判斷、以及解決真實(shí)環(huán)境中的復(fù)雜問題;能理解情感,與人共情,并且可以和人實(shí)時(shí)互動(dòng);能記住過去一段時(shí)間發(fā)生的事情,并且捕捉其中的關(guān)鍵信息并融入推理。這也是商湯在V6中做到的主要突破。

“靠單純的技術(shù)很難形成長久的壁壘,現(xiàn)在一個(gè)新的模型發(fā)布后很快就會(huì)有一系列模型追趕上來,開源也會(huì)進(jìn)一步縮小大家在技術(shù)上的差距。技術(shù)和行業(yè)的深度結(jié)合才能形成持久壁壘?!绷诌_(dá)華認(rèn)為。商湯希望能夠把模型嵌入到真實(shí)的業(yè)務(wù)場景中,真正替代掉業(yè)務(wù)鏈條中的某些環(huán)節(jié)。

目前,基于多模態(tài)大模型,商湯開發(fā)了多種新場景應(yīng)用。例如在長視頻上,商湯上線了視頻理解功能,提供對教學(xué)視頻、旅游視頻、生活視頻的解析、總結(jié)、對話,以及對情景之外的情節(jié)和邏輯的補(bǔ)全。面向日常應(yīng)用的需求,SenseNova V6 Omni具備數(shù)學(xué)解題、點(diǎn)讀翻譯、文旅講解、繪本講解四大功能。在財(cái)務(wù)審核、購物比價(jià)、商鋪運(yùn)營等場景中也可以利用V6來解決用戶需求。

此外,在技術(shù)交流日上,商湯還展示了和具身智能企業(yè)傅利葉的合作。基于SenseNova V6 Omni,傅利葉的機(jī)器人可以通過融合圖像、視頻、語音和文本信息理解環(huán)境,進(jìn)行思考與表達(dá),洞察用戶的需求與情緒,與人類進(jìn)行交互。機(jī)器人在輸出語音的同時(shí),還能同步生成與語義相匹配的動(dòng)作,實(shí)現(xiàn)語言與行為的統(tǒng)一。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。

商湯科技

3.2k
  • 商湯與上海徐匯文旅局達(dá)成合作
  • 商湯與傅利葉達(dá)成戰(zhàn)略合作

評論

暫無評論哦,快來評價(jià)一下吧!

下載界面新聞

微信公眾號

微博

發(fā)布多模態(tài)融合大模型,商湯想搶占未來的交互入口

商湯科技正式推出全新版本的“商湯日日新 SenseNova”多模態(tài)融合大模型及“商湯大裝置 SenseCore 2.0”端到端能力體系。

商湯科技董事長兼CEO徐立 界面新聞?dòng)浾邤z

界面新聞?dòng)浾?| 李如嘉

界面新聞編輯 | 文姝琪

4月10日,在商湯技術(shù)交流日上,商湯科技正式推出全新版本的“商湯日日新 SenseNova”多模態(tài)融合大模型及“商湯大裝置 SenseCore 2.0”端到端能力體系

本次發(fā)布的“日日新 SenseNova V6”大模型系列包含四個(gè)版本,其中SenseNova V6 Pro為原生多模態(tài)通用大模型,采用了6200億參數(shù)的混合專家架構(gòu),實(shí)現(xiàn)文本、圖像和視頻的原生融合;SenseNova V6 Reasoner Pro在SenseNova V6 Pro基礎(chǔ)上通過多模態(tài)長思維鏈訓(xùn)練和多模態(tài)增強(qiáng)學(xué)習(xí),形成突出的多模態(tài)推理能力;SenseNova V6 Video是視頻理解模型,可以理解總結(jié)視頻內(nèi)容,并在此基礎(chǔ)上進(jìn)行深入分析和推理;SenseNova V6 Omni是輕量級的全模態(tài)交互模型,深度融合語言、語音和視頻,提供實(shí)時(shí)交互體驗(yàn)。

在現(xiàn)場,商湯展示了SenseNova V6的多模態(tài)能力。例如,用戶可以將自己的數(shù)學(xué)題手寫答案拍照上傳,通過V6 Reasoner Pro多步驟推理思考,模型先進(jìn)行解題,并對用戶的答案進(jìn)行分析,然后通過V6 Omni音視頻溝通能力,模型以引導(dǎo)提問的方式為用戶逐步剖析解題思路,還支持語音實(shí)時(shí)答疑,隨時(shí)解答用戶在解題過程中遇到的問題。

比起市面上的其他拍照搜題應(yīng)用,V6更像是一個(gè)“一對一私教”。SenseNova V6還可以實(shí)現(xiàn)通過攝像頭實(shí)時(shí)解讀繪本,根據(jù)畫面和用戶的語音要求講故事,在交流中,V6可針對不同的對話內(nèi)容和場景需求,即時(shí)切換語氣、情感與音調(diào)。

“未來的交互一定是一個(gè)多模態(tài)、全模態(tài)的交互,商湯要打通未來交互入口的核心技術(shù)。”商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事及人工智能基礎(chǔ)設(shè)施和大模型首席科學(xué)家林達(dá)華告訴界面新聞,人類生活在一個(gè)豐富多彩的世界,交流的方式一直是多模態(tài)的,而不是單純的文字交流,這也是未來大模型發(fā)展的必然方向。

“從Gemini 2.0、GPT 4.5到最近剛發(fā)布的Llama 4,都可以看到國際主流機(jī)構(gòu)正在持續(xù)提升原生多模態(tài)能力?!彼硎荆壳霸趪鴥?nèi)還很少有企業(yè)集中在多模態(tài)推理、交互能力的研發(fā)上。因此,基于在計(jì)算機(jī)視覺領(lǐng)域的積累,商湯選擇不去參與大語言模型的競爭,而是提前進(jìn)入多模態(tài)大模型的賽道,希望能搶占未來多模態(tài)交互的入口。

商湯稱,目前SenseNova V6 Pro的多模態(tài)綜合能力可以對標(biāo)Gemini 2.0 Pro和GPT-4.5。此外,在技術(shù)能力上還有三項(xiàng)關(guān)鍵突破:強(qiáng)推理、強(qiáng)交互和長記憶。

此前,商湯科技確立了“大裝置-大模型-應(yīng)用”三位一體核心戰(zhàn)略,日日新(SenseNova)多模態(tài)大模型為基石,以生產(chǎn)力工具和交互工具為兩大落地方向。

其認(rèn)為,在AI 2.0時(shí)代,基礎(chǔ)設(shè)施、大模型和應(yīng)用三者的關(guān)系是密不可分的:應(yīng)用場景推動(dòng)模型發(fā)展,而大模型通過差異化創(chuàng)新來突破各種垂直領(lǐng)域的需求;同時(shí),大模型的發(fā)展也牽引AI基礎(chǔ)設(shè)施的持續(xù)優(yōu)化,反過來,強(qiáng)大的AI基礎(chǔ)設(shè)施又能支撐大模型能力的躍遷。

具體從大模型和應(yīng)用兩者之間的關(guān)系來看,商湯認(rèn)為,大模型對商業(yè)應(yīng)用主要有兩個(gè)方面的關(guān)鍵價(jià)值:一是融入真實(shí)的業(yè)務(wù)應(yīng)用,具備處理復(fù)雜信息和解決復(fù)雜問題的能力;二是以更有親和力的方式與人交互,讓人感受到和模型交流的良好體驗(yàn),愿意和模型持續(xù)交流。

為了實(shí)現(xiàn)上述目標(biāo),模型需要具備強(qiáng)大的推理能力,以支撐對人類意圖的深度理解、對復(fù)雜信息的分析判斷、以及解決真實(shí)環(huán)境中的復(fù)雜問題;能理解情感,與人共情,并且可以和人實(shí)時(shí)互動(dòng);能記住過去一段時(shí)間發(fā)生的事情,并且捕捉其中的關(guān)鍵信息并融入推理。這也是商湯在V6中做到的主要突破。

“靠單純的技術(shù)很難形成長久的壁壘,現(xiàn)在一個(gè)新的模型發(fā)布后很快就會(huì)有一系列模型追趕上來,開源也會(huì)進(jìn)一步縮小大家在技術(shù)上的差距。技術(shù)和行業(yè)的深度結(jié)合才能形成持久壁壘?!绷诌_(dá)華認(rèn)為。商湯希望能夠把模型嵌入到真實(shí)的業(yè)務(wù)場景中,真正替代掉業(yè)務(wù)鏈條中的某些環(huán)節(jié)。

目前,基于多模態(tài)大模型,商湯開發(fā)了多種新場景應(yīng)用。例如在長視頻上,商湯上線了視頻理解功能,提供對教學(xué)視頻、旅游視頻、生活視頻的解析、總結(jié)、對話,以及對情景之外的情節(jié)和邏輯的補(bǔ)全。面向日常應(yīng)用的需求,SenseNova V6 Omni具備數(shù)學(xué)解題、點(diǎn)讀翻譯、文旅講解、繪本講解四大功能。在財(cái)務(wù)審核、購物比價(jià)、商鋪運(yùn)營等場景中也可以利用V6來解決用戶需求。

此外,在技術(shù)交流日上,商湯還展示了和具身智能企業(yè)傅利葉的合作?;赟enseNova V6 Omni,傅利葉的機(jī)器人可以通過融合圖像、視頻、語音和文本信息理解環(huán)境,進(jìn)行思考與表達(dá),洞察用戶的需求與情緒,與人類進(jìn)行交互。機(jī)器人在輸出語音的同時(shí),還能同步生成與語義相匹配的動(dòng)作,實(shí)現(xiàn)語言與行為的統(tǒng)一。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。