97在线看视频,2020中文字字幕在线不卡

界面新聞?dòng)浾?| 李如嘉
界面新聞編輯 | 文姝琪

4月10日，在商湯技術(shù)交流日上，商湯科技正式推出全新版本的“商湯日日新 SenseNova”多模態(tài)融合大模型及“商湯大裝置 SenseCore 2.0”端到端能力體系。

本次發(fā)布的“日日新 SenseNova V6”大模型系列包含四個(gè)版本，其中SenseNova V6 Pro為原生多模態(tài)通用大模型，采用了6200億參數(shù)的混合專家架構(gòu)，實(shí)現(xiàn)文本、圖像和視頻的原生融合；SenseNova V6 Reasoner Pro在SenseNova V6 Pro基礎(chǔ)上通過多模態(tài)長思維鏈訓(xùn)練和多模態(tài)增強(qiáng)學(xué)習(xí)，形成突出的多模態(tài)推理能力；SenseNova V6 Video是視頻理解模型，可以理解總結(jié)視頻內(nèi)容，并在此基礎(chǔ)上進(jìn)行深入分析和推理；SenseNova V6 Omni是輕量級的全模態(tài)交互模型，深度融合語言、語音和視頻，提供實(shí)時(shí)交互體驗(yàn)。

在現(xiàn)場，商湯展示了SenseNova V6的多模態(tài)能力。例如，用戶可以將自己的數(shù)學(xué)題手寫答案拍照上傳，通過V6 Reasoner Pro的多步驟推理思考，模型先進(jìn)行解題，并對用戶的答案進(jìn)行分析，然后通過V6 Omni的音視頻溝通能力，模型以引導(dǎo)提問的方式為用戶逐步剖析解題思路，還支持語音實(shí)時(shí)答疑，隨時(shí)解答用戶在解題過程中遇到的問題。

比起市面上的其他拍照搜題應(yīng)用，V6更像是一個(gè)“一對一私教”。SenseNova V6還可以實(shí)現(xiàn)通過攝像頭實(shí)時(shí)解讀繪本，根據(jù)畫面和用戶的語音要求講故事，在交流中，V6可針對不同的對話內(nèi)容和場景需求，即時(shí)切換語氣、情感與音調(diào)。

“未來的交互一定是一個(gè)多模態(tài)、全模態(tài)的交互，商湯要打通未來交互入口的核心技術(shù)。”商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事及人工智能基礎(chǔ)設(shè)施和大模型首席科學(xué)家林達(dá)華告訴界面新聞，人類生活在一個(gè)豐富多彩的世界，交流的方式一直是多模態(tài)的，而不是單純的文字交流，這也是未來大模型發(fā)展的必然方向。

“從Gemini 2.0、GPT 4.5到最近剛發(fā)布的Llama 4，都可以看到國際主流機(jī)構(gòu)正在持續(xù)提升原生多模態(tài)能力?！彼硎?，但目前在國內(nèi)還很少有企業(yè)集中在多模態(tài)推理、交互能力的研發(fā)上。因此，基于在計(jì)算機(jī)視覺領(lǐng)域的積累，商湯選擇不去參與大語言模型的競爭，而是提前進(jìn)入多模態(tài)大模型的賽道，希望能搶占未來多模態(tài)交互的入口。

商湯稱，目前SenseNova V6 Pro的多模態(tài)綜合能力可以對標(biāo)Gemini 2.0 Pro和GPT-4.5。此外，在技術(shù)能力上還有三項(xiàng)關(guān)鍵突破：強(qiáng)推理、強(qiáng)交互和長記憶。

此前，商湯科技確立了“大裝置-大模型-應(yīng)用”三位一體核心戰(zhàn)略，以日日新（SenseNova）多模態(tài)大模型為基石，以生產(chǎn)力工具和交互工具為兩大落地方向。

其認(rèn)為，在AI 2.0時(shí)代，基礎(chǔ)設(shè)施、大模型和應(yīng)用三者的關(guān)系是密不可分的：應(yīng)用場景推動(dòng)模型發(fā)展，而大模型通過差異化創(chuàng)新來突破各種垂直領(lǐng)域的需求；同時(shí)，大模型的發(fā)展也牽引了AI基礎(chǔ)設(shè)施的持續(xù)優(yōu)化，反過來，強(qiáng)大的AI基礎(chǔ)設(shè)施又能支撐大模型能力的躍遷。

具體從大模型和應(yīng)用兩者之間的關(guān)系來看，商湯認(rèn)為，大模型對商業(yè)應(yīng)用主要有兩個(gè)方面的關(guān)鍵價(jià)值：一是融入真實(shí)的業(yè)務(wù)應(yīng)用，具備處理復(fù)雜信息和解決復(fù)雜問題的能力；二是以更有親和力的方式與人交互，讓人感受到和模型交流的良好體驗(yàn)，愿意和模型持續(xù)交流。

為了實(shí)現(xiàn)上述目標(biāo)，模型需要具備強(qiáng)大的推理能力，以支撐對人類意圖的深度理解、對復(fù)雜信息的分析判斷、以及解決真實(shí)環(huán)境中的復(fù)雜問題；能理解情感，與人共情，并且可以和人實(shí)時(shí)互動(dòng)；能記住過去一段時(shí)間發(fā)生的事情，并且捕捉其中的關(guān)鍵信息并融入推理。這也是商湯在V6中做到的主要突破。

“靠單純的技術(shù)很難形成長久的壁壘，現(xiàn)在一個(gè)新的模型發(fā)布后很快就會(huì)有一系列模型追趕上來，開源也會(huì)進(jìn)一步縮小大家在技術(shù)上的差距。技術(shù)和行業(yè)的深度結(jié)合才能形成持久壁壘?！绷诌_(dá)華認(rèn)為。商湯希望能夠把模型嵌入到真實(shí)的業(yè)務(wù)場景中，真正替代掉業(yè)務(wù)鏈條中的某些環(huán)節(jié)。

目前，基于多模態(tài)大模型，商湯開發(fā)了多種新場景應(yīng)用。例如在長視頻上，商湯上線了視頻理解功能，提供對教學(xué)視頻、旅游視頻、生活視頻的解析、總結(jié)、對話，以及對情景之外的情節(jié)和邏輯的補(bǔ)全。面向日常應(yīng)用的需求，SenseNova V6 Omni具備數(shù)學(xué)解題、點(diǎn)讀翻譯、文旅講解、繪本講解四大功能。在財(cái)務(wù)審核、購物比價(jià)、商鋪運(yùn)營等場景中也可以利用V6來解決用戶需求。

此外，在技術(shù)交流日上，商湯還展示了和具身智能企業(yè)傅利葉的合作。基于SenseNova V6 Omni，傅利葉的機(jī)器人可以通過融合圖像、視頻、語音和文本信息理解環(huán)境，進(jìn)行思考與表達(dá)，洞察用戶的需求與情緒，與人類進(jìn)行交互。機(jī)器人在輸出語音的同時(shí)，還能同步生成與語義相匹配的動(dòng)作，實(shí)現(xiàn)語言與行為的統(tǒng)一。

界面新聞?dòng)浾?| 李如嘉
界面新聞編輯 | 文姝琪

“從Gemini 2.0、GPT 4.5到最近剛發(fā)布的Llama 4，都可以看到國際主流機(jī)構(gòu)正在持續(xù)提升原生多模態(tài)能力?！彼硎荆壳霸趪鴥?nèi)還很少有企業(yè)集中在多模態(tài)推理、交互能力的研發(fā)上。因此，基于在計(jì)算機(jī)視覺領(lǐng)域的積累，商湯選擇不去參與大語言模型的競爭，而是提前進(jìn)入多模態(tài)大模型的賽道，希望能搶占未來多模態(tài)交互的入口。

此外，在技術(shù)交流日上，商湯還展示了和具身智能企業(yè)傅利葉的合作?；赟enseNova V6 Omni，傅利葉的機(jī)器人可以通過融合圖像、視頻、語音和文本信息理解環(huán)境，進(jìn)行思考與表達(dá)，洞察用戶的需求與情緒，與人類進(jìn)行交互。機(jī)器人在輸出語音的同時(shí)，還能同步生成與語義相匹配的動(dòng)作，實(shí)現(xiàn)語言與行為的統(tǒng)一。

歷史搜索全部刪除

熱門搜索

發(fā)布多模態(tài)融合大模型，商湯想搶占未來的交互入口

商湯科技

評論

發(fā)布多模態(tài)融合大模型，商湯想搶占未來的交互入口

發(fā)布多模態(tài)融合大模型，商湯想搶占未來的交互入口

商湯科技

評論

發(fā)布多模態(tài)融合大模型，商湯想搶占未來的交互入口

發(fā)布多模態(tài)融合大模型，商湯想搶占未來的交互入口

發(fā)布多模態(tài)融合大模型，商湯想搶占未來的交互入口