正在閱讀:

電廠 | 領先OpenAI落地,訊飛版“Her”迭代20億臺終端

掃一掃下載界面新聞APP

電廠 | 領先OpenAI落地,訊飛版“Her”迭代20億臺終端

8月19日,科大訊飛正式推出星火極速超擬人交互。

2024年5月,OpenAI的GPT-4o展示了堪比電影《Her》中的人機交互體驗,響應速度快,能讀懂人的情緒,用笑聲回應開心和用溫柔聲音安撫悲傷情緒。

但OpenAI的“Her”沒有來,訊飛星火版的“Her”在8月底就能面向全民開放使用了。

8月19日,科大訊飛宣布星火語音大模型更新,正式推出星火極速超擬人交互,并將其能力落地在訊飛星火App“小星暢聊”功能中。

這次更新后,星火極速超擬人交互響應速度更快,對話更加自然流暢,隨時打斷、插話之后還能秒回。情緒價值也被拉滿,星火極速超擬人交互還能感知用戶的情緒變化,并共情回應用戶的喜怒哀樂,在表達上更加自然、更具情感,還能扮演角色的語音和人設進行對話。

對比之下,OpenAI主打情緒讀取、實時推理視覺、文本和音頻以及多語言處理的GPT-4o沒有向用戶開放。7月底,OpenAI才選擇性地向一小部分Alpha測試參與者開放部分語音功能。

電廠還獲悉,7月底的一周時間里,科大訊飛董事長劉慶峰和華為輪值董事長徐直軍密集互訪,雙方或探討基于超擬人交互技術落地應用的潛力,瞄準智能終端機器人化的巨大市場。

智能之外,情緒價值拉滿

電影《Her》講述的故事發(fā)生在2025年,男主人公西奧多·托姆布里是一名孤獨內(nèi)向的男子,他的工作是給那些不善于表達感情的人代寫感人肺腑的情書。和相愛多年的妻子凱瑟琳分手后,他一直沉浸在悲傷當中。

偶然的機會,西奧多接觸到一款先進的人工智能操作系統(tǒng)OS1,它能夠通過和人類對話,并不斷學習豐富自己的意識和感情。操作系統(tǒng)化身為一名叫做薩曼莎的“女性”,她變得風趣幽默又善解人意,學習和進化的速度也讓西奧多感到不可思議,兩人很快成了無所不談的朋友。

不需要到2025年,類似的情節(jié)在2024年8月就能成為現(xiàn)實了。科大訊飛星火大模型的極速超擬人交互在響應和打斷速度、情緒感知情感共鳴、語音可控表達、人設扮演四個方面實現(xiàn)巨大突破,相關語音能力正在對標GPT-4o。

在響應速度上,星火極速超擬人交互支持極速響應多輪交互,能夠在對話過程中生成高質量的回答,并且響應速度更快、與GPT-4o響應時間相當,幾乎與人類正常聊天節(jié)奏一致,并且對話中允許用戶隨時打斷、插話,實現(xiàn)了人機對話的“無縫銜接”。

除了對話節(jié)奏更類人之外,超擬人交互還能夠在對話中感知用戶的情緒,把情緒價值拉滿。它可以在對話中感知到用戶的喜、怒、哀、樂、害怕、困惑等各類情緒,不僅能根據(jù)聲音的內(nèi)容來判斷,還能像朋友一樣用合適的情感回應用戶。比如,用笑聲回應開心,用溫柔聲音安慰悲傷情緒。同時,星火極速超擬人交互還能識別用戶咳嗽、貓和狗的叫聲等聲音事件,給出對應的回復語。

以前語音交互中機器聲音無法調整,但有了星火極速超擬人交互,只要用戶語音發(fā)出指令,就可以控制超擬人在情感、風格、方言、強度等表達方式上做出變化,比如,“用調侃的方式給我說個笑話”、“用東北話給外地朋友介紹下鍋包肉”、“說的更快一點”。

此外,星火極速超擬人交互還支持“角色扮演”,可以模仿不同的角色陪聊。比如,“模仿孫悟空的聲音來和小孩子對話”,超擬人就可以模仿孫悟空的聲音和人設和小朋友聊天。星火超擬人交互還可以模仿蠟筆小新、小豬佩奇等角色。

OpenAI的GPT-4o遲遲不來,“中國版GPT-4o”搶先一步落地。科大訊飛星火極速超擬人交互代表了國產(chǎn)大模型逐步從追趕、對標到進行自主創(chuàng)新的差異化路線。

超擬人交互的極速秘訣是統(tǒng)一神經(jīng)網(wǎng)絡直接實現(xiàn)語音到語音端到端建模。傳統(tǒng)的處理方式是先把語音轉成文字,在通過大模型生成回復文本,然后再進行語音合成輸出,需要分三步來工作。但端到端只有一個模型,大幅縮短了響應時間,也提升了交互的擬人度和流暢度。

情感交互、語音可控等則得益于訊飛多維度的語音屬性解耦表征訓練準則,將內(nèi)容、音色、情感、語言、風格都信息進行解耦訓練。星火極速超擬人交互也因此能夠更加靈活控制各類元素,還能根據(jù)需求便捷定制,讓系統(tǒng)快速落地應用。

正因為如此,星火極速超擬人交互可以在8月底率先面向全民開放使用??拼笥嶏w表示,基于全新端到端框架的基礎,星火極速超擬人交互目前主要開放語音模態(tài),未來會拓展到更多模態(tài),并帶來更多更實用、豐富的功能。

但這一次語音模態(tài)的跨越式升級帶來的多輪交互、語義理解、指令跟隨、邏輯推理、情感共鳴,已經(jīng)足以重寫語音交互市場,幫助20億臺智能終端向機器人升級并驅動萬物互聯(lián)的第六次產(chǎn)業(yè)浪潮井噴。

每一臺智能終端都能變成機器人

在2023年科大訊飛全球1024開發(fā)者節(jié)上,華為科技有限公司副董事長、輪值董事長徐直軍曾表示,“華為公司在全球所有使用的智能終端的語音技術,都是來自于科大訊飛,而且不僅僅是中文”。

第三方機構QuestMobile的數(shù)據(jù)顯示,截至今年2月,華為的活躍終端設備數(shù)量已經(jīng)超過2.8億臺。而華為公布的數(shù)據(jù)則顯示,鴻蒙生態(tài)設備數(shù)量已經(jīng)突破了8億臺。這背后是龐大的移動物聯(lián)網(wǎng),工信部公布的統(tǒng)計數(shù)據(jù)顯示,去年5月底,我國的移動物聯(lián)網(wǎng)終端用戶超過20.5億,包括手機、家電、汽車以及初具規(guī)模的機器人。

語音是終端設備核心的交互方式之一,基于訊飛星火大模型在超擬人交互上取得的突破,終端設備可以實現(xiàn)“無感迭代”,從指令型終端晉升為可進行多輪交互、可感知情緒、可定制化表達的擬人機器人。

試想一下,當你的智能手機支持超擬人交互,它不僅能成為百科全書,還可以從手機升級為得力助手和陪伴者。

家中的電視機、平板電腦,能幫助孩子學習,也能為老人提供更多守護,既是家里的管家,也是家庭教師。

智能汽車中有超擬人交互,不僅可以提升內(nèi)容的豐富度,也可以通過增加語音交互的場景從而保障駕駛員的安全。

更為重要的是,星火大模型對多語種、多方言的支持,星火超擬人交互可以讓每一臺升級為機器人的終端設備,保證用戶具備全球通行的能力。

以智能汽車為例,2023年,中國汽車出口量超過日本,躍居全球第一,而出海十強企業(yè)中,有8家都在和科大訊飛合作。科大訊飛多語種技術已經(jīng)可以覆蓋全球60多個語種,訊飛智能車載語音系統(tǒng)覆蓋23個主要語種,搭載該系統(tǒng)的車型已銷往亞洲、歐洲、南美等地的60多個國家和地區(qū)。

從產(chǎn)業(yè)發(fā)展來看,智能語音技術正處于“黃金時代”。國際數(shù)據(jù)公司IDC的統(tǒng)計數(shù)據(jù)顯示,全球智能語音市場規(guī)模由2017年的110.3億美元增長至2022年的351.2億美元,增長幅度218.4%,年復合增長率為26.1%。

IDC還預計,到2030年,全球智能語音服務市場規(guī)模將達約731.6 億美元,復合增長率27%,保持穩(wěn)定增長的趨勢。

具體到我國,2022年我國智能語音市場達341億元,同比增長13.4%。2017年至2022年增長幅度為221.7%,復合增長率為26.33%,稍微領先于全球市場的增長。其中,科大訊飛在國內(nèi)市場的份額遠遠領先于百度、蘋果等公司。

今年1月,科大訊飛推出了星火大模型V3.5,5個月后就升級到了V4.0,整體能力超越了OpenAI的GPT-4 Turbo。僅僅兩個月后,星火大模型就支持了極速超擬人交互,為萬物互聯(lián)時代入口探索出更多的交互可能。

訊飛星火大模型不僅在底層能力方面走得更穩(wěn),更在應用上開足了馬力,同步實現(xiàn)了對全球頂級大模型的趕超以及自身優(yōu)勢模型能力結合實際場景的落地,把新技術轉化為新應用,為用戶創(chuàng)造了真正的價值。

 

本文為轉載內(nèi)容,授權事宜請聯(lián)系原著作權人。

科大訊飛

5.3k
  • 科大訊飛:上半年圍繞大模型相關的總投入達13億 大模型中標數(shù)行業(yè)領先
  • 各地積極推進工業(yè)軟件與平臺發(fā)展,數(shù)字經(jīng)濟ETF(560800)連續(xù)4天實現(xiàn)資金凈流入

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

電廠 | 領先OpenAI落地,訊飛版“Her”迭代20億臺終端

8月19日,科大訊飛正式推出星火極速超擬人交互。

2024年5月,OpenAI的GPT-4o展示了堪比電影《Her》中的人機交互體驗,響應速度快,能讀懂人的情緒,用笑聲回應開心和用溫柔聲音安撫悲傷情緒。

但OpenAI的“Her”沒有來,訊飛星火版的“Her”在8月底就能面向全民開放使用了。

8月19日,科大訊飛宣布星火語音大模型更新,正式推出星火極速超擬人交互,并將其能力落地在訊飛星火App“小星暢聊”功能中。

這次更新后,星火極速超擬人交互響應速度更快,對話更加自然流暢,隨時打斷、插話之后還能秒回。情緒價值也被拉滿,星火極速超擬人交互還能感知用戶的情緒變化,并共情回應用戶的喜怒哀樂,在表達上更加自然、更具情感,還能扮演角色的語音和人設進行對話。

對比之下,OpenAI主打情緒讀取、實時推理視覺、文本和音頻以及多語言處理的GPT-4o沒有向用戶開放。7月底,OpenAI才選擇性地向一小部分Alpha測試參與者開放部分語音功能。

電廠還獲悉,7月底的一周時間里,科大訊飛董事長劉慶峰和華為輪值董事長徐直軍密集互訪,雙方或探討基于超擬人交互技術落地應用的潛力,瞄準智能終端機器人化的巨大市場。

智能之外,情緒價值拉滿

電影《Her》講述的故事發(fā)生在2025年,男主人公西奧多·托姆布里是一名孤獨內(nèi)向的男子,他的工作是給那些不善于表達感情的人代寫感人肺腑的情書。和相愛多年的妻子凱瑟琳分手后,他一直沉浸在悲傷當中。

偶然的機會,西奧多接觸到一款先進的人工智能操作系統(tǒng)OS1,它能夠通過和人類對話,并不斷學習豐富自己的意識和感情。操作系統(tǒng)化身為一名叫做薩曼莎的“女性”,她變得風趣幽默又善解人意,學習和進化的速度也讓西奧多感到不可思議,兩人很快成了無所不談的朋友。

不需要到2025年,類似的情節(jié)在2024年8月就能成為現(xiàn)實了??拼笥嶏w星火大模型的極速超擬人交互在響應和打斷速度、情緒感知情感共鳴、語音可控表達、人設扮演四個方面實現(xiàn)巨大突破,相關語音能力正在對標GPT-4o。

在響應速度上,星火極速超擬人交互支持極速響應多輪交互,能夠在對話過程中生成高質量的回答,并且響應速度更快、與GPT-4o響應時間相當,幾乎與人類正常聊天節(jié)奏一致,并且對話中允許用戶隨時打斷、插話,實現(xiàn)了人機對話的“無縫銜接”。

除了對話節(jié)奏更類人之外,超擬人交互還能夠在對話中感知用戶的情緒,把情緒價值拉滿。它可以在對話中感知到用戶的喜、怒、哀、樂、害怕、困惑等各類情緒,不僅能根據(jù)聲音的內(nèi)容來判斷,還能像朋友一樣用合適的情感回應用戶。比如,用笑聲回應開心,用溫柔聲音安慰悲傷情緒。同時,星火極速超擬人交互還能識別用戶咳嗽、貓和狗的叫聲等聲音事件,給出對應的回復語。

以前語音交互中機器聲音無法調整,但有了星火極速超擬人交互,只要用戶語音發(fā)出指令,就可以控制超擬人在情感、風格、方言、強度等表達方式上做出變化,比如,“用調侃的方式給我說個笑話”、“用東北話給外地朋友介紹下鍋包肉”、“說的更快一點”。

此外,星火極速超擬人交互還支持“角色扮演”,可以模仿不同的角色陪聊。比如,“模仿孫悟空的聲音來和小孩子對話”,超擬人就可以模仿孫悟空的聲音和人設和小朋友聊天。星火超擬人交互還可以模仿蠟筆小新、小豬佩奇等角色。

OpenAI的GPT-4o遲遲不來,“中國版GPT-4o”搶先一步落地。科大訊飛星火極速超擬人交互代表了國產(chǎn)大模型逐步從追趕、對標到進行自主創(chuàng)新的差異化路線。

超擬人交互的極速秘訣是統(tǒng)一神經(jīng)網(wǎng)絡直接實現(xiàn)語音到語音端到端建模。傳統(tǒng)的處理方式是先把語音轉成文字,在通過大模型生成回復文本,然后再進行語音合成輸出,需要分三步來工作。但端到端只有一個模型,大幅縮短了響應時間,也提升了交互的擬人度和流暢度。

情感交互、語音可控等則得益于訊飛多維度的語音屬性解耦表征訓練準則,將內(nèi)容、音色、情感、語言、風格都信息進行解耦訓練。星火極速超擬人交互也因此能夠更加靈活控制各類元素,還能根據(jù)需求便捷定制,讓系統(tǒng)快速落地應用。

正因為如此,星火極速超擬人交互可以在8月底率先面向全民開放使用??拼笥嶏w表示,基于全新端到端框架的基礎,星火極速超擬人交互目前主要開放語音模態(tài),未來會拓展到更多模態(tài),并帶來更多更實用、豐富的功能。

但這一次語音模態(tài)的跨越式升級帶來的多輪交互、語義理解、指令跟隨、邏輯推理、情感共鳴,已經(jīng)足以重寫語音交互市場,幫助20億臺智能終端向機器人升級并驅動萬物互聯(lián)的第六次產(chǎn)業(yè)浪潮井噴。

每一臺智能終端都能變成機器人

在2023年科大訊飛全球1024開發(fā)者節(jié)上,華為科技有限公司副董事長、輪值董事長徐直軍曾表示,“華為公司在全球所有使用的智能終端的語音技術,都是來自于科大訊飛,而且不僅僅是中文”。

第三方機構QuestMobile的數(shù)據(jù)顯示,截至今年2月,華為的活躍終端設備數(shù)量已經(jīng)超過2.8億臺。而華為公布的數(shù)據(jù)則顯示,鴻蒙生態(tài)設備數(shù)量已經(jīng)突破了8億臺。這背后是龐大的移動物聯(lián)網(wǎng),工信部公布的統(tǒng)計數(shù)據(jù)顯示,去年5月底,我國的移動物聯(lián)網(wǎng)終端用戶超過20.5億,包括手機、家電、汽車以及初具規(guī)模的機器人。

語音是終端設備核心的交互方式之一,基于訊飛星火大模型在超擬人交互上取得的突破,終端設備可以實現(xiàn)“無感迭代”,從指令型終端晉升為可進行多輪交互、可感知情緒、可定制化表達的擬人機器人。

試想一下,當你的智能手機支持超擬人交互,它不僅能成為百科全書,還可以從手機升級為得力助手和陪伴者。

家中的電視機、平板電腦,能幫助孩子學習,也能為老人提供更多守護,既是家里的管家,也是家庭教師。

智能汽車中有超擬人交互,不僅可以提升內(nèi)容的豐富度,也可以通過增加語音交互的場景從而保障駕駛員的安全。

更為重要的是,星火大模型對多語種、多方言的支持,星火超擬人交互可以讓每一臺升級為機器人的終端設備,保證用戶具備全球通行的能力。

以智能汽車為例,2023年,中國汽車出口量超過日本,躍居全球第一,而出海十強企業(yè)中,有8家都在和科大訊飛合作??拼笥嶏w多語種技術已經(jīng)可以覆蓋全球60多個語種,訊飛智能車載語音系統(tǒng)覆蓋23個主要語種,搭載該系統(tǒng)的車型已銷往亞洲、歐洲、南美等地的60多個國家和地區(qū)。

從產(chǎn)業(yè)發(fā)展來看,智能語音技術正處于“黃金時代”。國際數(shù)據(jù)公司IDC的統(tǒng)計數(shù)據(jù)顯示,全球智能語音市場規(guī)模由2017年的110.3億美元增長至2022年的351.2億美元,增長幅度218.4%,年復合增長率為26.1%。

IDC還預計,到2030年,全球智能語音服務市場規(guī)模將達約731.6 億美元,復合增長率27%,保持穩(wěn)定增長的趨勢。

具體到我國,2022年我國智能語音市場達341億元,同比增長13.4%。2017年至2022年增長幅度為221.7%,復合增長率為26.33%,稍微領先于全球市場的增長。其中,科大訊飛在國內(nèi)市場的份額遠遠領先于百度、蘋果等公司。

今年1月,科大訊飛推出了星火大模型V3.5,5個月后就升級到了V4.0,整體能力超越了OpenAI的GPT-4 Turbo。僅僅兩個月后,星火大模型就支持了極速超擬人交互,為萬物互聯(lián)時代入口探索出更多的交互可能。

訊飛星火大模型不僅在底層能力方面走得更穩(wěn),更在應用上開足了馬力,同步實現(xiàn)了對全球頂級大模型的趕超以及自身優(yōu)勢模型能力結合實際場景的落地,把新技術轉化為新應用,為用戶創(chuàng)造了真正的價值。

 

本文為轉載內(nèi)容,授權事宜請聯(lián)系原著作權人。