界面新聞?dòng)浾遼戈振偉
界面新聞編輯|林騰
“人形機(jī)器人必須從‘能跑能跳’轉(zhuǎn)向‘能工作’,擁有泛化的智能操作能力才是下一代機(jī)器人競(jìng)爭(zhēng)的核心”,智平方創(chuàng)始人兼CEO郭彥東近日在接受界面新聞的采訪時(shí)說(shuō)。
郭彥東是美國(guó)普渡大學(xué)博士,師從AI領(lǐng)域的美國(guó)工程院院士。他曾在微軟美國(guó)總部核心AI團(tuán)隊(duì)任職,擔(dān)任過(guò)小鵬汽車和OPPO的首席科學(xué)家與研發(fā)高管,曾主導(dǎo)數(shù)億臺(tái)智能終端的AI研發(fā)工作。2023年初,他帶領(lǐng)中美頭部企業(yè)及名校背景的團(tuán)隊(duì)創(chuàng)立智平方,目標(biāo)直指擁有“具身智能大腦”的新一代機(jī)器人。
與多數(shù)機(jī)器人公司不同,智平方選擇了一條“軟硬一體”的路徑。其Alpha Bot系列機(jī)器人已進(jìn)入汽車制造場(chǎng)景,直接對(duì)標(biāo)特斯拉Optimus,并拿下國(guó)際車企訂單。
3月6日上午,智平方宣布完成數(shù)億元Pre A+輪融資。股東包括清華大學(xué)電子系背景基金SEE Fund、清智資本、達(dá)晨(國(guó)家中小企業(yè)發(fā)展基金),以及宇樹科技早期領(lǐng)投方敦鴻資本,千億規(guī)模的基石資本、頭部雙幣基金云啟資本和產(chǎn)投方國(guó)投創(chuàng)盈等。
區(qū)域布局上,智平方的選擇頗具代表性:硬件與產(chǎn)業(yè)化扎根深圳,AI團(tuán)隊(duì)則設(shè)于北京。
“珠三角的供應(yīng)鏈響應(yīng)速度與長(zhǎng)三角的精密制造各具優(yōu)勢(shì),但北京在AI人才密度上仍難被超越。”郭彥東坦言。這種“南北協(xié)同”模式,和Deepseek“杭州+北京”的資源配置一樣,有利于科研與產(chǎn)業(yè)的深度融合,或許正是中國(guó)機(jī)器人產(chǎn)業(yè)換道超車的縮影。 “任何國(guó)家的科學(xué)家要做具身智能,就得去中國(guó),否則技術(shù)很難走出實(shí)驗(yàn)室。”
人形機(jī)器人的“實(shí)用性”,正成為行業(yè)分水嶺。郭彥東認(rèn)為:當(dāng)前機(jī)器人本體處于“研發(fā)成熟、量產(chǎn)爬坡”階段, 2-3年內(nèi)將迎來(lái)平滑上量期。當(dāng)硬件性能逐漸趨同,智能化將成為下一個(gè)戰(zhàn)場(chǎng)。人形機(jī)器人進(jìn)入消費(fèi)端的“iPhone時(shí)刻”,他預(yù)測(cè)還需5-7年沉淀。
以下為專訪內(nèi)容,刊發(fā)時(shí)有所編輯:
界面新聞:宇樹科技等中國(guó)機(jī)器人公司頻繁引發(fā)關(guān)注。它們是不是像我們認(rèn)為的那么優(yōu)秀?
郭彥東:宇樹科技的突破在于兩點(diǎn):一是通過(guò)本土供應(yīng)鏈和算法優(yōu)化,將四足/雙足機(jī)器人的運(yùn)動(dòng)能力提升至波士頓動(dòng)力水平,甚至實(shí)現(xiàn)部分超越;二是大幅降低成本,這背后是中國(guó)供應(yīng)鏈的支撐。它的核心價(jià)值在于推動(dòng)行業(yè)上游關(guān)節(jié)、驅(qū)動(dòng)、減速器等零部件的國(guó)產(chǎn)化進(jìn)程,為后續(xù)量產(chǎn)鋪路。如果說(shuō)宇樹了不起,背后是我們中國(guó)的供應(yīng)鏈了不起。
中國(guó)的機(jī)器人供應(yīng)鏈,植根于消費(fèi)電子與新能源汽車,又得益于宇樹這樣先行者的牽引,成為了世界上最好的機(jī)器人硬件制造的沃土。
但當(dāng)前行業(yè)已進(jìn)入新階段——機(jī)器人需要從“能跑能跳”轉(zhuǎn)向“能工作”。這一代產(chǎn)品的核心是智能化,即通過(guò)大模型賦予機(jī)器人自主決策和泛化能力,而這給以“具身智能大腦”為核心競(jìng)爭(zhēng)力的創(chuàng)業(yè)公司帶來(lái)廣闊機(jī)遇。
界面新聞:人形機(jī)器人真正商業(yè)化要突破什么?
?郭彥東:從波士頓動(dòng)力的“炫技型”機(jī)器人到特斯拉Optimus的“實(shí)用型”機(jī)器人,行業(yè)邏輯已發(fā)生根本轉(zhuǎn)變。過(guò)去機(jī)器人比拼運(yùn)動(dòng)性能,比如波士頓動(dòng)力的“后空翻”和“單腿平衡”,但特斯拉Optimus、Figure等新一代機(jī)器人公司更強(qiáng)調(diào)“實(shí)用性”——機(jī)器人必須能進(jìn)工廠、進(jìn)家庭,成為真正的服務(wù)工具。
這意味著兩大挑戰(zhàn):一是泛化能力,即面對(duì)不同任務(wù)和環(huán)境時(shí),無(wú)需重新編程即可自適應(yīng)調(diào)整。其實(shí)這也更符合人類進(jìn)化的過(guò)程,首先你能跑能跳,解放上半身,上半身解放出來(lái)能干什么,一定要能做操作;二是成本控制,中國(guó)在這兩方面具備天然優(yōu)勢(shì):供應(yīng)鏈成熟度高,且制造業(yè)場(chǎng)景豐富,能為大模型提供海量真實(shí)數(shù)據(jù)。我曾經(jīng)跟一些頂尖科學(xué)家交流,說(shuō)你們?nèi)粝胱鼍呱碇悄?,就得去中?guó)做,否則你們的技術(shù)就很難走出實(shí)驗(yàn)室。
界面新聞:現(xiàn)在整個(gè)人形機(jī)器人行業(yè)里面,不同企業(yè)的側(cè)重點(diǎn)是什么?
郭彥東:大面上是從上往下做或者從下往上做,只是大家的發(fā)力點(diǎn)和優(yōu)勢(shì)不一樣。宇樹科技是特別經(jīng)典的,從下往上做,做四足、雙足、做平衡,能站穩(wěn)是它的重點(diǎn)。一般成立時(shí)間比較長(zhǎng)的機(jī)器人公司(因?yàn)槟莻€(gè)時(shí)候沒(méi)有大模型),比較容易跟宇樹科技一個(gè)思路,但每個(gè)公司都有自己的優(yōu)勢(shì)所在。
目前,全球機(jī)器人行業(yè)正經(jīng)歷范式轉(zhuǎn)變:硬件性能逐漸趨同,智能化成為決勝點(diǎn)。深圳培育出運(yùn)控強(qiáng)、機(jī)電強(qiáng)的公司土壤豐厚,但類似我們這樣自研端到端具身大模型公司近年才開(kāi)始出現(xiàn),誰(shuí)能夠把真正的具身大模型做出來(lái),結(jié)合深圳的本地硬件優(yōu)勢(shì),會(huì)對(duì)行業(yè)有最強(qiáng)大的影響力。
界面新聞:如何衡量一家人形機(jī)器人公司的真正實(shí)力?
郭彥東: 不能只看Demo演示(如疊衣服、搬箱子、翻跟斗),而需關(guān)注其是否具備泛化能力。真正的實(shí)力體現(xiàn)在三方面:一是技術(shù)棧的完整性(硬件+AI+數(shù)據(jù)閉環(huán));二是商業(yè)化落地能力;三是供應(yīng)鏈把控力。個(gè)別公司為炫技采用不成熟技術(shù),反而導(dǎo)致產(chǎn)品無(wú)法量產(chǎn)。
界面新聞:智平方是在什么背景下成立的,它在行業(yè)中如何定位?
郭彥東:智平方成立于2023年年初,公司以通用具身機(jī)器人大腦為核心,軟硬一體,為行業(yè)輸出具身智能機(jī)器人產(chǎn)品、方案和服務(wù)。
我們團(tuán)隊(duì)有“AI+硬件”的雙重基因——我個(gè)人曾在美國(guó)微軟總部、小鵬汽車、OPPO均擔(dān)任過(guò)關(guān)鍵研發(fā)負(fù)責(zé)人以及高級(jí)研發(fā)管理職務(wù)。核心團(tuán)隊(duì)凝聚了AI、機(jī)器人、智能終端規(guī)模量產(chǎn)的專家,具備大模型+機(jī)器人最需要的復(fù)合行業(yè)經(jīng)驗(yàn)。
智平方的核心競(jìng)爭(zhēng)力在于自研具身大模型AI2R Brain以及軟硬垂直整合,采用端到端大模型范式,在數(shù)據(jù)(自有數(shù)據(jù)積累)、算法(創(chuàng)新模型架構(gòu)設(shè)計(jì))、算力(自有高效模型訓(xùn)練方法)三大關(guān)鍵要素都有原創(chuàng)自主且領(lǐng)先的技術(shù)積累。不僅比硅谷頭部公司更早確立端到端VLA的技術(shù)范式,更在空間交互精度與零樣本多任務(wù)成功率等核心指標(biāo)上實(shí)現(xiàn)大幅超越。2024年,公司作為具身機(jī)器人行業(yè)唯一的企業(yè),獲全國(guó)創(chuàng)新創(chuàng)業(yè)大賽初創(chuàng)型企業(yè)全國(guó)總決賽第二名。
界面新聞:智平方的商業(yè)模式有何獨(dú)特性??
郭彥東:我們提供軟硬一體化的機(jī)器人服務(wù),核心差異化是智能?,F(xiàn)階段以機(jī)器人Alpha Bot系列為載體,未來(lái)賣的不一定是機(jī)器人,可能直接按服務(wù)收費(fèi)。例如,工廠為每臺(tái)機(jī)器人支付“智能操作工時(shí)費(fèi)”,而非一次性購(gòu)買硬件。這一模式的核心在于,機(jī)器人能否通過(guò)大模型持續(xù)創(chuàng)造價(jià)值。
目前,智平方的機(jī)器人Alpha Bot與具身大模型AI2R Brain已經(jīng)在真實(shí)場(chǎng)景中完成驗(yàn)證,尤其在汽車行業(yè)直接對(duì)標(biāo)特斯拉擎天柱機(jī)器人。獲得國(guó)際一線車企、高端制造,以及頭部互聯(lián)網(wǎng)大廠的商業(yè)訂單并超千萬(wàn)回款。
界面新聞:除了具身大模型,當(dāng)前機(jī)器人本體產(chǎn)業(yè)鏈?zhǔn)遣皇且策€沒(méi)有成熟?
郭彥東:我更愿意把成熟拆成研發(fā)成熟和量產(chǎn)成熟。因?yàn)槲覐男※i和OPPO出來(lái),主機(jī)廠里面做AI,在公司布局的時(shí)候,對(duì)零部件的選擇不能選研發(fā)不成熟的。很多機(jī)器人公司為了炫技選一些研發(fā)都不成熟的技術(shù)進(jìn)來(lái),比如科研還在進(jìn)行中的一些超柔性、仿真電子皮膚等。我們現(xiàn)在這個(gè)狀態(tài)比較能夠選擇的叫研發(fā)成熟、量產(chǎn)不成熟,這是我們的機(jī)會(huì)。我們的零部件至少有兩家以上的供應(yīng)商可以選擇,不會(huì)被卡脖子。
而量產(chǎn)上沒(méi)有百分百成熟,一些零部件的產(chǎn)量并不大,產(chǎn)能有待建設(shè),但隨著需求變大,慢慢能夠到成熟,而且這個(gè)變化和變成的過(guò)程比較平滑,不會(huì)很劇烈。而研發(fā)不成熟的產(chǎn)品,硬件零部件若納入到主機(jī)里面,就有可能被卡住的,它有很多不確定性。AI眼鏡就被卡過(guò)好多年,機(jī)器人行業(yè)不能犯一樣的錯(cuò)誤。
界面新聞:所以現(xiàn)在本體就是屬于研發(fā)成熟、量產(chǎn)不成熟階段。
郭彥東:可以這么說(shuō),但在具身大模型方面,現(xiàn)在的狀態(tài)應(yīng)該叫技術(shù)范式開(kāi)始收斂,這個(gè)技術(shù)范式叫端到端VLA。
端到端VLA包含兩層核心含義,一是“端到端”,二是“VLA”。首先是"端到端"的數(shù)據(jù)驅(qū)動(dòng)模式,這對(duì)持續(xù)提升硬件AI性能至關(guān)重要,這一點(diǎn)只有經(jīng)歷過(guò)大規(guī)模量產(chǎn)的團(tuán)隊(duì)才能深刻理解,因?yàn)樵趯?shí)驗(yàn)室環(huán)境中,DEMO的展示并不需要端到端的方式去訓(xùn)練。
第二是"VLA"技術(shù),即基于感知-規(guī)劃-控制的預(yù)訓(xùn)練模型,這要求團(tuán)隊(duì)具備深厚的AI大模型理解能力。智平方恰巧是一個(gè)具備這兩方面能力的團(tuán)隊(duì)。以我們的AI2R Brain為例,作為中國(guó)的科研力量,比硅谷的PI和Figure更早推出并應(yīng)用端到端VLA技術(shù)。我們和北大聯(lián)合發(fā)表的 RoboMamba, 也是在這個(gè)方向的一次重要開(kāi)源嘗試,比硅谷更早發(fā)表并開(kāi)源了具身大模型。
但范式收斂不代表不需要研發(fā)了,因?yàn)樗谶@個(gè)范式還有很多調(diào)整和適配,包括一些基于這個(gè)框架的算法創(chuàng)新,數(shù)據(jù)的持續(xù)獲取,增量學(xué)習(xí),訓(xùn)練加速等等。所以,現(xiàn)在是加大研發(fā)和應(yīng)用最好的時(shí)候。
界面新聞: 本體從量產(chǎn)不成熟到成熟,你覺(jué)得還需要多久?
郭彥東: 我覺(jué)得在量產(chǎn)成熟上,可能整個(gè)行業(yè)的發(fā)展會(huì)比我們預(yù)想的要快,兩三年的時(shí)間,而且它會(huì)比較平滑。
界面新聞:要做人形機(jī)器人,你覺(jué)得中國(guó)哪個(gè)區(qū)域更有優(yōu)勢(shì)?
郭彥東:我們公司總部在深圳,硬件在深圳,產(chǎn)業(yè)化在深圳,但我們AI團(tuán)隊(duì)在北京,北京在AI人才方面,確實(shí)有明顯的優(yōu)勢(shì),包括DeepSeek的AI團(tuán)隊(duì)也在那。做硬件的話,當(dāng)然珠三角和長(zhǎng)三角都有相應(yīng)的優(yōu)勢(shì)。
界面新聞:人形機(jī)器人的“iPhone時(shí)刻”會(huì)是什么時(shí)候?
郭彥東:人形機(jī)器人時(shí)代的“iPhone時(shí)刻”要做到to C,就是真正的iPhone時(shí)刻,我覺(jué)得要5~7年。機(jī)器人能夠真正的大規(guī)模to B的使用,我覺(jué)得3年左右就可以。to C的至少要5~7年。智平方的愿景是讓通用智能機(jī)器人像智能汽車和智能手機(jī)一樣,成為人人可用的智能終端。我們也在推動(dòng)這個(gè)時(shí)刻的到來(lái)。