界面新聞記者 | 伍洋宇
界面新聞編輯 | 宋佳楠
接管人類設備的AI Agent(智能體),曾經只是科幻片中的設定,今天卻已成為股市中的熱點。
就在10月23日,美國AI大模型公司Anthropic推出全新Claude 3.5 Haiku和升級版Sonnet。Sonnet帶來了全新AI體驗“計算機使用”,它可以像人類一樣操作電腦,例如查看屏幕、移動光標、點擊、通過虛擬鍵盤輸入等。
兩天后,智譜AI緊隨Anthropic步伐,發(fā)布了AutoGLM,其目標明確,也是以個人助理身份“掌控”用戶手機。它可以獨立執(zhí)行微信互動、外賣下單,甚至搶紅包等個性化任務,主要針對微信、淘寶、美團、小紅書等App中的用戶常用操作。
這兩款產品代表著AI從聊天機器邁入使用工具解決問題的階段,讓AI智能體逐步向現(xiàn)實中的實用化產品邁進。
這股AI Agent潮流隨即引發(fā)了資本市場的震動。
10月28日早間開盤,智譜相關概念股迅速漲停,并行科技、首都在線、創(chuàng)業(yè)黑馬、豆神教育、傳智教育、電廣傳媒等股票強勢上漲,其中多只股票漲停,漲幅達20%至30%。
資本市場的迅速響應,反映了對AI Agent的商業(yè)化前景充滿期待。但從本質上看,由于相關應用仍處于市場早期,這一波漲停潮還無法排除市場情緒與投機屬性。
AI Agent究竟是未來科技的長期趨勢,還是短期風口?
從技術上來看,主打“Computer Use”(計算機使用)和“Phone Use”(手機使用)的AI Agent的崛起,標志著AI的發(fā)展從單一語言理解,逐漸擴展到復雜的任務執(zhí)行。
Anthropic的Claude Sonnet和智譜的AutoGLM不僅會處理自然語言對話,還能直接控制用戶的設備執(zhí)行具體操作,這是人機交互的一個新階段。Anthropic的Sonnet演示顯示,其可以應對代碼編寫、數(shù)據(jù)分析等任務,甚至可以在出錯時嘗試不同解決方法,這種靈活性表明AI開始具備一定的“執(zhí)行力”。
智譜的AutoGLM則重點落在了手機場景中。通過OCR技術理解UI組件,以及通過鏈式思維訓練理解組件功能,AutoGLM能夠識別用戶手機屏幕上的不同組件,理解其功能,從而按指令執(zhí)行,如自動化微信互動和電商下單等操作。
不過,這類產品在用戶體驗和商業(yè)化上仍存在局限性。
雖然AutoGLM讓手機操作更智能化,但也引發(fā)了對隱私和安全問題的擔憂:用戶是否會因便利性而放棄部分隱私保護?此外,AutoGLM目前仍然需要明確的指令,并在跨平臺適配性和操作精準性上有所限制——要實現(xiàn)真正無縫的自動化,還需持續(xù)優(yōu)化。
就真正的“智能”而言,AutoGLM也還有進步的空間。例如,中信建投證券在研報中指出,在官方演示視頻中,AutoGLM在下單瑞幸咖啡時支付了18元以上,有著明顯的溢價,似乎還沒有掌握這些品牌復雜的“搶優(yōu)惠券”玩法。
在具體的商業(yè)化落地上,9月,智譜和榮耀成立了AI大模型技術聯(lián)合實驗室,讓行業(yè)看到AI Agent在終端應用上的落地潛力。但由于支持這一功能的手機品牌有限,真正的大規(guī)模應用仍需時間。據(jù)IDC預計,2027年,中國市場AI手機和AI PC的市占率將分別超過50%、80%。
從科技巨頭們的布局動作來看,AI Agent的確是大模型領域的重要戰(zhàn)場。
根據(jù)公開信息,OpenAI預計年底將推出自己的AI Agent軟件Orion,而蘋果也將于下月在iOS 18.1中加入Apple Intelligence。微軟開源了屏幕解析工具OmniParser,可以完成自動訂票等功能。谷歌的Geimini 2.0則有望在12月推出,同時正在開發(fā)同類新項目“Project Jarvis”,能將Chrome網(wǎng)頁任務自動化。
這意味著,AI智能體不斷從實驗室產品走向大眾應用,其身后的巨頭們也在加緊占領市場。
硅谷的風投趨勢顯示,越來越多的公司正從AI基礎設施轉向應用層面,更垂直細分的AI應用處于蓬勃發(fā)展態(tài)勢。但當前AI Agent技術還面臨挑戰(zhàn),如跨平臺操作能力不足、對指令依賴較大、個性化體驗有待優(yōu)化等。要想徹底打入主流市場,AI Agent不僅要在功能上更加完善,還需在隱私和數(shù)據(jù)安全上取得公眾信任。
短期來看,AI Agent的應用范圍仍然有限,但其帶來的高效和便利有足夠吸引力。一旦技術和隱私問題得到解決,AI智能體將有更大機會推進人類生活中的智能化應用。