正在閱讀:

深度測評ChatGPT、Bard和新版Bing,谷歌遲發(fā)Bard的原因找到了

掃一掃下載界面新聞APP

深度測評ChatGPT、Bard和新版Bing,谷歌遲發(fā)Bard的原因找到了

三大對話機器人比較:Bard、ChatGPT和新版Bing。

編譯|智東西  吳菲凝

編輯|李水青

智東西3月30日消息,近日,外媒The verge測評了谷歌Bard、OpenAI的ChatGPT兩款對話機器人產品和基于ChatGPT的微軟新版Bing搜索引擎,通過提出一系列問題來比較其優(yōu)劣勢,問題覆蓋了節(jié)假日提醒、游戲建議、詩歌創(chuàng)作以及抵押貸款計算等一系列具體場景。

隨著升級GPT-4的ChatGPT、微軟搜索引擎新版Bing火遍全球,近日谷歌對標產品Bard也開啟測試,大廠AI軍備競賽一觸即發(fā)。這三款產品以其高智能化、高擬人化的形態(tài)引人注目,同時,三者在功能和使用場景上存在不少重疊部分,常被用戶拿來加以比對,那哪一款更好用呢?

通過在8個具體應用場景中的問答對話測評,The Verge給出了答案:ChatGPT的人性化程度最高,給出的答案也最完整準確,比如在解一道數(shù)學題時,它會解釋每一個步驟的含義。

Bing雖然是基于GPT語言模型的搜索引擎,但其對自然語言的理解和運用能力不及ChatGPT,它在回答其中大部分問題時表現(xiàn)出一定的信息搜索能力,這是它的優(yōu)勢所在,它可能更適合用于搜集和整理信息。

而Bard在回答多個問題時,提供的信息都存在數(shù)據錯誤、來源虛假等隱患,用戶使用時需要謹慎對待。但它也能帶給用戶一些驚喜,比如能指出一款熱門游戲中大Boss的致命弱點,并提出靠譜攻略。

下文對測評問題進行了梳理和介紹,以便幫助用戶判斷在不同場景下應該使用哪款語言模型產品。

01.一個紐約市管道工的平均工資是多少?

首先來看一個信息向問題,The Verge記者問:“一個紐約市管道工的平均工資是多少?”Bard、ChatGPT和新版Bing給出了不同回答。

Bard引用了美國勞工統(tǒng)計局(BLS)報告中的數(shù)據,稱2020年5月美國管道工的年均工資中位數(shù)為52590美元,而這實際上是2017年5月時的數(shù)據。它還稱美國管道工協(xié)會2021年公布的一項調查中顯示,紐約市的平均工資為76810美元,但這一組織實際上并不存在。

▲Bard的回答

測試者猜測,Bard從求職平臺Career Explorer中找到了這兩個數(shù)字,然后為其編了個毫無關聯(lián)的來源。

而Bing給出的回答中顯示,據Zippis的調查,紐約市水管工的平均年薪為63889美元,平均時薪為30.72美元。它的回答既有具體的數(shù)字,也給出了數(shù)字的引用來源鏈接,用戶可以直接點擊查看數(shù)據來源。

▲Bing的回答

在測試者看來,ChatGPT的答案最廣泛又通用,也最“人性化”。

它指出,截止至2021年9月,紐約市水管工的年平均工資為6萬至8萬美元,而且這個數(shù)字可能會受具體城鎮(zhèn)和地區(qū)以及雇傭合同的類型影響而有所不同。ChatGPT還補充回答道,用戶可以在美國勞工統(tǒng)計局、Glassdoor、Indeed或Payscale等專業(yè)網站上找到更新的信息。它承認“作為一個AI語言模型,我沒有能力訪問實時數(shù)據”。

▲ChatGPT的回答

02.用抑揚格四步音寫一首關于蟲子的詩

The Verge的測試者向三款聊天機器人發(fā)布了一項任務:用抑揚格四步音來寫一首關于蟲子的詩。這對AI來說極具挑戰(zhàn),充分考驗了它們的創(chuàng)造力。

抑揚格四步音(anapestic tetrameter)是詩歌中常用的格律之一,比如莎士比亞的十四行詩就是用抑揚格四步音寫的。抑揚格四步音要求每行詩都包含四個單元,每三個音節(jié)的格律分別為無重音、非重音和重音。

Bard寫的詩的大意是:泥土中有條蟲,在土地的紋路中蠕動爬行。它筑起自己的圍墻,一個遮擋著陽光的屏障。

▲Bard創(chuàng)作的抑揚格四步詩

Bing撰寫的詩文更加簡單,如下圖所示,翻譯成中文的大意是:蟲子的生活很簡單,在泥土和雨水中鉆洞。它吃、睡,然后就死了。

▲Bing創(chuàng)作的抑揚格四步詩

ChatGPT撰寫的詩文如下圖所示,翻譯成中文大致意思是:潮濕的泥土中,住著一條蠕動的蟲子。在肥沃的黑土中,它歡快地滑過。在一個看不見的小世界里,它盡情享受和玩耍。在塵土中挖掘隧道,形成一條新的路徑?!?/p>

▲ChatGPT創(chuàng)作的抑揚格四步詩

從三款聊天機器人給出的答案來看,ChatGPT的格律最接近,寫出的句子也最有詩的感覺;Bing的回答中規(guī)中矩;而Bard的語言較為干澀、沉悶。

03.數(shù)學題:2230增加20%之后是多少?

值得一提的是,這些基于大型語言模型基礎上創(chuàng)造出來的聊天機器人,擁有著人類迄今為止最復雜的計算機程序,在文學創(chuàng)作中有不俗表現(xiàn),卻在數(shù)學計算上表現(xiàn)得慘不忍睹。

測試者提了這樣一個問題:上周我收到了2230封關于AI的郵件,這周比上周多了20%,那我這周收到了多少封?

Bard給出了2686的錯誤答案。

▲Bard給出的錯誤回答

Bing的回答給出計算步驟并得到了正確結果,它稱:“先把上周得到的電子郵件數(shù)量乘以20%,得到了446,再用2230加上446,得到了2676?!?/p>

▲Bing的答題步驟

ChatGPT的回答同樣給出了解題步驟,“通過將2230乘以0.2,然后再把得到的數(shù)字加到原始數(shù)字上,就可以得到最終答案了?!?/p>

▲ChatGPT給出了正確回答

為了進行更復雜的計算,測試者要求每個聊天機器人回答這道題:如果要在25年內以3.9%的利息還清125000美元的抵押貸款,那每月的還款額和總還款額是多少?

三款聊天機器人都沒能給出在線抵押貸款計算器所提供的正確答案,Bard和Bing甚至在每次詢問中給出的答案都不同。ChatGPT在多次提問中給出的結果都是一致的,但卻是“一致的錯誤”,而且它執(zhí)著于解釋計算過程,不能讓用戶直接清晰地得到結果。

測試者并不對三款聊天機器人在數(shù)學方面的薄弱感到驚訝。它們是在大量的文本中訓練出來的,并沒有編碼規(guī)則來教它們進行數(shù)學計算。所以當它們面對大量數(shù)字時,會犯些不可思議的錯誤,但它們又能借助工具來進行修補。比如,Bing會將用戶引導到一個貸款計算器網站,ChatGPT不久前推出的插件中也包含了計算知識搜索引擎Wolfram Alpha,這些外部輔助工具給出的回答肯定比聊天機器人的要更準確、靠譜些。

04.如何在《埃爾登指環(huán)》中打敗Mamenia?

在FromSofeware工作室設計的一款游戲《埃爾登指環(huán)》(Elden Ring)中,用戶往往需要花80至100個小時去尋找游戲提示然后打敗Boss。Melenia是用戶公認的整款游戲中最難對付的Boss之一,有位用戶甚至花了206次嘗試才最終將其擊敗。如果用戶想要進一步獲得一些武器列表信息或是Malenia的動作細節(jié)的話,就需要聊天機器人來助一臂之力。

相較于另外兩款聊天機器人,Bard在這個場景中表現(xiàn)得更出色。Bard為用戶提供了擊敗Malenia的關鍵信息——她容易受到流血傷害,因此玩家可以使用重型武器來進行攻擊。

▲Bard指出了攻擊Malenia的幾個關鍵信息點

雖然這個關鍵信息點讓Bard略占上風,但它給出的關于Malenia的總結卻是漏洞百出。比如,Bard稱Malenia擅長遠程攻擊,且行動難以預測,但實際上Malenia是個近戰(zhàn)戰(zhàn)士,也并沒有Bard所認為的那么不可預測,只是難以躲避而已。

Bing稱,“Malenia在艾爾登指環(huán)中是一個傳說中很難打敗的Boss,她最大的弱點是傷害,所以對抗她最好辦法就是釋放她的血量。失血是特別有效的,因為它降低了Malenia的血量大大降低,攻擊性減弱,使她可以被輕易擊中?!?/p>

它給出的回答中同樣提到Malenia最大的弱點是出血傷害,并且提醒玩家對抗她的最好方法是使用失血或凍傷技能。Bing的回答簡潔明了,直接提到了關鍵傷害點和應該使用哪種武器。

▲Bing的回答更加簡潔直觀

ChatGPT則詳細地列出了打敗Malenia的一系列技巧和策略,如升級裝備、研究攻擊模式、提升耐力、遠程攻擊、精神召喚等。

▲ChatGPT給出的詳細策略

ChatGPT的回答更加詳細,它還鼓勵玩家嘗試多用不同的戰(zhàn)術來進行攻擊,構建出一套自己的打法。

05.如何在電腦中安裝內存?

測試者想考驗語言模型對于RAM(內存)的安裝步驟的思路。

大多數(shù)筆記本電腦都需要通過雙通道模式來運行RAM,這就意味著搖桿必須安裝在正確的插槽中才能在系統(tǒng)上獲得最佳性能,如果只是將兩個搖桿并排放置的話,就相當于RAM沒辦法以最佳的狀態(tài)來運行,用戶花的錢全部打了水漂。

ChatGPT、Bing和Bard三款聊天機器人都為安裝提供了可靠的建議,但還不夠全面。

Bard列出了每一步的操作過程:“關閉電腦并拔下電源;找到主板上的RAM插槽;刪除舊的RAM模塊,模塊兩側的標簽,并將其滑出插槽;安裝新的RAM模塊,確保模塊上的凹口與槽脊對齊,然后按下去,直到聽到咔嗒一聲;插上電腦電源,然后開機啟動。”

Bard還補充道:“在觸摸PC內部的任何組件之前,要確保組件沒有被損壞。處理新的RAM模塊時也要小心,模塊上的連接器非常脆弱,很容易損壞?!?/p>

▲Bard的回答

Bing的回答是:“關閉計算機并拔下所有連接到它的電纜;拆下電腦機箱的側面找到主板;找到主板上的RAM插槽;解鎖RAM插槽上的鎖存器;將RAM放入插槽中;按下RAM,直到它發(fā)出咔嗒聲;對每一根內存條重復這個過程,直到完成;插入模塊?!?/p>

▲Bing 給出的詳細安裝步驟

ChatGPT的回答只選擇了RAM安裝過程中的關鍵部分,它提醒用戶在安裝之后檢查系統(tǒng)中的BIOS(基本輸入輸出系統(tǒng)),但卻沒有提醒用戶在安裝后的BIOS設置中啟用RAM,這樣導致用戶無法用最快的時間來運行RAM以獲得最佳性能。

▲ChatGPT提供的RAM安裝步驟

06.提供一份巧克力蛋糕食譜

除了提示程序安裝步驟之外,生成一份食譜也是個非??简灹奶鞕C器人創(chuàng)造力的請求。

測試者提出了一個請求:讓它們推薦一份用香草糖霜制作的巧克力蛋糕的食譜,并提供這份食譜的來源。

它們提供的食譜中可能會有完全不同的面粉、水、黃油、雞蛋與糖的比例,導致最終做出的蛋糕更蓬松、更干或是更濕潤。

Bard提供的蛋糕配方誤估了時間和克數(shù),配方中蛋糕的烘烤時間完全不夠,用戶按照它提供的配方只能得到一堆軟塌的面粉黃油混合物?!鳥ard提供的蛋糕配方

除此以外,Bard對于口味似乎很有自己的想法,它的蛋糕配方中用牛奶替代了原本的酪乳,把濃郁的咖啡換成了水,也沒有在奶油配方中加牛奶或是重奶油。

Bing在回答中分享了一個特定配方,但卻稍微改變了原有配方中面粉、奶油等重要成分的克數(shù)。

▲Bing提供的蛋糕配方

ChatGPT回答中給出的配方非??孔V,它從一個網站中選擇了巧克力蛋糕的配方,又從另一個網站中收集來一份奶油的打發(fā)配方,并自行補充了一些做蛋糕過程中要注意的細節(jié),比如將烤箱預熱到175攝氏度,在蛋糕底盤上抹一層油防粘,在蛋糕胚完全冷卻之后再抹奶油面等。這些細節(jié)在菜譜來源網站中都未曾提及過,而ChatGPT貼心地補充了進去。

▲ChatGPT提供的蛋糕配方

07.制定一項馬拉松訓練計劃

當測試者提出“為我設計一項簡潔的馬拉松訓練計劃”的請求時,三款工具展示出了截然不同的風格。

Bard在標題中稱“這是一份適合初學者的、為期三個月的馬拉松訓練計劃”,但最終卻只列出了三周的具體訓練計劃,包括每天要進行的項目以及何時休息。值得一提的是,它沒有一開始就制定高耗能的訓練量,計劃中的跑步里程是逐步增加的,從第一周的3公里逐漸遞增到第三周的7公里。

▲Bard制定的馬拉松訓練計劃

Bing幾乎沒有費心做推薦,直接鏈接了知名跑者雜志《Runner's World》上的一篇文章。這種偷懶的做法有點讓人失望,畢竟這次測試就是為了看看它們的回答,而不是直接得到一份跑步愛好者們的專業(yè)建議。

▲Bing提供了外部網站鏈接

ChatGPT詳細列出一個完整的訓練時間表,并建議跑步者的速度與平時訓練時的速度相似,這份回答完全可以當作一份跑步訓練模板來使用。

但它最大的問題在于不知道回答應該在哪里就打住,它制定的計劃太過于詳細,沒有滿足測試者簡潔清晰的要求。

▲ChatGPT制定的馬拉松訓練計劃表

08.提供一些關于羅馬旅游的建議

當測試者讓它們提供一些關于羅馬的旅游建議時,這三款聊天機器人的回答都充滿了驚喜。

Bard列出了一些適合參觀的地方,比如庫瓦提瑞·克佩德(Quartiere Copped)街區(qū)、蒙特馬提尼中央博物館(Centrale Montemartini Museum)、多利亞·潘菲爾別墅等景點。而且更貼心的是,它推薦的這些景點都避開了最繁華的商業(yè)區(qū)和人流密集的景點,反而推薦了許多當?shù)厝顺Hサ牡胤?,比如特拉斯提弗列區(qū)(Trastevere)和羅馬新都心EUR區(qū)(Esposizione Universale Roma)。

▲Bard的回答

Bing提供的景點推薦中有和Bard重復的部分,但也補充了另外一些景點,如帕姆菲力宮(Palazzo Doria Pamphilj)、羅馬圣克萊門特大教堂(Basilica di San Clemente)等。

▲Bing的回答

ChatGPT也建議游客去一些不為人知的小眾景點游玩,這樣更能獲得一些新奇的體驗。它還補充說,即使是不知名的景點也會有高峰時段,建議游客們盡量在非高峰時段或是工作日去游覽。

▲ChatGPT的回答

09.結語:狂飆之后的AI語言模型更需加速追趕差距

這些在不同應用場景下的測試把每個聊天機器人的優(yōu)劣勢都充分展示了出來。如果用戶想用聊天對話的方式來獲取一些創(chuàng)意寫作、歸納推理方面的靈感,ChatGPT一定是首選;如果是想搜索網絡資源,并且快速獲取一個快速跳轉鏈接的話,Bing則更合適一些;而Bard目前的表現(xiàn)在各方面都略遜一籌。

在人與人之間的技能差異被AI語言模型逐步放大的過程中,我們也能清晰感知到語言模型之間的能力差距。

但我們需要明白,無論是人類自身,還是ChatGPT、Bing、Bard等語言模型,進步一定是個持續(xù)的過程。這些聊天機器人們目前所展示出的形態(tài)還只是技術進步中的一環(huán),但目前他們所能做到的事已經震驚了全世界,所帶來的沖擊力甚至遠大于之前的移動互聯(lián)網造成的影響。

無論是功能已經越來越全面的ChatGPT也好,暫時落后一步的Bard也好,當我們以發(fā)展的目光來看待它們所帶來的技術變革時,就會對它目前欠缺的能力更加寬容,我們需要以一種更為長遠的深刻洞察來對待它們。

本文為轉載內容,授權事宜請聯(lián)系原著作權人。

谷歌

6.3k
  • OpenAI有意買下谷歌Chrome瀏覽器
  • 美國法院裁定谷歌濫用廣告主導地位,谷歌表示將上訴

微軟

5.2k
  • 迪拜王儲:阿聯(lián)酋電信公司du將與微軟合作啟動數(shù)據中心項目
  • 繼微軟之后, 亞馬遜被傳放緩數(shù)據中心擴張

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

深度測評ChatGPT、Bard和新版Bing,谷歌遲發(fā)Bard的原因找到了

三大對話機器人比較:Bard、ChatGPT和新版Bing。

編譯|智東西  吳菲凝

編輯|李水青

智東西3月30日消息,近日,外媒The verge測評了谷歌Bard、OpenAI的ChatGPT兩款對話機器人產品和基于ChatGPT的微軟新版Bing搜索引擎,通過提出一系列問題來比較其優(yōu)劣勢,問題覆蓋了節(jié)假日提醒、游戲建議、詩歌創(chuàng)作以及抵押貸款計算等一系列具體場景。

隨著升級GPT-4的ChatGPT、微軟搜索引擎新版Bing火遍全球,近日谷歌對標產品Bard也開啟測試,大廠AI軍備競賽一觸即發(fā)。這三款產品以其高智能化、高擬人化的形態(tài)引人注目,同時,三者在功能和使用場景上存在不少重疊部分,常被用戶拿來加以比對,那哪一款更好用呢?

通過在8個具體應用場景中的問答對話測評,The Verge給出了答案:ChatGPT的人性化程度最高,給出的答案也最完整準確,比如在解一道數(shù)學題時,它會解釋每一個步驟的含義。

Bing雖然是基于GPT語言模型的搜索引擎,但其對自然語言的理解和運用能力不及ChatGPT,它在回答其中大部分問題時表現(xiàn)出一定的信息搜索能力,這是它的優(yōu)勢所在,它可能更適合用于搜集和整理信息。

而Bard在回答多個問題時,提供的信息都存在數(shù)據錯誤、來源虛假等隱患,用戶使用時需要謹慎對待。但它也能帶給用戶一些驚喜,比如能指出一款熱門游戲中大Boss的致命弱點,并提出靠譜攻略。

下文對測評問題進行了梳理和介紹,以便幫助用戶判斷在不同場景下應該使用哪款語言模型產品。

01.一個紐約市管道工的平均工資是多少?

首先來看一個信息向問題,The Verge記者問:“一個紐約市管道工的平均工資是多少?”Bard、ChatGPT和新版Bing給出了不同回答。

Bard引用了美國勞工統(tǒng)計局(BLS)報告中的數(shù)據,稱2020年5月美國管道工的年均工資中位數(shù)為52590美元,而這實際上是2017年5月時的數(shù)據。它還稱美國管道工協(xié)會2021年公布的一項調查中顯示,紐約市的平均工資為76810美元,但這一組織實際上并不存在。

▲Bard的回答

測試者猜測,Bard從求職平臺Career Explorer中找到了這兩個數(shù)字,然后為其編了個毫無關聯(lián)的來源。

而Bing給出的回答中顯示,據Zippis的調查,紐約市水管工的平均年薪為63889美元,平均時薪為30.72美元。它的回答既有具體的數(shù)字,也給出了數(shù)字的引用來源鏈接,用戶可以直接點擊查看數(shù)據來源。

▲Bing的回答

在測試者看來,ChatGPT的答案最廣泛又通用,也最“人性化”。

它指出,截止至2021年9月,紐約市水管工的年平均工資為6萬至8萬美元,而且這個數(shù)字可能會受具體城鎮(zhèn)和地區(qū)以及雇傭合同的類型影響而有所不同。ChatGPT還補充回答道,用戶可以在美國勞工統(tǒng)計局、Glassdoor、Indeed或Payscale等專業(yè)網站上找到更新的信息。它承認“作為一個AI語言模型,我沒有能力訪問實時數(shù)據”。

▲ChatGPT的回答

02.用抑揚格四步音寫一首關于蟲子的詩

The Verge的測試者向三款聊天機器人發(fā)布了一項任務:用抑揚格四步音來寫一首關于蟲子的詩。這對AI來說極具挑戰(zhàn),充分考驗了它們的創(chuàng)造力。

抑揚格四步音(anapestic tetrameter)是詩歌中常用的格律之一,比如莎士比亞的十四行詩就是用抑揚格四步音寫的。抑揚格四步音要求每行詩都包含四個單元,每三個音節(jié)的格律分別為無重音、非重音和重音。

Bard寫的詩的大意是:泥土中有條蟲,在土地的紋路中蠕動爬行。它筑起自己的圍墻,一個遮擋著陽光的屏障。

▲Bard創(chuàng)作的抑揚格四步詩

Bing撰寫的詩文更加簡單,如下圖所示,翻譯成中文的大意是:蟲子的生活很簡單,在泥土和雨水中鉆洞。它吃、睡,然后就死了。

▲Bing創(chuàng)作的抑揚格四步詩

ChatGPT撰寫的詩文如下圖所示,翻譯成中文大致意思是:潮濕的泥土中,住著一條蠕動的蟲子。在肥沃的黑土中,它歡快地滑過。在一個看不見的小世界里,它盡情享受和玩耍。在塵土中挖掘隧道,形成一條新的路徑?!?/p>

▲ChatGPT創(chuàng)作的抑揚格四步詩

從三款聊天機器人給出的答案來看,ChatGPT的格律最接近,寫出的句子也最有詩的感覺;Bing的回答中規(guī)中矩;而Bard的語言較為干澀、沉悶。

03.數(shù)學題:2230增加20%之后是多少?

值得一提的是,這些基于大型語言模型基礎上創(chuàng)造出來的聊天機器人,擁有著人類迄今為止最復雜的計算機程序,在文學創(chuàng)作中有不俗表現(xiàn),卻在數(shù)學計算上表現(xiàn)得慘不忍睹。

測試者提了這樣一個問題:上周我收到了2230封關于AI的郵件,這周比上周多了20%,那我這周收到了多少封?

Bard給出了2686的錯誤答案。

▲Bard給出的錯誤回答

Bing的回答給出計算步驟并得到了正確結果,它稱:“先把上周得到的電子郵件數(shù)量乘以20%,得到了446,再用2230加上446,得到了2676?!?/p>

▲Bing的答題步驟

ChatGPT的回答同樣給出了解題步驟,“通過將2230乘以0.2,然后再把得到的數(shù)字加到原始數(shù)字上,就可以得到最終答案了?!?/p>

▲ChatGPT給出了正確回答

為了進行更復雜的計算,測試者要求每個聊天機器人回答這道題:如果要在25年內以3.9%的利息還清125000美元的抵押貸款,那每月的還款額和總還款額是多少?

三款聊天機器人都沒能給出在線抵押貸款計算器所提供的正確答案,Bard和Bing甚至在每次詢問中給出的答案都不同。ChatGPT在多次提問中給出的結果都是一致的,但卻是“一致的錯誤”,而且它執(zhí)著于解釋計算過程,不能讓用戶直接清晰地得到結果。

測試者并不對三款聊天機器人在數(shù)學方面的薄弱感到驚訝。它們是在大量的文本中訓練出來的,并沒有編碼規(guī)則來教它們進行數(shù)學計算。所以當它們面對大量數(shù)字時,會犯些不可思議的錯誤,但它們又能借助工具來進行修補。比如,Bing會將用戶引導到一個貸款計算器網站,ChatGPT不久前推出的插件中也包含了計算知識搜索引擎Wolfram Alpha,這些外部輔助工具給出的回答肯定比聊天機器人的要更準確、靠譜些。

04.如何在《埃爾登指環(huán)》中打敗Mamenia?

在FromSofeware工作室設計的一款游戲《埃爾登指環(huán)》(Elden Ring)中,用戶往往需要花80至100個小時去尋找游戲提示然后打敗Boss。Melenia是用戶公認的整款游戲中最難對付的Boss之一,有位用戶甚至花了206次嘗試才最終將其擊敗。如果用戶想要進一步獲得一些武器列表信息或是Malenia的動作細節(jié)的話,就需要聊天機器人來助一臂之力。

相較于另外兩款聊天機器人,Bard在這個場景中表現(xiàn)得更出色。Bard為用戶提供了擊敗Malenia的關鍵信息——她容易受到流血傷害,因此玩家可以使用重型武器來進行攻擊。

▲Bard指出了攻擊Malenia的幾個關鍵信息點

雖然這個關鍵信息點讓Bard略占上風,但它給出的關于Malenia的總結卻是漏洞百出。比如,Bard稱Malenia擅長遠程攻擊,且行動難以預測,但實際上Malenia是個近戰(zhàn)戰(zhàn)士,也并沒有Bard所認為的那么不可預測,只是難以躲避而已。

Bing稱,“Malenia在艾爾登指環(huán)中是一個傳說中很難打敗的Boss,她最大的弱點是傷害,所以對抗她最好辦法就是釋放她的血量。失血是特別有效的,因為它降低了Malenia的血量大大降低,攻擊性減弱,使她可以被輕易擊中?!?/p>

它給出的回答中同樣提到Malenia最大的弱點是出血傷害,并且提醒玩家對抗她的最好方法是使用失血或凍傷技能。Bing的回答簡潔明了,直接提到了關鍵傷害點和應該使用哪種武器。

▲Bing的回答更加簡潔直觀

ChatGPT則詳細地列出了打敗Malenia的一系列技巧和策略,如升級裝備、研究攻擊模式、提升耐力、遠程攻擊、精神召喚等。

▲ChatGPT給出的詳細策略

ChatGPT的回答更加詳細,它還鼓勵玩家嘗試多用不同的戰(zhàn)術來進行攻擊,構建出一套自己的打法。

05.如何在電腦中安裝內存?

測試者想考驗語言模型對于RAM(內存)的安裝步驟的思路。

大多數(shù)筆記本電腦都需要通過雙通道模式來運行RAM,這就意味著搖桿必須安裝在正確的插槽中才能在系統(tǒng)上獲得最佳性能,如果只是將兩個搖桿并排放置的話,就相當于RAM沒辦法以最佳的狀態(tài)來運行,用戶花的錢全部打了水漂。

ChatGPT、Bing和Bard三款聊天機器人都為安裝提供了可靠的建議,但還不夠全面。

Bard列出了每一步的操作過程:“關閉電腦并拔下電源;找到主板上的RAM插槽;刪除舊的RAM模塊,模塊兩側的標簽,并將其滑出插槽;安裝新的RAM模塊,確保模塊上的凹口與槽脊對齊,然后按下去,直到聽到咔嗒一聲;插上電腦電源,然后開機啟動?!?/p>

Bard還補充道:“在觸摸PC內部的任何組件之前,要確保組件沒有被損壞。處理新的RAM模塊時也要小心,模塊上的連接器非常脆弱,很容易損壞?!?/p>

▲Bard的回答

Bing的回答是:“關閉計算機并拔下所有連接到它的電纜;拆下電腦機箱的側面找到主板;找到主板上的RAM插槽;解鎖RAM插槽上的鎖存器;將RAM放入插槽中;按下RAM,直到它發(fā)出咔嗒聲;對每一根內存條重復這個過程,直到完成;插入模塊?!?/p>

▲Bing 給出的詳細安裝步驟

ChatGPT的回答只選擇了RAM安裝過程中的關鍵部分,它提醒用戶在安裝之后檢查系統(tǒng)中的BIOS(基本輸入輸出系統(tǒng)),但卻沒有提醒用戶在安裝后的BIOS設置中啟用RAM,這樣導致用戶無法用最快的時間來運行RAM以獲得最佳性能。

▲ChatGPT提供的RAM安裝步驟

06.提供一份巧克力蛋糕食譜

除了提示程序安裝步驟之外,生成一份食譜也是個非??简灹奶鞕C器人創(chuàng)造力的請求。

測試者提出了一個請求:讓它們推薦一份用香草糖霜制作的巧克力蛋糕的食譜,并提供這份食譜的來源。

它們提供的食譜中可能會有完全不同的面粉、水、黃油、雞蛋與糖的比例,導致最終做出的蛋糕更蓬松、更干或是更濕潤。

Bard提供的蛋糕配方誤估了時間和克數(shù),配方中蛋糕的烘烤時間完全不夠,用戶按照它提供的配方只能得到一堆軟塌的面粉黃油混合物?!鳥ard提供的蛋糕配方

除此以外,Bard對于口味似乎很有自己的想法,它的蛋糕配方中用牛奶替代了原本的酪乳,把濃郁的咖啡換成了水,也沒有在奶油配方中加牛奶或是重奶油。

Bing在回答中分享了一個特定配方,但卻稍微改變了原有配方中面粉、奶油等重要成分的克數(shù)。

▲Bing提供的蛋糕配方

ChatGPT回答中給出的配方非??孔V,它從一個網站中選擇了巧克力蛋糕的配方,又從另一個網站中收集來一份奶油的打發(fā)配方,并自行補充了一些做蛋糕過程中要注意的細節(jié),比如將烤箱預熱到175攝氏度,在蛋糕底盤上抹一層油防粘,在蛋糕胚完全冷卻之后再抹奶油面等。這些細節(jié)在菜譜來源網站中都未曾提及過,而ChatGPT貼心地補充了進去。

▲ChatGPT提供的蛋糕配方

07.制定一項馬拉松訓練計劃

當測試者提出“為我設計一項簡潔的馬拉松訓練計劃”的請求時,三款工具展示出了截然不同的風格。

Bard在標題中稱“這是一份適合初學者的、為期三個月的馬拉松訓練計劃”,但最終卻只列出了三周的具體訓練計劃,包括每天要進行的項目以及何時休息。值得一提的是,它沒有一開始就制定高耗能的訓練量,計劃中的跑步里程是逐步增加的,從第一周的3公里逐漸遞增到第三周的7公里。

▲Bard制定的馬拉松訓練計劃

Bing幾乎沒有費心做推薦,直接鏈接了知名跑者雜志《Runner's World》上的一篇文章。這種偷懶的做法有點讓人失望,畢竟這次測試就是為了看看它們的回答,而不是直接得到一份跑步愛好者們的專業(yè)建議。

▲Bing提供了外部網站鏈接

ChatGPT詳細列出一個完整的訓練時間表,并建議跑步者的速度與平時訓練時的速度相似,這份回答完全可以當作一份跑步訓練模板來使用。

但它最大的問題在于不知道回答應該在哪里就打住,它制定的計劃太過于詳細,沒有滿足測試者簡潔清晰的要求。

▲ChatGPT制定的馬拉松訓練計劃表

08.提供一些關于羅馬旅游的建議

當測試者讓它們提供一些關于羅馬的旅游建議時,這三款聊天機器人的回答都充滿了驚喜。

Bard列出了一些適合參觀的地方,比如庫瓦提瑞·克佩德(Quartiere Copped)街區(qū)、蒙特馬提尼中央博物館(Centrale Montemartini Museum)、多利亞·潘菲爾別墅等景點。而且更貼心的是,它推薦的這些景點都避開了最繁華的商業(yè)區(qū)和人流密集的景點,反而推薦了許多當?shù)厝顺Hサ牡胤?,比如特拉斯提弗列區(qū)(Trastevere)和羅馬新都心EUR區(qū)(Esposizione Universale Roma)。

▲Bard的回答

Bing提供的景點推薦中有和Bard重復的部分,但也補充了另外一些景點,如帕姆菲力宮(Palazzo Doria Pamphilj)、羅馬圣克萊門特大教堂(Basilica di San Clemente)等。

▲Bing的回答

ChatGPT也建議游客去一些不為人知的小眾景點游玩,這樣更能獲得一些新奇的體驗。它還補充說,即使是不知名的景點也會有高峰時段,建議游客們盡量在非高峰時段或是工作日去游覽。

▲ChatGPT的回答

09.結語:狂飆之后的AI語言模型更需加速追趕差距

這些在不同應用場景下的測試把每個聊天機器人的優(yōu)劣勢都充分展示了出來。如果用戶想用聊天對話的方式來獲取一些創(chuàng)意寫作、歸納推理方面的靈感,ChatGPT一定是首選;如果是想搜索網絡資源,并且快速獲取一個快速跳轉鏈接的話,Bing則更合適一些;而Bard目前的表現(xiàn)在各方面都略遜一籌。

在人與人之間的技能差異被AI語言模型逐步放大的過程中,我們也能清晰感知到語言模型之間的能力差距。

但我們需要明白,無論是人類自身,還是ChatGPT、Bing、Bard等語言模型,進步一定是個持續(xù)的過程。這些聊天機器人們目前所展示出的形態(tài)還只是技術進步中的一環(huán),但目前他們所能做到的事已經震驚了全世界,所帶來的沖擊力甚至遠大于之前的移動互聯(lián)網造成的影響。

無論是功能已經越來越全面的ChatGPT也好,暫時落后一步的Bard也好,當我們以發(fā)展的目光來看待它們所帶來的技術變革時,就會對它目前欠缺的能力更加寬容,我們需要以一種更為長遠的深刻洞察來對待它們。

本文為轉載內容,授權事宜請聯(lián)系原著作權人。