文|三易生活
“AI大模型即將遇到數(shù)據(jù)荒”這件事,從2023年開(kāi)始就成為了AI開(kāi)發(fā)者對(duì)未來(lái)最大的擔(dān)憂(yōu),甚至有研究團(tuán)隊(duì)已經(jīng)給出了高質(zhì)量語(yǔ)料數(shù)據(jù)將會(huì)在2026年耗盡的預(yù)測(cè)。由此也使得手握大量數(shù)據(jù)的互聯(lián)網(wǎng)內(nèi)容平臺(tái)、新聞機(jī)構(gòu)、出版商突然發(fā)現(xiàn),在A(yíng)I時(shí)代“賣(mài)鏟子”這活不僅英偉達(dá)能干,自己好像也能做。
而AI廠(chǎng)商則很快發(fā)現(xiàn),自己頭上的大山除了英偉達(dá),還要多出個(gè)數(shù)據(jù)供應(yīng)商。盡管谷歌、OpenAI等實(shí)力雄厚的大廠(chǎng)可以選擇“銀彈攻勢(shì)”,一邊找英偉達(dá)買(mǎi)算力卡,一邊與Reddit等網(wǎng)絡(luò)社區(qū)及新聞媒體達(dá)成合作,但資金豐沛的大廠(chǎng)畢竟是少數(shù),絕大多數(shù)初創(chuàng)企業(yè)、哪怕是AI獨(dú)角獸都缺錢(qián)。
AI大模型需要持續(xù)投喂數(shù)據(jù)來(lái)進(jìn)行迭代,可AI廠(chǎng)商缺錢(qián)又已經(jīng)是普遍現(xiàn)象,如此一來(lái)就有廠(chǎng)商選擇了用技術(shù)手段來(lái)“強(qiáng)取”數(shù)據(jù)。日前有消息顯示,AI獨(dú)角獸Anthropic無(wú)視知名維修網(wǎng)站iFixit的條款,使用爬蟲(chóng)ClaudeBot在24小時(shí)內(nèi)瘋狂訪(fǎng)問(wèn)近百萬(wàn)次。
以至于iFixit CEO Kyle Wiens直接在社交平臺(tái)向Anthropic隔空喊話(huà),“你真的有必要在24小時(shí)內(nèi)訪(fǎng)問(wèn)我們的服務(wù)器100萬(wàn)次嗎?你不僅在不付費(fèi)的情況下獲取我們的內(nèi)容,還占用了我們的devops資源,一點(diǎn)都不酷!”此外Kyle Wiens還進(jìn)一步表示,“如果你想要跟我們談?wù)剝?nèi)容許可和商業(yè)用途的話(huà),我們就在這呢?!?/p>
作為全球知名的消費(fèi)電子產(chǎn)品維修網(wǎng)站,iFixit的市場(chǎng)競(jìng)爭(zhēng)力就來(lái)源于網(wǎng)站上提供的幾乎任何類(lèi)型、任何型號(hào)電子設(shè)備對(duì)應(yīng)的免費(fèi)維修手冊(cè)、解決方案,以及iFixit用戶(hù)社區(qū)。這些電子產(chǎn)品的維修知識(shí)無(wú)疑就是iFixit的立身之本,因此iFixit方面也在其robots.txt文件中添加了一行特定于A(yíng)nthropic爬蟲(chóng)的禁用指令。
隨后Anthropic方面回應(yīng)稱(chēng),他們尊重robots.txt協(xié)議,并在iFixit實(shí)施禁令后遵守了相關(guān)規(guī)則。其實(shí)不僅僅是iFixit,全球規(guī)模最大的外包服務(wù)撮合平臺(tái)Freelancer同樣也是Anthropic的受害者,該公司CEO Matt Barrie也表示,ClaudeBot是最激進(jìn)的爬蟲(chóng),F(xiàn)reelancer在四小時(shí)內(nèi)收到了來(lái)自Anthropic爬蟲(chóng)的350萬(wàn)次訪(fǎng)問(wèn),遠(yuǎn)超其他AI爬蟲(chóng)的訪(fǎng)問(wèn)量。
對(duì)于iFixit、Freelancer這種專(zhuān)注于細(xì)分賽道的“隱形冠軍”,24小時(shí)內(nèi)數(shù)百萬(wàn)次訪(fǎng)問(wèn)請(qǐng)求已經(jīng)算得上是一次小規(guī)模的分布式拒絕服務(wù)攻擊(DDoS)了。對(duì)此,Anthropic方面表示正在調(diào)查此事件,以確保其爬蟲(chóng)活動(dòng)對(duì)同一域名的訪(fǎng)問(wèn)頻率最小化,從而減少干擾。
那么問(wèn)題就來(lái)了,Anthropic其實(shí)不缺錢(qián),畢竟作為OpenAI的第一勁敵,僅亞馬遜一家就對(duì)其投資了40億美元。Anthropic方面甚至在本月初聯(lián)合風(fēng)險(xiǎn)投資公司Menlo Ventures共同推出了一只1億美元的基金Anthology Fund,為早期的AI初創(chuàng)公司提供支持。
沒(méi)錯(cuò),身為AI獨(dú)角獸的Anthropic已然開(kāi)始“提攜后輩”,玩起了大公司標(biāo)配的戰(zhàn)略投資。對(duì)此,似乎就只能用Anthropic的經(jīng)營(yíng)策略是“該省省,該花花”,能不花的錢(qián)就一定不花來(lái)解釋了。
正因如此,Anthropic的做法才讓iFixit、Freelancer的CEO“破防”。作為一家在業(yè)界頗有聲望的AI獨(dú)角獸,Anthropic的做法毫無(wú)疑問(wèn)是開(kāi)了個(gè)壞頭。要知道反爬蟲(chóng)策略本身是不可能完全杜絕爬蟲(chóng)的,因?yàn)樾畔⒅灰獙?duì)外提供,就必然有被抓取的可能。在這一基礎(chǔ)上的robots.txt,其實(shí)就是一個(gè)針對(duì)網(wǎng)絡(luò)爬蟲(chóng)的君子協(xié)議,也正是谷歌、雅虎等大廠(chǎng)的帶頭遵守,才有了過(guò)去二十年間互聯(lián)網(wǎng)世界的秩序。
現(xiàn)在明明Anthropic是有向內(nèi)容平臺(tái)購(gòu)買(mǎi)數(shù)據(jù)的預(yù)算,卻偏偏選擇用技術(shù)手段來(lái)“零元購(gòu)”,豈不是就意味著其他囊中羞澀的AI初創(chuàng)企業(yè)也會(huì)有樣學(xué)樣。可偏偏當(dāng)下是AI創(chuàng)業(yè)的熱潮,做AI的廠(chǎng)商不知凡幾,如果大家都效仿Anthropic這一玩法,高頻次、大流量的訪(fǎng)問(wèn)必然會(huì)讓網(wǎng)站“壓力山大”,已經(jīng)與DDoS網(wǎng)絡(luò)攻擊行為無(wú)異了。
面對(duì)DDoS這種目前最簡(jiǎn)單、也是最粗暴的網(wǎng)絡(luò)安全破壞活動(dòng),幾乎只有兩個(gè)有效途徑可以解決,即用更大的帶寬資源來(lái)容納超預(yù)期的網(wǎng)絡(luò)請(qǐng)求,或是使用流量清洗來(lái)過(guò)濾掉無(wú)用流量。很遺憾的是,這兩種策略都不便宜,中小網(wǎng)站通常是買(mǎi)不起的。
AI廠(chǎng)商對(duì)于數(shù)據(jù)的需求永無(wú)止境,可偏偏不愿意付錢(qián),而一般的網(wǎng)站有數(shù)據(jù)、卻缺乏保護(hù)這一資產(chǎn)的手段。如果這次Anthropic僅僅是“有則改之”,連一個(gè)道歉都沒(méi)有的話(huà),后續(xù)內(nèi)容平臺(tái)賣(mài)數(shù)據(jù)的生意恐怕就要難做了,互聯(lián)網(wǎng)世界可能會(huì)開(kāi)始進(jìn)入周禮崩潰后的春秋戰(zhàn)國(guó)時(shí)代。
在A(yíng)I廠(chǎng)商的爬蟲(chóng)高頻次訪(fǎng)問(wèn)下,中小網(wǎng)站別說(shuō)賣(mài)數(shù)據(jù),可能就連正常的運(yùn)營(yíng)都會(huì)受到影響。如果想要讓自己的網(wǎng)站免受爬蟲(chóng)打擾,“自污”策略或許很快就會(huì)普及。而所謂“自污”其實(shí)很簡(jiǎn)單,畢竟AI廠(chǎng)商的爬蟲(chóng)希望獲得數(shù)據(jù)來(lái)訓(xùn)練AI,可假如數(shù)據(jù)本身不可用呢?
關(guān)心AI大模型的朋友對(duì)于“AI投毒”這個(gè)詞想必不會(huì)陌生。就在不久前,《Nature》封面刊登了來(lái)自牛津大學(xué)、劍橋大學(xué)等機(jī)構(gòu)的研究論文,內(nèi)容就是AI訓(xùn)練AI會(huì)出現(xiàn)不可逆轉(zhuǎn)的缺陷,進(jìn)而使得模型性能下降。這篇文章盡管在業(yè)界充滿(mǎn)了爭(zhēng)議,但其中給AI投喂低質(zhì)量數(shù)據(jù)會(huì)導(dǎo)致模型劣化卻收到了共鳴。
如今,數(shù)據(jù)投毒攻擊(Data Poisoning Attack)已經(jīng)是一個(gè)AI研究領(lǐng)域不可回避的問(wèn)題,只需要訓(xùn)練集有不到1%的數(shù)據(jù)被污染,大模型輸出內(nèi)容的準(zhǔn)確率就會(huì)大幅下降。用謊言去驗(yàn)證謊言得到的一定是謊言,如果數(shù)據(jù)集中的參數(shù)本身就有問(wèn)題,得到的回答自然就是錯(cuò)漏百出。
想要得到高質(zhì)量數(shù)據(jù)需要凝聚人類(lèi)的智慧,但想要?dú)缢删秃?jiǎn)單多了。如果AI廠(chǎng)商不保持克制,一旦內(nèi)容平臺(tái)的運(yùn)營(yíng)者達(dá)成共識(shí),用污染自家數(shù)據(jù)的方式來(lái)解決這個(gè)問(wèn)題,遭遇數(shù)據(jù)荒的時(shí)間恐怕就會(huì)近在眼前。