正在閱讀:

谷歌搜索下線快照,互聯(lián)網(wǎng)似乎真的要沒有記憶了

掃一掃下載界面新聞APP

谷歌搜索下線快照,互聯(lián)網(wǎng)似乎真的要沒有記憶了

在沒有了快照后,注定就會有一大批網(wǎng)頁因為缺乏維護(hù)或內(nèi)容更新,而遺失在互聯(lián)網(wǎng)龐大的信息海洋里。

文|三易生活

刻在石頭上的碑文會風(fēng)化、寫在紙上的文字會腐朽,數(shù)千年以來,如何保存知識始終是人類文明的一大關(guān)鍵課題。直到互聯(lián)網(wǎng)的出現(xiàn),它成為了一個被認(rèn)為保存信息的絕妙載體,“互聯(lián)網(wǎng)是有記憶的”這句話在多年以前更是被奉為圭臬。然而時過境遷,“互聯(lián)網(wǎng)沒有記憶”已然成為大家公認(rèn)的事實,如今谷歌的新動作,則又加深了這一刻板印象。

近期,谷歌搜索公共聯(lián)絡(luò)人Danny Sullivan確認(rèn),谷歌方面將刪除所有搜索結(jié)果中的網(wǎng)頁快照/緩存鏈接,未來用戶將無法在搜索結(jié)果里點擊緩存來查看網(wǎng)頁被谷歌爬蟲索引時生成的網(wǎng)頁快照。并且Danny Sullivan還透露,緩存操作符“cache:”預(yù)計也將會被移除。為此谷歌給出的解決方案,是在搜索結(jié)果中添加互聯(lián)網(wǎng)檔案館(The Internet Archive)的鏈接,以取代“關(guān)于本結(jié)果”部分的谷歌緩存鏈接。

但作為一家非營利性組織,如今互聯(lián)網(wǎng)檔案館的日子也不太好過,它在去年就先后面臨美國圖書出版商、唱片公司總計3.72億美元的天價索賠。更何況作為全球最受歡迎的搜索引擎,谷歌搜索的用戶規(guī)模極為龐大。按照去年谷歌方面在數(shù)字服務(wù)法(DSA)要求下向歐盟報告的數(shù)據(jù)顯示,谷歌搜索僅僅在歐盟地區(qū)的月活就高達(dá)3.32億。所以顯而易見,互聯(lián)網(wǎng)檔案館的服務(wù)器不太可能及時緩存來自谷歌搜索抓取的網(wǎng)頁。

如此一來,繼國內(nèi)市場的百度、搜狗、360之后,谷歌搜索也實質(zhì)上放棄了快照功能。關(guān)于為什么會突然不再提供搜索結(jié)果中的網(wǎng)頁快照、緩存,谷歌的說法是其最初提供緩存鏈接選項主要為了幫助用戶可靠地訪問網(wǎng)頁,比如面對網(wǎng)頁無法加載時,現(xiàn)在隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,許多網(wǎng)站已經(jīng)可以提供很好的可靠性,所以為了防止網(wǎng)頁打不開而進(jìn)行的緩存,已經(jīng)沒有必要。

網(wǎng)頁緩存或者說快照,其實可以理解為是一份網(wǎng)頁的副本,早期由于技術(shù)條件的限制,有相當(dāng)多的網(wǎng)站存在訪問不穩(wěn)定的問題,以至于會出現(xiàn)用戶通過搜索引擎的結(jié)果訪問時,發(fā)現(xiàn)網(wǎng)站無法打開,這時候快照的作用就出現(xiàn)了,它就好比給網(wǎng)頁拍了一張照片,讓用戶能夠從快照中找出網(wǎng)頁上的有用信息。

同時,網(wǎng)頁通常并不是一成不變的,而是不斷增加、刪除、改動,為了保證用戶使用搜索引擎時總能找到需求的信息,搜索引擎的數(shù)據(jù)庫定時更新抓取的網(wǎng)頁,就意味著當(dāng)某個網(wǎng)站刪除一個網(wǎng)頁后,數(shù)據(jù)庫里的網(wǎng)頁快照并不會立刻被刪除,而是要到下一次更新時才會同步。此外網(wǎng)頁快照還可以避免由于內(nèi)容太多,想要完整大量儲存網(wǎng)頁內(nèi)容時帶寬不夠的問題,抓取快照可以以最少的帶寬就將其保存下來。

早期網(wǎng)絡(luò)基礎(chǔ)建設(shè)不建全、網(wǎng)速慢是常態(tài),再加上網(wǎng)站建設(shè)水平良莠不齊,技術(shù)不規(guī)范、不成熟等問題,先不說網(wǎng)站本身的體驗如何,很多網(wǎng)站可能單單是打開頁面都費勁,于是搜索引擎為了保障用戶體驗,就搞出了快照這個功能。但隨著時間的推移,特別是云服務(wù)相關(guān)技術(shù)的跨越式發(fā)展,網(wǎng)站訪問不穩(wěn)定的現(xiàn)象幾乎已經(jīng)成為了傳說,網(wǎng)頁無法打開的情況也愈發(fā)罕見,就使得快照功能存在的意義就沒有了。

要知道,互聯(lián)網(wǎng)上有數(shù)以百億計的網(wǎng)頁,為了保存快照信息,即使百度、谷歌將搜索引擎收錄的網(wǎng)頁以純文本的形式備份,其他資源,如樣式表和圖片等內(nèi)容不會被緩存。在聚沙成塔的情況下,過去二十余年間積累的快照對于服務(wù)器顯然已經(jīng)成為了一個不小的負(fù)擔(dān)。畢竟快照的存儲必然會產(chǎn)生服務(wù)器資源的占用,清空快照頁面就可以將釋放出來的空間挪至其它用途,從而達(dá)到“降本”的作用。

在如今全球互聯(lián)網(wǎng)廠商都采取“降本增效”的背景下,砍掉不影響核心體驗的功能已經(jīng)是大趨勢。再加上AI搜索已然成為了趨勢,當(dāng)用戶看到的是AI對于用戶需求信息的總結(jié),被索引的網(wǎng)頁主要起到類似“文獻(xiàn)”的作用,以佐證AI總結(jié)內(nèi)容的可靠性時,當(dāng)用戶在使用搜索引擎時不再需要打開網(wǎng)頁,保存網(wǎng)頁快照又有何用呢?

除了以上兩點外,快照功能最近幾年也逐漸被SEO從業(yè)者濫用。比如可以通過投訴快照來做排名,通過快照做收錄等,SEO從業(yè)者利用模擬點擊來繞開算法,借助快照功能將隨意采集拼湊的垃圾站點快速排到首頁。于是乎,搜索結(jié)果頁的內(nèi)容質(zhì)量每況愈下,就逼得搜索引擎不得不將其權(quán)重降低。

甚至有些黑灰產(chǎn)團(tuán)隊,還會使用SEO快照劫持來影響搜索引擎的正常排名。通過網(wǎng)站存在的漏洞或其它違規(guī)方式獲取網(wǎng)站后臺權(quán)限,再通過注入惡意代碼從而實現(xiàn)快照替換的目的。通常來說,黑灰產(chǎn)會給目標(biāo)網(wǎng)頁掛上一段加密的JavaScript代碼,該代碼的功能則是判斷訪問網(wǎng)頁的是不是搜索引擎的爬蟲,如果是爬蟲程序則不做任何操作,讓搜索引擎正常抓??;如果判斷是用戶,則會執(zhí)行JS跳轉(zhuǎn)代碼,將網(wǎng)站的正常頁面替換為惡意網(wǎng)頁。

所以當(dāng)一個功能用戶不再經(jīng)常使用、且需要消耗大量服務(wù)器資源,同時還可能會被黑灰產(chǎn)利用時,百度、谷歌等搜索引擎將其關(guān)閉就再正常不過了。只可惜在沒有了快照后,注定就會有一大批網(wǎng)頁因為缺乏維護(hù)或內(nèi)容更新,而遺失在互聯(lián)網(wǎng)龐大的信息海洋里。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

谷歌

6.5k
  • OpenAI有意買下谷歌Chrome瀏覽器
  • 美國法院裁定谷歌濫用廣告主導(dǎo)地位,谷歌表示將上訴

百度

5.8k
  • 百度:未來三年將面向校園開放2.1萬個實習(xí)崗位
  • 百度推出外貿(mào)企業(yè)AI扶持計劃

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

谷歌搜索下線快照,互聯(lián)網(wǎng)似乎真的要沒有記憶了

在沒有了快照后,注定就會有一大批網(wǎng)頁因為缺乏維護(hù)或內(nèi)容更新,而遺失在互聯(lián)網(wǎng)龐大的信息海洋里。

文|三易生活

刻在石頭上的碑文會風(fēng)化、寫在紙上的文字會腐朽,數(shù)千年以來,如何保存知識始終是人類文明的一大關(guān)鍵課題。直到互聯(lián)網(wǎng)的出現(xiàn),它成為了一個被認(rèn)為保存信息的絕妙載體,“互聯(lián)網(wǎng)是有記憶的”這句話在多年以前更是被奉為圭臬。然而時過境遷,“互聯(lián)網(wǎng)沒有記憶”已然成為大家公認(rèn)的事實,如今谷歌的新動作,則又加深了這一刻板印象。

近期,谷歌搜索公共聯(lián)絡(luò)人Danny Sullivan確認(rèn),谷歌方面將刪除所有搜索結(jié)果中的網(wǎng)頁快照/緩存鏈接,未來用戶將無法在搜索結(jié)果里點擊緩存來查看網(wǎng)頁被谷歌爬蟲索引時生成的網(wǎng)頁快照。并且Danny Sullivan還透露,緩存操作符“cache:”預(yù)計也將會被移除。為此谷歌給出的解決方案,是在搜索結(jié)果中添加互聯(lián)網(wǎng)檔案館(The Internet Archive)的鏈接,以取代“關(guān)于本結(jié)果”部分的谷歌緩存鏈接。

但作為一家非營利性組織,如今互聯(lián)網(wǎng)檔案館的日子也不太好過,它在去年就先后面臨美國圖書出版商、唱片公司總計3.72億美元的天價索賠。更何況作為全球最受歡迎的搜索引擎,谷歌搜索的用戶規(guī)模極為龐大。按照去年谷歌方面在數(shù)字服務(wù)法(DSA)要求下向歐盟報告的數(shù)據(jù)顯示,谷歌搜索僅僅在歐盟地區(qū)的月活就高達(dá)3.32億。所以顯而易見,互聯(lián)網(wǎng)檔案館的服務(wù)器不太可能及時緩存來自谷歌搜索抓取的網(wǎng)頁。

如此一來,繼國內(nèi)市場的百度、搜狗、360之后,谷歌搜索也實質(zhì)上放棄了快照功能。關(guān)于為什么會突然不再提供搜索結(jié)果中的網(wǎng)頁快照、緩存,谷歌的說法是其最初提供緩存鏈接選項主要為了幫助用戶可靠地訪問網(wǎng)頁,比如面對網(wǎng)頁無法加載時,現(xiàn)在隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,許多網(wǎng)站已經(jīng)可以提供很好的可靠性,所以為了防止網(wǎng)頁打不開而進(jìn)行的緩存,已經(jīng)沒有必要。

網(wǎng)頁緩存或者說快照,其實可以理解為是一份網(wǎng)頁的副本,早期由于技術(shù)條件的限制,有相當(dāng)多的網(wǎng)站存在訪問不穩(wěn)定的問題,以至于會出現(xiàn)用戶通過搜索引擎的結(jié)果訪問時,發(fā)現(xiàn)網(wǎng)站無法打開,這時候快照的作用就出現(xiàn)了,它就好比給網(wǎng)頁拍了一張照片,讓用戶能夠從快照中找出網(wǎng)頁上的有用信息。

同時,網(wǎng)頁通常并不是一成不變的,而是不斷增加、刪除、改動,為了保證用戶使用搜索引擎時總能找到需求的信息,搜索引擎的數(shù)據(jù)庫定時更新抓取的網(wǎng)頁,就意味著當(dāng)某個網(wǎng)站刪除一個網(wǎng)頁后,數(shù)據(jù)庫里的網(wǎng)頁快照并不會立刻被刪除,而是要到下一次更新時才會同步。此外網(wǎng)頁快照還可以避免由于內(nèi)容太多,想要完整大量儲存網(wǎng)頁內(nèi)容時帶寬不夠的問題,抓取快照可以以最少的帶寬就將其保存下來。

早期網(wǎng)絡(luò)基礎(chǔ)建設(shè)不建全、網(wǎng)速慢是常態(tài),再加上網(wǎng)站建設(shè)水平良莠不齊,技術(shù)不規(guī)范、不成熟等問題,先不說網(wǎng)站本身的體驗如何,很多網(wǎng)站可能單單是打開頁面都費勁,于是搜索引擎為了保障用戶體驗,就搞出了快照這個功能。但隨著時間的推移,特別是云服務(wù)相關(guān)技術(shù)的跨越式發(fā)展,網(wǎng)站訪問不穩(wěn)定的現(xiàn)象幾乎已經(jīng)成為了傳說,網(wǎng)頁無法打開的情況也愈發(fā)罕見,就使得快照功能存在的意義就沒有了。

要知道,互聯(lián)網(wǎng)上有數(shù)以百億計的網(wǎng)頁,為了保存快照信息,即使百度、谷歌將搜索引擎收錄的網(wǎng)頁以純文本的形式備份,其他資源,如樣式表和圖片等內(nèi)容不會被緩存。在聚沙成塔的情況下,過去二十余年間積累的快照對于服務(wù)器顯然已經(jīng)成為了一個不小的負(fù)擔(dān)。畢竟快照的存儲必然會產(chǎn)生服務(wù)器資源的占用,清空快照頁面就可以將釋放出來的空間挪至其它用途,從而達(dá)到“降本”的作用。

在如今全球互聯(lián)網(wǎng)廠商都采取“降本增效”的背景下,砍掉不影響核心體驗的功能已經(jīng)是大趨勢。再加上AI搜索已然成為了趨勢,當(dāng)用戶看到的是AI對于用戶需求信息的總結(jié),被索引的網(wǎng)頁主要起到類似“文獻(xiàn)”的作用,以佐證AI總結(jié)內(nèi)容的可靠性時,當(dāng)用戶在使用搜索引擎時不再需要打開網(wǎng)頁,保存網(wǎng)頁快照又有何用呢?

除了以上兩點外,快照功能最近幾年也逐漸被SEO從業(yè)者濫用。比如可以通過投訴快照來做排名,通過快照做收錄等,SEO從業(yè)者利用模擬點擊來繞開算法,借助快照功能將隨意采集拼湊的垃圾站點快速排到首頁。于是乎,搜索結(jié)果頁的內(nèi)容質(zhì)量每況愈下,就逼得搜索引擎不得不將其權(quán)重降低。

甚至有些黑灰產(chǎn)團(tuán)隊,還會使用SEO快照劫持來影響搜索引擎的正常排名。通過網(wǎng)站存在的漏洞或其它違規(guī)方式獲取網(wǎng)站后臺權(quán)限,再通過注入惡意代碼從而實現(xiàn)快照替換的目的。通常來說,黑灰產(chǎn)會給目標(biāo)網(wǎng)頁掛上一段加密的JavaScript代碼,該代碼的功能則是判斷訪問網(wǎng)頁的是不是搜索引擎的爬蟲,如果是爬蟲程序則不做任何操作,讓搜索引擎正常抓??;如果判斷是用戶,則會執(zhí)行JS跳轉(zhuǎn)代碼,將網(wǎng)站的正常頁面替換為惡意網(wǎng)頁。

所以當(dāng)一個功能用戶不再經(jīng)常使用、且需要消耗大量服務(wù)器資源,同時還可能會被黑灰產(chǎn)利用時,百度、谷歌等搜索引擎將其關(guān)閉就再正常不過了。只可惜在沒有了快照后,注定就會有一大批網(wǎng)頁因為缺乏維護(hù)或內(nèi)容更新,而遺失在互聯(lián)網(wǎng)龐大的信息海洋里。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。