近期百度搜索最大的動作應該就(jiù)是百度Spider3.0升級了,簡單的概括下(xià)升級的特點就(jiù)是:抓取更實時,收錄效率更快,對原創優質内容更青睐。
此次升級是把當前離線、全量計算(suàn)為(wèi)主的系統,改造成實時、增量計算(suàn)的全實時調度系統,萬億規模的數據進行實時讀(dú)寫,可以收錄90%的網頁,速度提升80%!
『抓取、建庫更快—提交的内容更容易被抓取』
鏈接發現方面:如今sipder每天發現的新鏈接在500億左右的量級,說明啥?你的站點内容越來越容易被Spider發現和抓取,而在百度站長(cháng)平台提交鏈接是最為(wèi)高(gāo)效的,但是百度工(gōng)程師(shī)建議站長(cháng),不要過度提交鏈接,尤其是低(dī)質鏈接,這樣才能(néng)達到(dào)更好更及時的收錄效果。
鏈接抓取和建庫方面,開(kāi)發了更強大的機(jī)器(qì)學習模型,來進行鏈接的質量預測,對庫中所有的鏈接進行全局排序,對有價值鏈接的召回率提高(gāo)95%!索引展現時效性提升,原來是10天左右,現在提升40%~80%不等!我們都知道,搜索引擎從(cóng)用戶搜索到(dào)最終搜索結果展現的步驟是:抓取、建庫、排序、展現,抓取和建庫速度大幅提升意味著(zhe)站點的内容可以比原來更快的展現給最終搜索用戶。
『時效性内容更多(duō)—有内容站點的更多(duō)機(jī)遇』
在對時效性頁面收錄方面,在之前的2.0搜索時代,很多(duō)中小(xiǎo)站長(cháng)寫出的高(gāo)質量文章,一(yī)旦被高(gāo)權重的站點轉載,那麽幾乎自(zì)己的原創文章還(hái)不如大站轉載後來的流量多(duō),而在3.0時代,這樣的情況将大有好轉,配合使用百度的主動提交等鏈接提交方式,文章發布後第一(yī)時間提交給百度,那麽一(yī)旦被收錄,哪怕其他的大站轉載了你的文章,你的文章在搜索結果中仍然排名更好。這樣,更多(duō)的高(gāo)質量内容展示給搜索用戶,就(jiù)是一(yī)個(gè)更加健康的互聯網生(shēng)态。
關于時效性方面,我們現在其實可以自(zì)己搜索某個(gè)關鍵詞,在搜索結果中可以發現,收錄時間越近的排名會(huì)越靠前,當然主要集中在新聞類的文章,這就(jiù)是時效性,這就(jiù)對站點的更新頻率提出了更高(gāo)的要求,當然排名不可能(néng)簡單的跟發布時間有關,還(hái)有很多(duō)維度,但是針對新聞類的文章,随時跟進新聞的進度很重要。
在這我們不得不再提一(yī)下(xià)百度站長(cháng)平台鏈接提交中的主動推送功能(néng),要想時效性頁面更好的被百度收錄,主動推送功能(néng)時效性内容提交的是唯一(yī)的入口!
『死鏈處理更及時—被黑(hēi)低(dī)質頁面全屏蔽』
在死鏈處理方面,Spider3.0啓用了全新的死鏈識别模型,能(néng)識别協議死鏈,以及大多(duō)數内容死鏈、跳轉死鏈等低(dī)質網頁,簡單點說就(jiù)是在之前的版本,站點通(tōng)過站長(cháng)平台提交死鏈,處理速度可能(néng)非常慢(màn),甚至快照(zhào)在一(yī)段時間内仍然存在,但是Spider3.0更新後,大約幾天内就(jiù)可以處理掉了。當然,如果你要追求最佳處理效果,協議死鏈是最好的選擇。
『鏈接提交最好用—站點提交鏈接會(huì)更易收錄』
主動推送通(tōng)過工(gōng)具原理是什麽呢(ne)?主動推送工(gōng)具獲取16個(gè)英文數字組合的字符串,制作數據推送接口,實現最快速度的數據推送。該功能(néng)自(zì)開(kāi)放(fàng)半年(nián)來參與提交站點近10W,日提交數據5000W,提交數據平均被抓取時間早于爬蟲發現時間4個(gè)小(xiǎo)時;提交數據當天收錄量60%--100%,這說明,大多(duō)數站點使用此功能(néng)收效都是不錯(cuò)的。