? ? ? ?互聯(lián)網(wǎng)上隨時(shí)都有新呈現(xiàn)的頁(yè)面,隨時(shí)都有網(wǎng)站在更新,隨時(shí)都有頁(yè)面在更新,所以搜查引擎展示的結(jié)果力求時(shí)效性,也就是數(shù)據(jù)庫(kù)內(nèi)的數(shù)據(jù)要時(shí)刻堅(jiān)持更新,蜘蛛要盡可能的時(shí)刻重復(fù)抓取,盡可能保障互聯(lián)網(wǎng)網(wǎng)頁(yè)與數(shù)據(jù)庫(kù)存儲(chǔ)的一致性。前面在《搜查引擎蜘蛛3個(gè)考察標(biāo)準(zhǔn)》中也說(shuō)過(guò),假如某個(gè)網(wǎng)頁(yè)已被刪除或者內(nèi)容做出重大變動(dòng),而搜查引擎沒(méi)能及時(shí)更新,仍然按其舊有內(nèi)容排序,那會(huì)重大影響用戶閉會(huì)。
所以,對(duì)己經(jīng)抓取過(guò)的網(wǎng)頁(yè),蜘蛛還是必須盡快堅(jiān)持其內(nèi)容更新,這就請(qǐng)求搜查引擎蜘蛛在有限的前提下快的更新已抓取來(lái)的信息,因此搜查引擎都會(huì)相應(yīng)的網(wǎng)頁(yè)更新策略,水平的去利用蜘蛛,盡可能保障搜查結(jié)果的時(shí)效性。這些更新策略中就包含了歷史參考策略跟用戶閉會(huì)策略,這是咱們要談的。
歷史參考策略:歷史參考策略是一個(gè)十分直觀的更新策略,顧名思義,它就是參考你的網(wǎng)站歷史。參考什么歷史呢網(wǎng)站更新情況的歷史。有這么一個(gè)假設(shè):從前頻繁更新的網(wǎng)頁(yè),那么將來(lái)也會(huì)頻繁更新。這樣的網(wǎng)站就須要經(jīng)常地過(guò)來(lái)。
當(dāng)然這種方法也沒(méi)那么簡(jiǎn)單輕率,同樣須要建模,依據(jù)每個(gè)網(wǎng)頁(yè)從前的變動(dòng)情況,來(lái)判斷它更新的頻率。對(duì)頻率高的就須要經(jīng)常抓取更新,而沒(méi)怎么更新的,大可之后再去,免得撲個(gè)空。同時(shí)利用這種方法,搜查引擎也會(huì)料想網(wǎng)站何時(shí)會(huì)再次更新,以便水平晉升蜘蛛工作才干。這也是為什么咱們經(jīng)常會(huì)說(shuō)網(wǎng)站須要經(jīng)常地更新,而且是有法則的更新,因?yàn)檫@樣蜘蛛同樣會(huì)更準(zhǔn)時(shí)有效的來(lái)更新你的網(wǎng)頁(yè),形成互助。
用戶閉會(huì)策略:用戶閉會(huì)策略算是一個(gè)比較霸道的更新策略,也可能說(shuō)在依據(jù)網(wǎng)站的歷史,只不過(guò)用的是排名歷史。用戶在查問(wèn)的時(shí)候,面對(duì)大量的搜查結(jié)果不可能逐個(gè)查看,往往查看前3頁(yè)就不錯(cuò)了。用戶閉會(huì)策略就是利用用戶閉會(huì)的這個(gè)特點(diǎn)來(lái)的。
所以用戶閉會(huì)更新策略是以用戶搜查閉會(huì)為中心,這樣即便數(shù)據(jù)庫(kù)里的網(wǎng)頁(yè)內(nèi)容是過(guò)期的,然而假如不影響用戶搜查閉會(huì),那么晚些更新這些過(guò)期網(wǎng)頁(yè)也未嘗不可。也就是說(shuō)排名靠后的網(wǎng)頁(yè)瀏覽的用戶較少,在有限的前提下優(yōu)先更新排名靠前的網(wǎng)站,因?yàn)槟壳岸裕@些網(wǎng)頁(yè)的價(jià)值更大,須要更多。
? ? ? ?很明顯,用戶閉會(huì)更新策略取決于這個(gè)網(wǎng)貝的內(nèi)容變更是否能帶來(lái)用戶搜查品質(zhì)的變更,在搜查結(jié)果影響的,就須要優(yōu)先更新,影響越大的網(wǎng)頁(yè),則應(yīng)當(dāng)越快更新。在更新進(jìn)程中會(huì)再次評(píng)判每次更新內(nèi)容對(duì)搜查品質(zhì)的影響,后果的會(huì)再次優(yōu)化這個(gè)更新策略。
寫在后
? ? ? ?可能看到不管是依據(jù)網(wǎng)頁(yè)的歷史更新頻率還是依據(jù)用戶的搜查閉會(huì),蜘蛛都是想保障在去網(wǎng)站的進(jìn)程中有內(nèi)容可抓,有高品質(zhì)內(nèi)容可抓,不揮霍一次抓取行動(dòng),保障的抓取更新。所以平常須要有法則的更新有價(jià)值的內(nèi)容,不要看到某些大型網(wǎng)站長(zhǎng)期沒(méi)更新,搜查結(jié)果的更新還是那么快,別人有用戶閉會(huì)做更新保障,而且遠(yuǎn)不止用戶閉會(huì)策略這一個(gè)偏向他們的策略,對(duì)有權(quán)威、有信用度、有須要、有價(jià)值的網(wǎng)站,搜查引擎是始終都有優(yōu)先策略的,在搜查技巧還沒(méi)完全可能籠罩全網(wǎng)時(shí),不得不得不說(shuō),這確實(shí)是不錯(cuò)的政策。
? ? ? ?當(dāng)然,這2個(gè)策略只是所有網(wǎng)頁(yè)更新策略的一局部,只管不是那么,但在前提限度的時(shí)候,也是不是辦法中的辦法。而且大多時(shí)候,很多更新策略不是獨(dú)破運(yùn)行了,都是同時(shí)進(jìn)行,彼此幫助,保障蜘蛛在抓取量大的同時(shí),能抓得更快更好。