對(duì)蜘蛛來說,這種特定類型的索引頁是爬行的有效渠道,但是蜘蛛爬行頻率和網(wǎng)站文章更新頻率不盡相同,文章鏈接很有可能就被推到翻頁條中,這樣蜘蛛不可能每天從第1個(gè)翻頁條爬到第80個(gè),然后一個(gè)文章一個(gè)文章的抓取,到數(shù)據(jù)庫對(duì)比,這樣太浪費(fèi)蜘蛛時(shí)間,也浪費(fèi)你網(wǎng)站的收錄時(shí)間,所以蜘蛛需要對(duì)這種特殊類型的翻頁式網(wǎng)頁來一個(gè)額外的抓取機(jī)制,從而保證收錄資源的完全。
有些頁面中每個(gè)文章鏈接后面跟隨著對(duì)應(yīng)的發(fā)布時(shí)間,通過文章鏈接對(duì)應(yīng)的時(shí)間集合,判斷時(shí)間集合是否按大到小或小到大排序,如果是的話,則說明網(wǎng)頁中的資源是按發(fā)布時(shí)間有序排布,反之亦然。
蜘蛛對(duì)網(wǎng)頁的類型,網(wǎng)頁中翻頁條的位置,翻頁條對(duì)應(yīng)的鏈接,以及列表是否按照時(shí)間排序都會(huì)做相應(yīng)的判斷,并根據(jù)實(shí)際的情況進(jìn)行處理,但是蜘蛛畢竟不能做到100%的識(shí)別準(zhǔn)確率,所以如果站長(zhǎng)在做翻頁條時(shí)不要用JS,更不要用FALSH,同時(shí)要有頻率的進(jìn)行文章更新,配合蜘蛛的抓取,這樣就可以極大地提高蜘蛛識(shí)別的準(zhǔn)確率,從而提高蜘蛛在你網(wǎng)站的抓取效率。