慈溪網(wǎng)站建設公司
發(fā)布時(shí)間:2017-10-08 瀏覽:975打印字號:大中小
慈溪做高端網(wǎng)站還選新鴻儒、我們?yōu)?6家世界500強的品牌企業(yè)提供服務(wù)與技術(shù)支持,為中國58家500強品牌企業(yè)提供整站開(kāi)發(fā)、品牌策劃等服務(wù)。如;SOHO中國、中聯(lián)重科、雅戈爾、瀘州老窖、清華大學(xué)、奧克斯集團、等等了解更多請咨詢(xún)新鴻儒客服。

蜘蛛先去抓取百度白名單的網(wǎng)站或者一些信任度非常高的站點(diǎn)和頁(yè)面(例如:一些高權重網(wǎng)站和網(wǎng)站的首頁(yè)),在抓取這些網(wǎng)頁(yè)的內容時(shí)發(fā)現一些指向另外一些頁(yè)面的鏈接。蜘蛛會(huì )把這些鏈接保存在自己的數據庫里面,然后再根據抓取順序依次來(lái)抓取這些網(wǎng)頁(yè)。
1、蜘蛛抓取網(wǎng)頁(yè)的規則:
對于蜘蛛說(shuō)網(wǎng)頁(yè)權重越高、信用度越高抓取越頻繁,例如網(wǎng)站的首頁(yè)和內頁(yè)。蜘蛛先抓取網(wǎng)站的首頁(yè),因為首頁(yè)權重更高,并且大部分的鏈接都是指向首頁(yè)。然后通過(guò)首頁(yè)抓取網(wǎng)站的內頁(yè),并不是所有內頁(yè)都會(huì )被蜘蛛抓取。
搜索引擎認為對于一般的中小型站點(diǎn),3層足夠承受所有的內容了,所以蜘蛛經(jīng)常抓取的內容是前三層,而超過(guò)三層的內容蜘蛛認為那些內容并不重要,所以不經(jīng)常爬取。因此,要根據自己的網(wǎng)站規模,確定頁(yè)面的層次。
2、如何看蜘蛛的抓???
通過(guò)iis日志可以看蜘蛛爬取了哪些內容,iis日志有百度蜘蛛、谷歌蜘蛛等。從iis日志里可以分析得出蜘蛛的類(lèi)型、抓取時(shí)間、抓取的頁(yè)面、抓取內容的大小以及返回的頁(yè)面代碼,200代表抓取順利。
慈溪網(wǎng)站建設分享蜘蛛是如何爬取網(wǎng)頁(yè)內容由新鴻儒小編整理發(fā)布!


