11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享??靵眚v訊云選購吧!
蜘蛛的爬行往往決定著網(wǎng)站的收錄,因此在平時的優(yōu)化工作中,我們都會比較關(guān)注iis日志,通過觀察日志來獲取蜘蛛爬行網(wǎng)站的動態(tài),并通過分析蜘蛛動態(tài)來監(jiān)測網(wǎng)站優(yōu)化的進度。但是很多時候站長都會看到自己的iis日志顯示蜘蛛的爬行十分不順暢,盡管自認為網(wǎng)站優(yōu)化做的很完美。這其中包含著哪些原因呢?
說到屏蔽搜索蜘蛛的抓取,自然而然的就會想到robots.txt文檔。robots.txt是什么?其實在此前筆者也已經(jīng)對此進行了基礎(chǔ)的說明。robots.txt是一種存放在網(wǎng)站空間根目錄下的文本文件,是一種協(xié)議,用來告訴搜索蜘蛛網(wǎng)站中哪些可被爬行抓取,哪些不可被爬行抓取。然而,在這里,筆者有著這么一個疑問,robots.txt是否能徹底屏蔽蜘蛛的爬行抓取呢?
最近在實踐“評論式推廣”,在執(zhí)行“評論式推廣”的過程中,我發(fā)現(xiàn)自己的行為和搜索引擎的蜘蛛很類似,于是就打算寫這么一篇文章。評論式推廣就是去別人的博客發(fā)評論,然后在別人博客的留言里和友情鏈接里,再找到博客去評論,如此無限循環(huán)。在爬行的過程中,你也會有橫向爬行和縱向爬行,你也會優(yōu)先選擇某些鏈接。下面我就重點談?wù)劷鼛兹盏捏w驗。
外鏈是有時效性,但是鏈接修改或者頁面被刪除并不代表無效了。當然搜索引擎內(nèi)部會有一個復雜的計算,過程不會像我說的這么簡單。
搜索引擎蜘蛛,對于我們來說非常神秘,本文的配圖使用蜘蛛俠的原因就在于此。當然我們也不是百度的也不是Google的,所以只能說探秘,而不是揭秘。本文內(nèi)容比較簡單,只是給不知道的朋友一個分享的途徑,高手和牛人請繞行吧。
正如你所知道的,你不能總是依賴蜘蛛引擎在訪問或者索引你的網(wǎng)站時能夠十分有效的運作。完全依靠他們自己的端口,蜘蛛會產(chǎn)生許多重復內(nèi)容,把一些重要頁面當成垃圾,索引本不應該展示給用戶的鏈接入口,還會有其他的問題。有一些工具可以讓我們能夠充分控制蜘蛛在網(wǎng)站內(nèi)部的活動,如meta robots標簽,robots.txt、canonical標簽等。
做網(wǎng)站之初就在站長之家論壇發(fā)現(xiàn)有人說關(guān)于蜘蛛爬行IIS返回200 0 64信息的相關(guān)文章,當時對這個根本不懂,所以沒有去具體了解,直到08年底我才開對這個64有點想知道的欲望,所以也在網(wǎng)上找了不少這方面的文章來看,自己也一直分析其中的奧妙,截止11年6月22日凌晨4點左
新站剛上線沒有權(quán)重,沒有更新的規(guī)律,沒有穩(wěn)定的用戶,更沒有強大的外鏈。這是站長們就想著要如何增加網(wǎng)站的權(quán)重,怎么去吸引蜘蛛爬行網(wǎng)站。一個網(wǎng)站做的再好,如果沒有蜘蛛來爬行網(wǎng)站,搜索引擎不收錄網(wǎng)站也是不容樂觀的事情。那新站如何吸引蜘蛛爬行網(wǎng)站?
翻開一篇已經(jīng)是2008年的老網(wǎng)易新聞,是講述關(guān)于淘寶網(wǎng)禁止百度蜘蛛爬行的相關(guān)報道,突然就想寫點什么東西。已經(jīng)三年時間過去了。淘寶的發(fā)展卻絲毫的未受到國內(nèi)最大的搜索引擎百度的影響。
很多站長經(jīng)常對于蜘蛛的爬行時間以及收錄時間都不太有把握??赡芎芏嗳苏J為蜘蛛爬行一天就來一兩次,或者上午來一次或者下午來一次,所以很多站長更新自己的文章都會選擇固定的時間來更新,認為這是對搜索引擎友好的一種表現(xiàn)。其實這種想法,有一定的道理的。