11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享??靵眚v訊云選購吧!
谷歌希望將發(fā)展數(shù)十年的 robots.txt 解析器開源,以推動 REP 成為搜索引擎爬蟲的行業(yè)標(biāo)準(zhǔn)。機(jī)器人排除協(xié)議(REP)是荷蘭軟件工程師 Martijn Koster 于 1994 年提出的一個標(biāo)準(zhǔn),幾乎已經(jīng)成為了網(wǎng)站不希望被搜索引擎收錄的注釋的事實(shí)標(biāo)準(zhǔn)。
谷歌希望將幾十年前的拒絕蜘蛛?yún)f(xié)議 (REP)變成為官方互聯(lián)網(wǎng)標(biāo)準(zhǔn)。為了推動該項(xiàng)計(jì)劃,谷歌正在制作自己的 robots.txt 解析器開源。
筆者在百度站長平臺檢測自己的博客時,出于優(yōu)化的慣性,對博客的Rbots進(jìn)行了檢測,進(jìn)而在百度搜索了wordpress博客robots的寫法設(shè)置問題,看了很多wordpress高手對robots優(yōu)化設(shè)置后,終于有所領(lǐng)悟,在此也分享給一些wordpress新手看看如何去善用robots.txt對wordpress博客進(jìn)行優(yōu)化。
我們知道搜索引擎的產(chǎn)品線很長,多個產(chǎn)品之間總不可能完全完美地配合,因此在robots.txt的限制收錄那里就產(chǎn)生了一個可以被利用的漏洞。
筆者網(wǎng)站7月底—9月底不是進(jìn)行了一次修改么,那么我在這里分享一下我修改過程中博客受到的影響,希望對一些博主站長朋友有所幫助。
一個合格的網(wǎng)站,必須在根目錄下包含一下robots.txt文件,這個文件的作用對所有運(yùn)營網(wǎng)站的朋友來說并不陌生,網(wǎng)上也提供了很多制作robots.txt文件的方法和軟件,可謂相當(dāng)方便。但是,你真的知道網(wǎng)站的robots.txt文件設(shè)置是否合理,哪些文件或者目錄需要屏蔽、哪些設(shè)置方法對網(wǎng)站運(yùn)營有好處?
今天來說一個大家十分熟悉的東西robot文件,相信大家對這個不陌生吧!但是我發(fā)現(xiàn)很多站長朋友們忘記了這個文件的重要性,而且在設(shè)置的時候很隨意。這種理解是錯誤的。
robots.txt文件可以有效的屏蔽搜索引擎抓取我們不需要被抓取的頁面和網(wǎng)站源文件,其中的好處是限制搜索引擎過多的抓取不必要的內(nèi)容,減少搜索引擎蜘蛛進(jìn)行不必要的網(wǎng)站爬尋分散,也是為了讓我們的網(wǎng)站不必要的內(nèi)容不在搜索引擎被收錄,不讓別人搜索到。 其中什么樣的文件會被限制抓取呢?
安裝完wordpress站點(diǎn)后關(guān)于robots.txt文件的書寫一直煩惱著很多站長,Robots.txt文件協(xié)議又叫搜索引擎機(jī)器人協(xié)議,搜索引擎爬蟲在爬取網(wǎng)站的時候,首先會看網(wǎng)站根目錄下是否有robots.txt文件,然后遵循robots.txt協(xié)議爬取網(wǎng)站主希望搜索引擎爬取的內(nèi)容。robots.txt文件意在告訴搜索引擎爬蟲哪些頁面可以爬取,哪些頁面不能爬取,可以有效的保護(hù)用戶的隱私,同時也有利于節(jié)省蜘蛛的帶寬,從而讓蜘蛛爬取更加容易,促進(jìn)收錄。
百度站長平臺提供了一個很好的robots.txt自動生成工具,利用它我們可以很方便的寫出robots.txt,通過robots.txt阻止搜索引擎收錄你不想要被收錄的頁面及目錄,還可以阻止及引導(dǎo)蜘蛛爬行更多的頁面,減少蜘蛛的爬行量,提高蜘蛛的爬行效率,有效的提升更多的頁面被收錄。