站長(zhǎng)的工作是設(shè)計(jì)精美的網(wǎng)站,為大眾展現(xiàn)網(wǎng)站豐富多彩的內(nèi)容。當(dāng)然,我們也希望精心設(shè)計(jì)的網(wǎng)站獲得理想的排名,這就要求我們?nèi)パ芯烤W(wǎng)站優(yōu)化排名規(guī)律,最大程度的獲得機(jī)會(huì)展現(xiàn)給客戶。然而,搜索引擎種類很多,有時(shí)候,我們對(duì)某一種搜索引擎的排名很好,卻在另外的搜索引擎上面獲得不到一樣的排名,原因是各個(gè)搜索引擎規(guī)則不一樣。為此,有人復(fù)制出相同的內(nèi)容以應(yīng)付不同搜索引擎的排名規(guī)則。然而,一旦搜索引擎發(fā)現(xiàn)站內(nèi)有大量“克隆”的頁面,就會(huì)給以懲罰,不收錄這些重復(fù)的頁面。另一方面,我們網(wǎng)站的內(nèi)容屬于個(gè)人私密文件,不想暴露在搜索引擎中。這時(shí),robot.txt文件就是為了解決這兩個(gè)問題。
一、搜索引擎和其對(duì)應(yīng)的User-Agent
那么,目前有哪些搜索引擎和其對(duì)應(yīng)的User-Agent呢?下面,我列出了一些,以供參考。
搜索引擎User-Agent
AltaVistaScooter
baiduBaiduspider
InfoseekInfoseek
HotbotSlurp
AOLSearchSlurp
ExciteArchitextSpider
GoogleGooglebot
GotoSlurp
LycosLycos
MSNSlurp
NetscapeGooglebot
NorthernLightGulliver
WebCrawlerArchitextSpider
IwonSlurp
FastFast
DirectHitGrabber
YahooWebPagesGooglebot
LooksmartWebPagesSlurp
二、robots基本概念
Robots.txt文件是網(wǎng)站的一個(gè)文件,它是給搜索引擎蜘蛛看的。搜索引擎蜘蛛爬行道我們的網(wǎng)站首先就是抓取這個(gè)文件,根據(jù)里面的內(nèi)容來決定對(duì)網(wǎng)站文件訪問的范圍。它能夠保護(hù)我們的一些文件不暴露在搜索引擎之下,從而有效的控制蜘蛛的爬取路徑,為我們站長(zhǎng)做好seo創(chuàng)造必要的條件。尤其是我們的網(wǎng)站剛剛創(chuàng)建,有些內(nèi)容還不完善,暫時(shí)還不想被搜索引擎收錄時(shí)。
robots.txt也可用在某一目錄中。對(duì)這一目錄下的文件進(jìn)行搜索范圍設(shè)定。
幾點(diǎn)注意:
網(wǎng)站必須要有一個(gè)robot.txt文件。
文件名是小寫字母。
當(dāng)需要完全屏蔽文件時(shí),需要配合meta的robots屬性。
三、robots.txt的基本語法
內(nèi)容項(xiàng)的基本格式:鍵:值對(duì)。
1)User-Agent鍵
后面的內(nèi)容對(duì)應(yīng)的是各個(gè)具體的搜索引擎爬行器的名稱。如百度是Baiduspider,谷歌是Googlebot。
一般我們這樣寫:
User-Agent:*
表示允許所有搜索引擎蜘蛛來爬行抓取。如果只想讓某一個(gè)搜索引擎蜘蛛來爬行,在后面列出名字即可。如果是多個(gè),則重復(fù)寫。
注意:User-Agent:后面要有一個(gè)空格。
在robots.txt中,鍵后面加:號(hào),后面必有一個(gè)空格,和值相區(qū)分開。
2)Disallow鍵
該鍵用來說明不允許搜索引擎蜘蛛抓取的URL路徑。
例如:Disallow:/index.php禁止網(wǎng)站index.php文件
Allow鍵
該鍵說明允許搜索引擎蜘蛛爬行的URL路徑
例如:Allow:/index.php允許網(wǎng)站的index.php
通配符*
代表任意多個(gè)字符
例如:Disallow:/*.jpg網(wǎng)站所有的jpg文件被禁止了。
結(jié)束符$
表示以前面字符結(jié)束的url。
例如:Disallow:/?$網(wǎng)站所有以?結(jié)尾的文件被禁止。
四、robots.txt實(shí)例分析
例1.禁止所有搜索引擎訪問網(wǎng)站的任何部分
User-agent:*
Disallow:/
例2.允許所有的搜索引擎訪問網(wǎng)站的任何部分
User-agent:*
Disallow:
例3.僅禁止Baiduspider訪問您的網(wǎng)站
User-agent:Baiduspider
Disallow:/
例4.僅允許Baiduspider訪問您的網(wǎng)站
User-agent:Baiduspider
Disallow:
例5.禁止spider訪問特定目錄
User-agent:*
Disallow:/cgi-bin/
Disallow:/tmp/
Disallow:/data/
注意事項(xiàng):1)三個(gè)目錄要分別寫。2)請(qǐng)注意最后要帶斜杠。3)帶斜杠與不帶斜杠的區(qū)別。
例6.允許訪問特定目錄中的部分url
我希望a目錄下只有b.htm允許訪問,怎么寫?
User-agent:*
Allow:/a/b.htm
Disallow:/a/
注:允許收錄優(yōu)先級(jí)要高于禁止收錄。
從例7開始說明通配符的使用。通配符包括("$"結(jié)束符;
"*"任意符)
例7.禁止訪問網(wǎng)站中所有的動(dòng)態(tài)頁面
User-agent:*
Disallow:/*?*
例8.禁止搜索引擎抓取網(wǎng)站上所有圖片
User-agent:*
Disallow:/*.jpg$
Disallow:/*.jpeg$
Disallow:/*.gif$
Disallow:/*.png$
Disallow:/*.bmp$
其他很多情況呢,需要具體情況具體分析。只要你了解了這些語法規(guī)則以及通配符的使用,相信很多情況是可以解決的。
五、metarobots標(biāo)簽
meta是網(wǎng)頁html文件的head標(biāo)簽里面的標(biāo)簽內(nèi)容。它規(guī)定了此html文件對(duì)與搜索引擎的抓取規(guī)則。與robot.txt不同,它只針對(duì)寫在此html的文件。
寫法:
。
…里面的內(nèi)容列出如下
noindex-阻止頁面被列入索引。
nofollow-阻止對(duì)于頁面中任何超級(jí)鏈接進(jìn)行索引。
noarchive-不保存該頁面的網(wǎng)頁快照。
nosnippet-不在搜索結(jié)果中顯示該頁面的摘要信息,同時(shí)不保存該頁面的網(wǎng)頁快照。
noodp-在搜索結(jié)果中不使用OpenDirectoryProject中的描述信息作為其摘要信息。
六、robots的測(cè)試與生成
在百度站長(zhǎng)工具中,添加網(wǎng)站后使用左側(cè)的網(wǎng)站分析工具的權(quán)限,就可以對(duì)網(wǎng)站的robots進(jìn)行測(cè)試和生成了,詳細(xì)見圖。
淺談網(wǎng)站優(yōu)化時(shí)robots的寫法
robots.txt和mtearobots的內(nèi)容就介紹到這里,相信大家對(duì)robot已經(jīng)有了比較詳細(xì)的了解。使用好robots對(duì)于我們網(wǎng)站的seo有著重要作用,做的好,可以有效的屏蔽那些我們不想讓搜索引擎抓取的頁面,也就是對(duì)用戶體驗(yàn)不高的頁面,從而將有利于關(guān)鍵詞排名的內(nèi)頁充分展示個(gè)客戶,獲得搜索引擎對(duì)站內(nèi)頁面的權(quán)重,從而有利于我們將關(guān)鍵詞排名做的更好。