做網(wǎng)站/做SEO/解決各類網(wǎng)站問題，直接與技術(shù)談！

熱門閱讀

詳細(xì)內(nèi)容

當(dāng)前位置：首頁 > SEO知識(shí) > 詳情

淺談網(wǎng)站優(yōu)化時(shí)robots的寫法

發(fā)布時(shí)間：2014-01-14 來源：本站原創(chuàng) 作者：野狼SEO團(tuán)隊(duì) 閱讀：651次

　　站長(zhǎng)的工作是設(shè)計(jì)精美的網(wǎng)站，為大眾展現(xiàn)網(wǎng)站豐富多彩的內(nèi)容。當(dāng)然，我們也希望精心設(shè)計(jì)的網(wǎng)站獲得理想的排名，這就要求我們?nèi)パ芯烤W(wǎng)站優(yōu)化排名規(guī)律，最大程度的獲得機(jī)會(huì)展現(xiàn)給客戶。然而，搜索引擎種類很多，有時(shí)候，我們對(duì)某一種搜索引擎的排名很好，卻在另外的搜索引擎上面獲得不到一樣的排名，原因是各個(gè)搜索引擎規(guī)則不一樣。為此，有人復(fù)制出相同的內(nèi)容以應(yīng)付不同搜索引擎的排名規(guī)則。然而，一旦搜索引擎發(fā)現(xiàn)站內(nèi)有大量“克隆”的頁面，就會(huì)給以懲罰，不收錄這些重復(fù)的頁面。另一方面，我們網(wǎng)站的內(nèi)容屬于個(gè)人私密文件，不想暴露在搜索引擎中。這時(shí)，robot.txt文件就是為了解決這兩個(gè)問題。

　　一、搜索引擎和其對(duì)應(yīng)的User-Agent

　　那么，目前有哪些搜索引擎和其對(duì)應(yīng)的User-Agent呢?下面，我列出了一些，以供參考。

　　搜索引擎User-Agent

　　AltaVistaScooter

　　baiduBaiduspider

　　InfoseekInfoseek

　　HotbotSlurp

　　AOLSearchSlurp

　　ExciteArchitextSpider

　　GoogleGooglebot

　　GotoSlurp

　　LycosLycos

　　MSNSlurp

　　NetscapeGooglebot

　　NorthernLightGulliver

　　WebCrawlerArchitextSpider

　　IwonSlurp

　　FastFast

　　DirectHitGrabber

　　YahooWebPagesGooglebot

　　LooksmartWebPagesSlurp

　　二、robots基本概念

　　Robots.txt文件是網(wǎng)站的一個(gè)文件，它是給搜索引擎蜘蛛看的。搜索引擎蜘蛛爬行道我們的網(wǎng)站首先就是抓取這個(gè)文件，根據(jù)里面的內(nèi)容來決定對(duì)網(wǎng)站文件訪問的范圍。它能夠保護(hù)我們的一些文件不暴露在搜索引擎之下，從而有效的控制蜘蛛的爬取路徑，為我們站長(zhǎng)做好seo創(chuàng)造必要的條件。尤其是我們的網(wǎng)站剛剛創(chuàng)建，有些內(nèi)容還不完善，暫時(shí)還不想被搜索引擎收錄時(shí)。

　　robots.txt也可用在某一目錄中。對(duì)這一目錄下的文件進(jìn)行搜索范圍設(shè)定。

　　幾點(diǎn)注意：

　　網(wǎng)站必須要有一個(gè)robot.txt文件。

　　文件名是小寫字母。

　　當(dāng)需要完全屏蔽文件時(shí)，需要配合meta的robots屬性。

　　三、robots.txt的基本語法

　　內(nèi)容項(xiàng)的基本格式：鍵:值對(duì)。

　　1)User-Agent鍵

　　后面的內(nèi)容對(duì)應(yīng)的是各個(gè)具體的搜索引擎爬行器的名稱。如百度是Baiduspider，谷歌是Googlebot。

　　一般我們這樣寫：

　　User-Agent:*

　　表示允許所有搜索引擎蜘蛛來爬行抓取。如果只想讓某一個(gè)搜索引擎蜘蛛來爬行，在后面列出名字即可。如果是多個(gè)，則重復(fù)寫。

　　注意：User-Agent:后面要有一個(gè)空格。

　　在robots.txt中，鍵后面加：號(hào)，后面必有一個(gè)空格，和值相區(qū)分開。

　　2)Disallow鍵

　　該鍵用來說明不允許搜索引擎蜘蛛抓取的URL路徑。

　　例如：Disallow:/index.php禁止網(wǎng)站index.php文件

　　Allow鍵

　　該鍵說明允許搜索引擎蜘蛛爬行的URL路徑

　　例如：Allow:/index.php允許網(wǎng)站的index.php

　　通配符*

　　代表任意多個(gè)字符

　　例如：Disallow:/*.jpg網(wǎng)站所有的jpg文件被禁止了。

　　結(jié)束符$

　　表示以前面字符結(jié)束的url。

　　例如：Disallow:/?$網(wǎng)站所有以?結(jié)尾的文件被禁止。

　　四、robots.txt實(shí)例分析

　　例1.禁止所有搜索引擎訪問網(wǎng)站的任何部分

　　User-agent:*

　　Disallow:/

　　例2.允許所有的搜索引擎訪問網(wǎng)站的任何部分

　　User-agent:*

　　Disallow:

　　例3.僅禁止Baiduspider訪問您的網(wǎng)站

　　User-agent:Baiduspider

　　Disallow:/

　　例4.僅允許Baiduspider訪問您的網(wǎng)站

　　User-agent:Baiduspider

　　Disallow:

　　例5.禁止spider訪問特定目錄

　　User-agent:*

　　Disallow:/cgi-bin/

　　Disallow:/tmp/

　　Disallow:/data/

　　注意事項(xiàng)：1)三個(gè)目錄要分別寫。2)請(qǐng)注意最后要帶斜杠。3)帶斜杠與不帶斜杠的區(qū)別。

　　例6.允許訪問特定目錄中的部分url

　　我希望a目錄下只有b.htm允許訪問，怎么寫?

　　User-agent:*

　　Allow:/a/b.htm

　　Disallow:/a/

　　注：允許收錄優(yōu)先級(jí)要高于禁止收錄。

　　從例7開始說明通配符的使用。通配符包括("$"結(jié)束符;

　　"*"任意符)

　　例7.禁止訪問網(wǎng)站中所有的動(dòng)態(tài)頁面

　　User-agent:*

　　Disallow:/*?*

　　例8.禁止搜索引擎抓取網(wǎng)站上所有圖片

　　User-agent:*

　　Disallow:/*.jpg$

　　Disallow:/*.jpeg$

　　Disallow:/*.gif$

　　Disallow:/*.png$

　　Disallow:/*.bmp$

　　其他很多情況呢，需要具體情況具體分析。只要你了解了這些語法規(guī)則以及通配符的使用，相信很多情況是可以解決的。

　　五、metarobots標(biāo)簽

　　meta是網(wǎng)頁html文件的head標(biāo)簽里面的標(biāo)簽內(nèi)容。它規(guī)定了此html文件對(duì)與搜索引擎的抓取規(guī)則。與robot.txt不同，它只針對(duì)寫在此html的文件。

　　寫法：

　　。

　　…里面的內(nèi)容列出如下

　　noindex-阻止頁面被列入索引。

　　nofollow-阻止對(duì)于頁面中任何超級(jí)鏈接進(jìn)行索引。

　　noarchive-不保存該頁面的網(wǎng)頁快照。

　　nosnippet-不在搜索結(jié)果中顯示該頁面的摘要信息，同時(shí)不保存該頁面的網(wǎng)頁快照。

　　noodp-在搜索結(jié)果中不使用OpenDirectoryProject中的描述信息作為其摘要信息。

　　六、robots的測(cè)試與生成

　　在百度站長(zhǎng)工具中，添加網(wǎng)站后使用左側(cè)的網(wǎng)站分析工具的權(quán)限，就可以對(duì)網(wǎng)站的robots進(jìn)行測(cè)試和生成了，詳細(xì)見圖。

　　淺談網(wǎng)站優(yōu)化時(shí)robots的寫法

　　robots.txt和mtearobots的內(nèi)容就介紹到這里，相信大家對(duì)robot已經(jīng)有了比較詳細(xì)的了解。使用好robots對(duì)于我們網(wǎng)站的seo有著重要作用，做的好，可以有效的屏蔽那些我們不想讓搜索引擎抓取的頁面，也就是對(duì)用戶體驗(yàn)不高的頁面，從而將有利于關(guān)鍵詞排名的內(nèi)頁充分展示個(gè)客戶，獲得搜索引擎對(duì)站內(nèi)頁面的權(quán)重，從而有利于我們將關(guān)鍵詞排名做的更好。