百度現(xiàn)在喜歡在百度站長平臺上搞一些東西出來,想與站長們溝通,做SEO的人看了也會受益匪淺。接著分享關于解析方面的一些內(nèi)容。原文如下:
上周為站長朋友們獻出了VIP大講堂上海站中關于SPIDER抓取建庫方面的QA內(nèi)容,本周繼續(xù)將解析方面的QA內(nèi)容奉上。
問:我們的頁面本身就很大,會不會解析不出來?
答:頁面本身很大倒沒問題,趕集、安居客這些量都很大,沒有問題。我剛才說的例子,你每次都follow出來新鏈接,隨機把后面的參數(shù)去掉都不影響這個網(wǎng)頁的正常訪問,這種肯定有問題的。
問:剛才說對URL的長度有要求,那對每一段、就是目錄名的長度有沒有要求
答:沒有要求,我們是要求url從www開始到結束,總長度不超過1024個字節(jié)。
問:站內(nèi)重復內(nèi)容是怎么判斷的?文本內(nèi)容一樣結構不一樣,算不算重復?
答:算重復(百度會對比你整個網(wǎng)站框架,分析出)
問:假設是整個頁面全是Flash,如果我把一些欄目或者最新的內(nèi)容隱藏掉,不影響美觀隱藏掉,如果用hidden屬性能不能提取出來?CSS可不可以?
答:hidden可以提出來,但如果是注釋就不會管。CSS不可以。
問:頁面大小不超過1兆,是指頁面壓縮以前還是以后。
答:指頁面壓縮以后,不要超過1兆(一般頁面都不會這么大的)
問:我網(wǎng)站的信息已經(jīng)過時了,但網(wǎng)頁返回的是200,會受懲罰?為什么呀?
答:用戶在搜索結果里點了你的結果,導流導到你的網(wǎng)站,但沒什么可看的,對用戶沒有用,百度當然不喜歡。
問:現(xiàn)在我們很多網(wǎng)站,為了讓用戶覺得有意思,內(nèi)容沒了就放一張圖片,寫一些有意思的話,什么“工程師去哪啦”之類的,對百度友好不?
答:最好不要用,我知道站點是想讓百度當內(nèi)容死鏈來識別,但內(nèi)容死鏈識別起來是有準確率和召回率風險的。
問:我們團購網(wǎng)站的確會有過期團購的頁面,會受懲罰嗎
答:如果量特別大、點擊量很大的話肯定會有懲罰的。有些可以當內(nèi)容死鏈被分析出來,如果分析不出來,會被一些其他的策略挖出來,會有這樣的問題。(說白了就是別讓網(wǎng)站跳出率太高就行,跳出率主要是根據(jù)兩次搜索或者在百度上點擊的間隔時間判斷的)
問:剛才說資訊內(nèi)容頁面,上面有個發(fā)布時間好,那如果頁面上沒有時間呢?
答:那我們往往是按當時抓取的時間來做判定。(發(fā)布時間不準確的話是會按照抓取時間判斷的)
問:評論里面時間重要嗎。
答:百度更重視主體內(nèi)容的時間,評論不算主體內(nèi)容。
問:我們是個平臺,很多產(chǎn)品其實只是一個型號變更了,其實顏色都是一模一樣的,對蜘蛛而言僅僅只是幾個字符,會被識別為重復嗎
答:如果是一個產(chǎn)品的結構化信息的話,應該不會被認為是重復。如果你是簡單內(nèi)容摘要的方式進行介紹的話,可能會存在重復問題。(盡量產(chǎn)品頁區(qū)別讓大一些)
問:靜態(tài)URL和動態(tài)URL區(qū)別大嗎?
答:不大,我們現(xiàn)在認為靜態(tài)和動態(tài)都一樣的,因為從url上面他能夠識別出來,但是抓取回來的東西不太一樣。所以現(xiàn)在認為無論你是靜態(tài)還是動態(tài),我們都認為同樣都是url來對待。(以前認為靜態(tài)的更好,但是現(xiàn)在百度對于連接只要是不太長,都認為沒什么區(qū)別。但是純靜態(tài)生成的或者偽靜態(tài)確實有其他方面的優(yōu)勢,比如說用戶更容易記憶,從這個角度上考慮還是會對網(wǎng)站的用戶體驗提升有幫助的,另外靜態(tài)生成的響應速度會快一些)