亚洲高清在线不卡|色精品综合|91国内精品久久久久久|精品国产亚洲天堂|亚洲av午夜|91精品国产麻豆国产自产影视|欧美激情综合在线观看|麻豆亚洲国产

  • 0471-4599451
    您的當前位置:首頁 > 新聞動態(tài) > 呼搜動態(tài) >

    關(guān)于網(wǎng)站優(yōu)化robots.txt的相關(guān)知識介紹

    時間:2019-02-26 09:49    來源:呼搜網(wǎng)

    一.robots.txt具體作用
    1.對搜索引擎做出規(guī)定,抓取或者不抓取。
    2.由于有些信息規(guī)定了不讓抓取,所以可以保護到一些必要的信息,比如:網(wǎng)站后臺,用戶信息。
    3.節(jié)省搜索引擎抓取資源。
    二.robots.txt規(guī)則
    1.User-agent,用于告訴識別蜘蛛類型。比如,User-agent: Baiduspider 就是指百度蜘蛛。
    各類蜘蛛列舉如下:
    百度蜘蛛:Baiduspider
    谷歌機器人:GoogleBot
    360蜘蛛:360Spider
    搜狗蜘蛛:Sogou News Spider
    雅虎蜘蛛:“Yahoo! Slurp China” 或者 Yahoo!
    有道蜘蛛:Youdaobot 或者 Yodaobot
    Soso蜘蛛:Sosospider
    2.Allow,允許蜘蛛抓取指定目錄或文件,默認是允許抓取所有。
    3.Disallow,不允許蜘蛛抓取指定目錄或文件。
    4.通配符,“*”,匹配0或多個任意字符。
    5.終止符,“$”,可以匹配以指定字符結(jié)尾的字符。
    舉個例子:下面是一個wordpress程序的robots.txt
    User-agent: *
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /wp-content/plugins
    Disallow: /wp-content/themes
    Disallow: /feed
    Disallow: /*/feed
    Disallow: /comments/feed
    Disallow: /*.js$
    Disallow: /*?*
    Sitemap: http://www.znbo.com/sitemap.xml
    解釋:
    User-agent: *:對所有搜索引擎都使用下面的規(guī)則。
    Disallow: /wp-admin/:不讓蜘蛛抓取根目錄下的wp-admin文件夾。
    Disallow: /*.js$:不讓蜘蛛抓取根目錄下所有的js文件。
    Disallow: /*?*:不抓取所有的動態(tài)鏈接。
    Sitemap: http://www.znbo.com/sitemap.xml:給蜘蛛提供網(wǎng)站地圖,方便蜘蛛抓取網(wǎng)站內(nèi)容。
    三.robots.txt注意事項
    1.如果你希望搜索引擎收錄網(wǎng)站上所有的內(nèi)容,那么就不要建立robots.txt文件。
    2.如果同時存在動態(tài)和靜態(tài)鏈接,那么建議屏蔽動態(tài)鏈接。
    3.robots.txt只能是屏蔽站內(nèi)文件的,對站外文件沒有屏蔽功能。
    4.User-agent,Allow,Disallow,Sitemap的首字母都是大寫的。
    5.User-agent,Allow,Disallow,Sitemap的冒號后面都是有空格的,沒有寫空格直接寫接下來的內(nèi)容會出錯。
    6.網(wǎng)站通常會屏蔽搜索結(jié)果頁面。因為搜索結(jié)果頁和正常展示的內(nèi)容頁相比,標題和內(nèi)容上相同的,而這兩個頁面鏈接是不同的。那搜索引擎該將這篇文章歸屬于哪個內(nèi)鏈呢?這樣就會造成內(nèi)鏈之間相互競爭,造成內(nèi)部資源損耗。
    比如上面舉的例子,那個wordpress程序,在沒有設(shè)置偽靜態(tài),還是動態(tài)鏈接的時候,搜索結(jié)果頁面鏈接都包含有/?s=,而 標題和內(nèi)容 與 正常展示的動態(tài)鏈接內(nèi)容頁重復(fù),可以通過Disallow: /?=*來屏蔽搜索結(jié)果頁面。
    而現(xiàn)在那個wordpress程序已經(jīng)設(shè)置了偽靜態(tài),也設(shè)置了Disallow: /*?*,Disallow: /*?*本身就包含了Disallow: /?=*,所以Disallow: /?=*這句寫不寫都沒有關(guān)系
    7.建議屏蔽js文件。Disallow: /*.js$,以 .js 結(jié)尾的路徑統(tǒng)統(tǒng)被屏蔽,這樣就屏蔽了js文件。
    8.路徑是區(qū)分大小寫的。Disallow: /ab/ 和 Disallow: /Ab/ 是不一樣的。
    9.robots.txt會暴露網(wǎng)站相關(guān)目錄,寫robots.txt時要考慮到這一點。
    10.有些seo會將文件直接備份在服務(wù)器中,文件是 .zip 格式,然后在robots.txt中屏蔽。個人不建議這樣,這就是明顯告訴人家你的備份文件位置。建議文件和數(shù)據(jù)都備份到本地。
    11.一些特殊規(guī)則對比:
    ①Disallow: /和Disallow: / ab (/后面有個空格,再有ab)是一樣的,/后面多了個空格,蜘蛛之認空格前面那一段,就是Disallow: /,所以兩個都是屏蔽整站的。
    ②Disallow: /ab和Disallow: /ab*是一樣的。比如兩個都能屏蔽http://域名/ab,http://域名/abc,http://域名/abcd。
    ③Disallow: /ab/和Disallow: /ab是不一樣的。很明顯,Disallow: /ab范圍更廣,包含了Disallow: /ab/。因為Disallow: /ab/只能屏蔽http://域名/ab/,http://域名/ab/....這樣的路徑,也就是只能屏蔽ab目錄和ab目錄下的文件不被蜘蛛抓取。