<wbr id="2qsw9"><noscript id="2qsw9"></noscript></wbr>

<samp id="2qsw9"><tt id="2qsw9"></tt></samp>
    <code id="2qsw9"></code>
    <option id="2qsw9"></option>
  • <samp id="2qsw9"><ruby id="2qsw9"><nobr id="2qsw9"></nobr></ruby></samp>

    迅優網絡專注高端網站建設10年!
    濰坊網站建設免費咨詢熱線:0532-88983785收藏我們|聯系我們|迅優主站

    濰坊網站優化中robots.txt文檔要如何設置?

    時間:2016-06-07 來源: 作者:admin 點擊:17543 次

    濰坊網站優化中robots.txt文檔要如何設置?

    相信有過青島網站優化經歷的seo從業者對于robots.txt文檔并不陌生,那么您真的了解robots嗎?您會設置robots嗎?下面讓青島網站建設公司-迅優網絡來為您分析一下: 1、什么是robots.txt文件 搜索引擎有自己的搜索習慣,當它對一個網站進行搜索時,哪些目錄和文件要看,哪些不用看,它有自己的算法。我們也可以自己建立一個robots.txt文 件,告訴搜索引擎的機器人哪些可以被收錄,哪些不需要收錄。這樣可以節約自己網站的資源,提高被搜索引擎收錄的效率。 2、robots.txt放置位置 robots.txt必須放置在一個站點的根目錄下,而且文件名必須全部小寫。 3、robots相關語法 1)User-agent: 適用下列規則的漫游器(搜索引擎)   該項的值用于描述搜索引擎robot的名字。在robots.txt文件中,如果有多條User-agent記錄,就說明有多個robot會受到 robots.txt的限制,對該文件來說,至少要有一條User-agent記錄。如果該項的值設為*,則對任何robot均有效。 ● Google爬蟲名稱: Googlebot ● 百度(Baidu)爬蟲名稱:Baiduspider ● 雅虎(Yahoo)爬蟲名稱:Yahoo Slurp ● 有道(Yodao)蜘蛛名稱:YodaoBot ● 搜狗(sogou)蜘蛛名稱:sogou spider ● MSN的蜘蛛名稱(微軟最新搜索引擎Bing蜘蛛名也是這個):Msnbot 2)Disallow: 拒絕訪問的目錄或文件   該項的值用于描述不希望被訪問的一組URL,這個值可以是一條完整的路徑,也可以是路徑的非空前綴,以Disallow項的值開頭的URL不會被robot訪問。 例如: Disallow:/seo.html 表示禁止robot訪問文件 /seo.html 3)Allow:允許訪問的目錄或文件 該項的值用于描述希望被訪問的一組URL,與Disallow項相似,這個值可以是一條完整的路徑,也可以是路徑的前綴,以Allow項的值開頭的URL是允許robot訪問的。 例如: Allow:/hibaidu/ 表示允許robot訪問目錄 /hibaidu/ 4)使用通配符"*"和"$":    $ 匹配行結束符。    * 匹配0或多個任意字符。 ? 匹配1個任意字符 5)robots.txt文件里還可以直接包括在sitemap文件的鏈接。 Sitemap:http://www.lemigift.com/sitemaps.xml 4、robots.txt文件用法舉例 1)、攔截所有的機器人訪問網站 User-agent: * Disallow: / 2)、允許所有的機器人訪問網站 User-agent: * Allow: / 3)、禁止所有機器人訪問特定目錄: User-agent: * Disallow: /public/ Disallow: /images/ Disallow: /temp/ Disallow: /include/ 4)、禁止特定搜索引擎蜘蛛訪問特定目錄(這里我們以百度蜘蛛為例說明) User-agent: Baiduspider Disallow: /test/ 上面的robots.txt語法示例的意思是禁止百度蜘蛛爬行根目錄下的test目錄 5)、僅禁止Baiduspider抓取.jpg格式圖片 User-agent: Baiduspider Disallow: .jpg$    6)、僅允許訪問以".htm"為后綴的URL。 User-agent: * Allow: .htm$ Disallow: /    7)、禁止訪問網站中所有的動態頁面 User-agent: * Disallow: /*?* 5、常見robots.txt錯誤    1)、把多個禁止命令放在一行中:    錯誤地寫法    Disallow: /css/ /cgi-bin/ /images/    正確的寫法    Disallow: /css/    Disallow: /cgi-bin/    Disallow: /images/ 2)、表示目錄時,忘記了斜杠/    錯誤的寫法    User-agent: Baiduspider    Disallow: css    正確的寫法    User-agent: Baiduspider    Disallow: /css/ 6、robots meta網頁標簽寫法 Robots META標簽則主要是針對一個個具體的頁面。和其他的META標簽(如使用的語言、頁面的描述、關鍵詞等)一樣,Robots META標簽也是放在頁面的<head></head>中,專門用來告訴搜索引擎ROBOTS如何抓取該頁的內容。 Robots META標簽的寫法: Robots META標簽中沒有大小寫之分,name=”Robots”表示所有的搜索引擎,可以針對某個具體搜索引擎寫為name=”BaiduSpider”。 content部分有四個指令選項:index、noindex、follow、nofollow,指令間以“,”分隔。 INDEX 指令告訴搜索機器人抓取該頁面; FOLLOW 指令表示搜索機器人可以沿著該頁面上的鏈接繼續抓取下去; Robots Meta標簽的缺省值是INDEX和FOLLOW,只有inktomi除外,對于它,缺省值是INDEX,NOFOLLOW。 這樣,一共有四種組合: <META NAME="ROBOTS" CONTENT="INDEX,FOLLOW"> <META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW"> <META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW"> <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"> 其中 <META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以寫成<META NAME="ROBOTS" CONTENT="ALL">; <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以寫成<META NAME="ROBOTS" CONTENT="NONE"> 目前看來,絕大多數的搜索引擎機器人都遵守robots.txt的規則,而對于Robots META標簽,目前支持的并不多,但是正在逐漸增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE還增加了一個指令“archive”,可以 限制GOOGLE是否保留網頁快照。例如: <META NAME="googlebot" CONTENT="index,follow,noarchive"> 表示抓取該站點中頁面并沿著頁面中鏈接抓取,但是不在GOOLGE上保留該頁面的網頁快照。 (責任編輯:admin)
    亚洲色欲色欲综合网久久久久