成都網(wǎng)站優(yōu)化|成都SEO|成都搜索引擎優(yōu)化|成都網(wǎng)站SEO專業(yè)公司【思為網(wǎng)絡(luò)】

當(dāng)一個(gè)搜索蜘蛛訪問一個(gè)站點(diǎn)時(shí)，它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt，如果存在，搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來確定訪問的范圍；如果該文件不存在，所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁面。
robots.txt必須放置在一個(gè)站點(diǎn)的根目錄下，而且文件名必須全部小寫。

當(dāng)前位置: 博客首頁 >> Google優(yōu)化 >> 怎樣向百度提交站點(diǎn)地圖文件?robots.txt寫法詳解 rss

怎樣向百度提交站點(diǎn)地圖文件?robots.txt寫法詳解

由成都網(wǎng)站優(yōu)化在 2010-07-27 發(fā)表，評(píng)論(0)，閱讀(0)

怎樣向百度提交站點(diǎn)地圖文件?

我們知道可以通過Google 網(wǎng)站管理員工具向 Google 提交站點(diǎn)地圖 Sitemap，雅虎/MSN都有相應(yīng)的網(wǎng)站管理員工具以提交站點(diǎn)地圖,具體請(qǐng)查詢:各大搜索引擎網(wǎng)站站長管理員工具詳解:GOOGLE管理員工具-YAHOO管理員工具-BING管理員工具 http://www.320999.cn/seoblog/article45.html

而百度還沒有相應(yīng)的網(wǎng)站管理員工具以供提交站點(diǎn)地圖,有待完善.那么如何向百度搜索引擎提交站點(diǎn)地圖Sitemap文件？

搜索引擎都遵循一樣的 Sitemap 協(xié)議，baidu Sitemap 內(nèi)容和形式可以和 Google Sitemap 完全一樣。但因?yàn)榘俣冗€沒開通類似 Google 網(wǎng)站管理員工具的提交后臺(tái)，所以，我們需要采用以下方式提交"baidu Sitemap" 。

我們可以通過在 robots.txt 文件中添加以下代碼行來告訴搜索引擎 Sitemap 的存放位置。包括 XML Sitemap 和文本形式的 Sitemap。

Sitemap:<sitemap_location>

<sitemap_location> 填寫 Sitemap 的完整網(wǎng)址

如：Sitemap: http://www.320999.cn/sitemap2010.xml

如果有很多個(gè).xml 或 .txt 文件，則你可以先建立一個(gè)索引文件，把這些.xml 或 .txt 文件的完整網(wǎng)址列在其中。<sitemap_location> 中填寫完整的該索引文件的網(wǎng)址。

以下是思為網(wǎng)絡(luò)網(wǎng)站http://www.320999.cn 的robots.txt 文件:

*****************************
允許所有搜索引擎收錄所有頁面
添加網(wǎng)站站點(diǎn)地圖文件
*****************************

User-agent: *
Allow: /
Sitemap: http://www.320999.cn/sitemap2010.xml

什么是robots.txt？

　　robots.txt是搜索引擎中訪問網(wǎng)站的時(shí)候要查看的第一個(gè)文件。Robots.txt文件告訴蜘蛛程序在服務(wù)器上什么文件是可以被查看的。

　　當(dāng)一個(gè)搜索蜘蛛訪問一個(gè)站點(diǎn)時(shí)，它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt，如果存在，搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來確定訪問的范圍；如果該文件不存在，所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁面。

　　robots.txt必須放置在一個(gè)站點(diǎn)的根目錄下，而且文件名必須全部小寫。

　　語法：最簡單的 robots.txt 文件使用兩條規(guī)則：

　　? User-Agent: 適用下列規(guī)則的漫游器
　　? Disallow: 要攔截的網(wǎng)頁

具體語法分析：其中#后面文字為說明信息；User-agent:后面為搜索機(jī)器人的名稱，后面如果是*，則泛指所有的搜索機(jī)器人；Disallow:后面為不允許訪問的文件目錄。

例如:

允許所有的搜索引擎蜘蛛robot訪問

User-agent: *
Allow:

或者也可以建一個(gè)空文件 “/robots.txt” file

禁止所有搜索引擎訪問網(wǎng)站的任何部分

User-agent: *
Disallow: /

禁止所有搜索引擎訪問網(wǎng)站的幾個(gè)部分（下例中的images/inc/目錄）

User-agent: *
Disallow: /images/
Disallow: /inc/

禁止某個(gè)搜索引擎的訪問（例如:禁止百度收錄）

User-agent: Baiduspider
Disallow: /

只允許某個(gè)搜索引擎的訪問（例如只允許百度收錄）

User-agent: Baiduspider
Disallow:

User-agent: *
Disallow: /

常見搜索引擎蜘蛛

百度蜘蛛: Baiduspider

GOOGLE蜘蛛:Googlebot

GOOGLE ADWORDS右側(cè)推廣蜘蛛:adsbot-google

有道蜘蛛:youdaobot

微軟蜘蛛:msnbot

Yahoo雅虎蜘蛛:yahoo-mmcrawler

Alexa 蜘蛛:alexa robot

www.dotnetdotcom.org蜘蛛:dotbot

www.exabot.com蜘蛛:exabot

Survey蜘蛛:survey

openbot 蜘蛛:openbot

inktomi 蜘蛛:inktomi

網(wǎng)站管理員必須使蜘蛛程序遠(yuǎn)離某些服務(wù)器上的目錄——保證服務(wù)器性能。比如：大多數(shù)網(wǎng)站服務(wù)器都有程序儲(chǔ)存在“cgi-bin”目錄下，因此在robots.txt文件中加入“Disallow: /cgi-bin”是個(gè)好主意，這樣能夠避免將所有程序文件被蜘蛛索引，可以節(jié)省服務(wù)器資源。一般網(wǎng)站中不需要蜘蛛抓取的文件有：后臺(tái)管理文件、程序腳本、附件、數(shù)據(jù)庫文件、編碼文件、樣式表文件、模板文件、導(dǎo)航圖片和背景圖片等等。

討論:通過robots.txt列出限制搜索引擎進(jìn)行目錄抓取,這樣會(huì)將網(wǎng)站管理后臺(tái)及一些重要的文件目錄暴露出來,這將給網(wǎng)站攻擊者以入口,為了保證網(wǎng)站的安全,思為網(wǎng)絡(luò)認(rèn)為這種寫法不是很可取,可以變更為:允許搜索引擎抓取指定的文件夾,如果有新的目錄生成,則需要修改robots.txt文件來完善.如果是企業(yè)網(wǎng)站,個(gè)人建議還是允許抓取所有目錄.

如果大家有更好的方法,歡迎與我們聯(lián)系,共同交流學(xué)習(xí)!本文原創(chuàng),轉(zhuǎn)載請(qǐng)注明出處!

Tags：站點(diǎn)地圖，robots，搜索引擎

思為網(wǎng)絡(luò)騰訊企業(yè)微博，請(qǐng)關(guān)注我們：

已有位網(wǎng)友對(duì)“怎樣向百度提交站點(diǎn)地圖文件?robots.txt寫法詳解”發(fā)表評(píng)論。

婷婷久久综合九色综合绿巨人_日本一区二区视频在线_性做久久久久久久免费看_天天艹久久_av三级_欧美一区二区性

成都網(wǎng)站優(yōu)化|成都SEO|成都搜索引擎優(yōu)化|成都網(wǎng)站SEO專業(yè)公司【思為網(wǎng)絡(luò)】

怎樣向百度提交站點(diǎn)地圖文件?robots.txt寫法詳解

分類導(dǎo)航

歸檔文章

最新評(píng)論

最新文章

熱門文章

相關(guān)文章

Tags標(biāo)簽

友情鏈接