我們專注于SEO網(wǎng)站搜索引擎優(yōu)化
robots是搜索引擎爬蟲協(xié)議,也就是你網(wǎng)站和爬蟲的協(xié)議。
簡單的理解:robots是告訴搜索引擎,你可以爬取收錄我的什么頁面,你不可以爬取和收錄我的那些頁面。robots很好的控制網(wǎng)站那些頁面可以被爬取,那些頁面不可以被爬取。
主流的搜索引擎都會遵守robots協(xié)議。并且robots協(xié)議是爬蟲爬取網(wǎng)站第一個需要爬取的文件。爬蟲爬取robots文件后,會讀取上面的協(xié)議,并準(zhǔn)守協(xié)議爬取網(wǎng)站,收錄網(wǎng)站。
robots文件是一個純文本文件,也就是常見的.txt文件。在這個文件中網(wǎng)站管理者可以聲明該網(wǎng)站中不想被robots訪問的部分,或者指定搜索引擎只收錄指定的內(nèi)容。因此,robots的優(yōu)化會直接影響到搜索引擎對網(wǎng)站的收錄情況。
robots文件如下圖
存放目錄
robots文件必須要存放在網(wǎng)站的根目錄下。也就是 域名/robots.txt 是可以訪問文件的。你們也可以嘗試訪問別人網(wǎng)站的robots文件。 輸入域名/robots.txt 即可訪問。
如下圖
robots寫作語法
首先我們來看一個范例(下圖)
user-agent這句代碼表示那個搜索引擎準(zhǔn)守協(xié)議。user-agent后面為搜索機器人名稱,如果是“*”號,則泛指所有的搜索引擎機器人;案例中顯示“User-agent: *” 表示所有搜索引擎準(zhǔn)守,*號表示所有。
Disallow是禁止爬取的意思。Disallow后面是不允許訪問文件目錄(你可以理解為路徑中包含改字符、都不會爬?。?。案例中顯示“Disallow: /?s*” 表示路徑中帶有“/?s”的路徑都不能爬取。 *代表匹配所有。 這里需要主機。 Disallow空格一個,/必須為開頭。
如果“Disallow: /” 因為所有路徑都包含/ ,所以這表示禁止爬取網(wǎng)站所有內(nèi)容。
如果沒有被禁止到的路徑,默認為可以被爬取。
關(guān)于robots的注意事項
1、不要禁止爬蟲爬取網(wǎng)站的所有,因為從經(jīng)驗來看,如果屏蔽一次,解封后好一段時間爬蟲都不會來你網(wǎng)站,收錄成為問題。
2、代碼后需要【冒號+空格+斜桿】 ,比如“Disallow: /*?* ”
3、當(dāng)網(wǎng)站為靜態(tài)路徑時,需要屏蔽掉所有動態(tài)鏈接。網(wǎng)站中存在一種鏈接被收錄即可,避免一個頁面2個鏈接。代碼如下“Disallow: /*?* ”表示禁止所有帶 ?號的網(wǎng)址被爬取。通常動態(tài)網(wǎng)址帶有“?”“=”等。
4、根據(jù)自己網(wǎng)站情況定,屏蔽不需要收錄的網(wǎng)址。
北京愛品特SEO網(wǎng)站優(yōu)化提供專業(yè)的網(wǎng)站SEO診斷服務(wù)、SEO顧問服務(wù)、SEO外包服務(wù),咨詢電話或微信:13811777897 袁先生 可免費獲取SEO網(wǎng)站診斷報告。
北京網(wǎng)站優(yōu)化公司 >> SEO資訊 >> SEO技術(shù)技巧 >> 關(guān)于網(wǎng)站robots協(xié)議,看這篇就夠了 本站部分內(nèi)容來源于互聯(lián)網(wǎng),如有版權(quán)糾紛或者違規(guī)問題,請聯(lián)系我們刪除,謝謝!
售后響應(yīng)及時
全國7×24小時客服熱線數(shù)據(jù)備份
更安全、更高效、更穩(wěn)定價格公道精準(zhǔn)
項目經(jīng)理精準(zhǔn)報價不弄虛作假合作無風(fēng)險
重合同講信譽,無效全額退款加微信1v1咨詢
13811777897