robots協議也稱爬蟲協議、爬蟲規則等,是指網站可建立一個robots.txt文件來告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取,而搜索引擎則通過讀取robots.txt文件來識別這個頁面是否允許被抓取。但是,這個robots協議不是防火墻,也沒有強制執行力,搜索引擎完全可以忽視robots.txt文件去抓取網頁的快照。如果想單獨定義搜索引擎的漫游器訪問子目錄時的行為,那么可以將自定的設置合并到根目錄下的robots.txt,或者使用robots元數據(Metadata,又稱元數據)。
Robots協議是國際互聯網界通行的道德規范,基于以下原則建立:
1、搜索技術應服務于人類,同時尊重信息提供者的意愿,并維護其隱私權;
2、網站有義務保護其使用者的個人信息和隱私不被侵犯。
robots.txt 禁止百度蜘蛛抓取,robots.txt內容如下:
User-agent: Baiduspider
Disallow: /
禁止所有搜索引擎訪問網站的任何部分,robots.txt內容如下:
User-agent: *
Disallow: /
|