禁止搜尋引擎收錄學校網頁的方法
1. 所需檔案:以記事本建立,檔名為robots.txt之文字檔即可。
當貴校網站包含不希望被搜尋引擎收錄的內容時,才需要使用robots.txt文字檔。沒有建立robots.txt文字檔或者建立一個內容為空的robots.txt文字檔,搜尋引擎將收錄網站上所有內容。
以下為robots.txt範例:左邊欄位為範例說明,右邊欄位為在文字檔內所需填寫的文字
範例說明(例:http://www.abc.tyc.edu.tw) |
robots.txt文字檔內容 |
例1. 禁止所有搜尋引擎訪問貴校網站的任何部分 |
User-agent: * |
例2. 允許所有的robot訪問 |
文字檔內容空白即可 |
例3. 僅禁止特定搜尋引擎(例baiduspider)訪問貴校網站 |
User-agent:baiduspider |
例4. 僅允許特定搜尋引擎(例baiduspider)訪問貴校網站 |
User-agent: baiduspider |
例5.禁止spider訪問特定目錄 貴校網站若有三個目錄禁止被搜尋,則每個目錄必須分開聲明,而不能寫成"Disallow: /cgi-bin/ /tmp/"。 |
User-agent: * |
例6. 允許訪問特定目錄中的部分url (該目錄下see開頭將允許搜尋引擎搜尋) |
User-agent: * |
例7. 使用"*"限制訪問url 禁止訪問/cgi-bin/目錄下的所有以".htm"為結尾的URL (包含子目錄)。 http://www.abc.tyc.edu.tw/cgi-bin/index.htm
(不可被搜尋) |
User-agent: * |
例8. 使用"$"限制訪問url 僅允許訪問以".htm"為結尾的URL。 |
User-agent: * |
例9. 禁止訪問網站中所有的動態頁面 |
User-agent: * |
2. robots.txt放置位置:貴校欲禁止搜尋的網站底下的根目錄
網站 URL(例:學校網域名稱為abc) |
相對應存放robots.txt的 URL位置 |
http://www.abc.tyc.edu.tw/ |
|
http://www.abc.tyc.edu.tw:80/ |
http://www.abc.tyc.edu.tw:80/robots.txt |
http://www.abc.tyc.edu.tw:1234/ |
http://www.abc.tyc.edu.tw:1234/robots.txt |
http://abc.tyc.edu.tw/ |
3. robots.txt放置後生效時間:各搜尋引擎時間不同。(例:百度搜尋為兩週)
若禁止收錄檔案為已被搜尋並收錄之舊資料,依各搜尋引擎判斷robots.txt時間不同,從搜尋結果中移除所需時間也不同,可能需數月的時間。
4. robots.txt放置後,會再出現在搜尋結果中的原因。(以百度搜尋為例)
如果其他網站連結了貴校在robots.txt文件中設定禁止收錄的網頁,那麼這些網頁仍然可能會出現在搜尋結果中,但網頁上的內容不會被抓取、建入索引和顯示,搜尋結果中展示的僅是其他網站對貴校相關網頁的描述。
5. 以下為robots.txt範例,將內容存成robots.txt文字檔即可:
===================以下為robots.txt文字檔內容==========================
#此行為註記,以下為指定對象為全部搜尋引擎,並依序判定允許或禁止搜尋
User-agent: *
#此行為註記,以下為允許搜尋並收錄在/cgi-bin/下see開頭的檔案
Allow: /cgi-bin/see
#此行為註記,以下為禁止搜尋並收錄在/cgi-bin/下的檔案
Disallow: /cgi-bin/
#此行為註記,若沒此行結尾,則除了以上所禁止檔案外,其他所有目錄及所有檔案將被允許搜尋
Disallow: /
====================robots.txt內容結束=================================