禁止搜尋引擎收錄學校網頁的方法

1.      所需檔案:以記事本建立,檔名為robots.txt之文字即可。

當貴校網站包含不希望被搜尋引擎收錄的內容時,才需要使用robots.txt文字檔。沒有建立robots.txt文字或者建立一個內容為空的robots.txt文字檔,搜尋引擎將收錄網站上所有內容。

以下為robots.txt範例:左邊欄位為範例說明,右邊欄位為在文字檔內所需填寫的文字

範例說明(例:http://www.abc.tyc.edu.tw)

robots.txt文字內容

1. 禁止所有搜尋引擎訪問貴校網站的任何部分

User-agent: *
Disallow: /

2. 允許所有的robot訪問

文字內容空白即可

3. 僅禁止特定搜尋引擎(baiduspider)訪問貴校網站

User-agent:baiduspider
Disallow: /

4. 僅允許特定搜尋引擎(baiduspider)訪問貴校網站

User-agent: baiduspider
Disallow:

User-agent: *
Disallow: /

5.禁止spider訪問特定目錄

  貴校網站若有三個目錄禁止被搜尋,則每目錄必須分開聲明,而不能寫成"Disallow: /cgi-bin/ /tmp/"

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

6. 允許訪問特定目錄中的部分url (該目錄下see開頭將允許搜尋引擎搜尋)

http://www.abc.tyc.edu.tw/cgi-bin/seea.htm   (可被搜尋)

http://www.abc.tyc.edu.tw/cgi-bin/index.htm (不可被搜尋)

User-agent: *
Allow: /cgi-bin/see
Disallow: /cgi-bin/

7. 使用"*"限制訪問url

   禁止訪問/cgi-bin/目錄下的所有以".htm"為結尾的URL (包含子目錄)

http://www.abc.tyc.edu.tw/cgi-bin/index.htm (不可被搜尋)

http://www.abc.tyc.edu.tw/cgi-bin/a/a.htm   (不可被搜尋)

http://www.abc.tyc.edu.tw/cgi-bin/index.asp   (可被搜尋)

User-agent: *
Disallow: /cgi-bin/*.htm

8. 使用"$"限制訪問url

   僅允許訪問以".htm"為結尾的URL

http://www.abc.tyc.edu.tw/index.htm   (可被搜尋)

http://www.abc.tyc.edu.tw/index.asp   (不可被搜尋)

User-agent: *
Allow: .htm$
Disallow: /

9. 禁止訪問網站中所有的動態頁面

User-agent: *
Disallow: /*?*

2.      robots.txt放置位置:貴校欲禁止搜尋的網站底下的根目錄

網站 URL(例:學校網域名稱為abc)

相對應存放robots.txt URL位置

http://www.abc.tyc.edu.tw/

http://www.abc.tyc.edu.tw/robots.txt

http://www.abc.tyc.edu.tw:80/

http://www.abc.tyc.edu.tw:80/robots.txt

http://www.abc.tyc.edu.tw:1234/

http://www.abc.tyc.edu.tw:1234/robots.txt

http://abc.tyc.edu.tw/

http://www.abc.tyc.edu.tw/robots.txt

3.      robots.txt放置後生效時間:各搜尋引擎時間不同。(例:百度搜尋為兩)

若禁止收錄檔案為已被搜尋並收錄之舊資料,依各搜尋引擎判斷robots.txt時間不同,從搜尋結果中移除所需時間也不同,可能需數月的時間。

4.      robots.txt放置後,會再出現在搜尋結果中的原因。(以百度搜尋為例)

  如果其他網站連結了貴校在robots.txt文件中設定禁止收錄的網頁,那麼這些網頁仍然可能會出現在搜尋結果中,但網頁上的內容不會被抓取、建入索引和顯示,搜尋結果中展示的僅是其他網站對貴校相關網頁的描述。

5.      以下為robots.txt範例,將內容存成robots.txt文字即可:

===================以下為robots.txt文字內容==========================

#此行為註記,以下為指定對象為全部搜尋引擎,並依序判定允許或禁止搜尋

User-agent: *

#此行為註記,以下為允許搜尋並收錄在/cgi-bin/see開頭的檔案
Allow: /cgi-bin/see

#此行為註記,以下為禁止搜尋並收錄在/cgi-bin/下的檔案
Disallow: /cgi-bin/

#此行為註記,若沒此行結尾,則除了以上所禁止檔案外,其他所有目錄及所有檔案將被允許搜尋

Disallow: /

====================robots.txt內容結束=================================