Pejslin 的學習筆記

實戰設計robots.txt與 標籤_轉貼
2006/05/08,11:35

http://www.ithome.com.tw/itadm/article.php?c=35591

實戰設計robots.txt與 標籤

文/黃天賜 (記者) 2006-02-23
搜尋引擎的網路蜘蛛看似無孔不入,但它其實也是知所進退,有它的運作禮貌。設定適當的robots.txt與 ,對於網站和搜尋引擎溝通相當大的幫助

網路蜘蛛並非不分青紅皂白一網打盡,只要適當規劃robots.txt與<META>標籤,企業網站就能安心與搜尋引擎和解共生。

搜尋引擎的網路蜘蛛看似無孔不入,但它其實也是知所進退,有它的運作禮貌。當網路蜘蛛到達網站的第一個動作,便是找尋並讀取robots.txt檔,並依照網站設定的限制再向下搜尋內容。讀取網頁時,位於網頁<HEAD></HEAD>之間的<META>標籤如果設有robot屬性,它也會依照指示來行動。因此,設定適當的robots.txt與<META>,對於網站和搜尋引擎溝通相當大的幫助。

建立告知禁止存取範圍的robots.txt
和網路蜘蛛溝通的辨法,是建立一個名為robots.txt的文字檔,內容陳述哪些目錄、檔案不希望被存取,再將這個檔案放置到網頁伺服器上。

robots.txt的內容由兩個部份組成,分別是user-agent與disallow。前者定義這個網站規則對哪些網路蜘蛛程式發揮作用,後者則是定義哪些目錄或檔案不想被搜尋。限制所有網路蜘蛛存取,並含及所有內容的robots.txt的寫法如下:

robots.txt撰寫範例1
# 全部限制存取的robots.txt
user-agent: *
disallow: /

第1行是註解欄,用#字符號標示,可以讓管理者加註。第2行則用*號表示對所有搜尋引擎的網路蜘蛛通用,第3行則告知程式「”/”」代表的根目錄以下的內容都不允許有存取動作,換言之,搜尋引擎便會忽略整個網站。

不過這種「大隱於市」的做法,通常不是企業所需,畢竟建置網站的目的是在與廣大的網路接用者增加接觸機會,禁絕所有網站內容和網路蜘蛛擷取,形同關上大門拒絕往來。就企業而言,設定目錄與資料類型管控,才能達到最佳效益。

robots.txt撰寫範例2
user-agent: *
disallow: /cig-bin
disallow:/members/data
disallow:/*.pdf$

在範例2中,第1行宣告下面的規則適用於所有網路蜘蛛,而第2行則是禁止存取cgi-bin目錄中的資訊,第3行告知members目錄底下的data目錄不希望被擷取,但members目錄底下如有其他目錄存在則不受影響。第4行宣告所有PDF格式的檔案禁止擷取,必須注意的是附檔名後面要加上「$」符號。如此就可以避免資料遭不當下載,被搜尋引擎作頁面庫存而被公開。禁止檔案格式的方式也可以限定在特定的目錄,以增加使用上的彈性。

另外,user-agent也可以針對個別的搜尋引擎作限定,舉例來說,可以用「user-agent:Googlebot」來阻絕Google的網路蜘蛛。

robots.txt撰寫範例3
user-agent: Googlebot-image
disallow:/*.jpg$
user-agent: *
disallow: /cig-bin
disallow:/members/data
disallow:/*.pdf$

範例3中,第1行是Google搜尋圖片的網路蜘蛛名稱,和第2行結合的結果是禁止Google搜尋圖片去抓取網站中所有jpg格式的圖片,而第3行以下則是套用範例2的限制,讓其他搜尋引擎不能存取cgi-bin、member/data和PDF格式的檔案。

robots.txt彈性而簡單的設定,讓網站管理者在內容控管上增加許多自主性,也避免了被搜尋引擎庫存網站敏感資訊的風險。不過如果有需要針對個別頁面做設定的需求,利用HTML的<META>語法,會比robots.txt要來得適用。

使用<META>標記宣告禁止索引與連結
除了可以使用robots.txt的方式來調整之外,另一種方式是以HTML的<META>標記語法做設定,告知網路蜘蛛不要產生網頁的索引及庫存。

<META>語法範例一
<HTML>
<HEAD>
<META NAME="robots" CONTENT="noindex,nofollow">
<TITLE>...</TITLE>
</HEAD>
<BODY>...



將上述<META>起始的語法放置在網頁<HEAD> 區段中,這個頁面就不會搜尋到,NAME的部份使用「robots」即可阻擋所有的網路蜘蛛,也可以指定特定名稱,例如Googlebot或Yahoo!Slurp,就可阻擋特定網站蜘蛛。CONTENT可指定noindex、nofollow等兩個屬性,noindex意指不可對本頁進行索引動作,nofollow指的是否可使用本頁的超連結再延伸出去擷取搜尋。

另外,Google提供更細項的調整設定,可以移除片段內容和快取網頁,片段內容是指出現在Google搜尋結果的網頁標題下的文字摘錄,通常描述網頁的內容。如要移除這段文字,則可以利用下方語法移除:

<META>語法範例二
<META NAME="Googlebot" CONTENT="nosnippet">

必須注意的是,移除片段內容同時也會移除快取的網頁。至於移除快取的網頁則是讓Google不會顯示快取的連結:

<META>語法範例三
<META NAME="Googlebot" CONTENT="noarchive">

若也想讓其他的搜尋引擎找不到,則將name指定的部份改成robots即可。而這個部份只能移除網頁快取的連結,但不會影響索引及片段內容。只要善加利用robots.txt與<META>語法,就可讓網站資訊安全更加穩固。

文⊙黃天賜

在網頁插入背景聲音
2006/04/19,17:09

只要在 body 標籤內選擇插入下列其中之一語法即可

語法一:(只會在背景播放)

<bgsound src="路徑/檔名" loop=次數>

範例:
<bgsound src="midi/夜曲.mid">
連續播放 midi 目錄下的 夜曲.mid

<bgsound src="midi/夜曲.mid" loop=1>
播放ㄧ次 midi 目錄下的 夜曲.mid

<bgsound src="http://web.cnes.tcc.edu.tw/~pejslin/midi/laputa_jazz.mid">
連續播放 http://web.cnes.tcc.edu.tw/~pejslin/midi/laputa_jazz.mid 請勿使用別人的網頁,以免產生盜連問題

語法二:(會產生一個圖形介面)

<embed src="路徑/檔名" width="寬度" height="高度" autostart=true hidden=true loop=true>

說明:
autostart 是否自動開始 true / false
hidden 是否隱藏
loop 是否重複播放

範例:
<embed src="midi/夜曲.mid">

模仿終端機畫面
2006/03/29,14:13

<table cols="1" width="90%" bgcolor="#000000"><tbody><tr><td>
<font face="細明體" color="#ffffff" size="-1">
文件內容
</font></td>
</tr>
</tbody></table>

meta
2006/01/17,16:25

錄自 http://www.socialwork.com.hk/htmltip/skill/02/02.htm

  1. 這組標籤須在包含在<HEAD></HEAD>標籤中,以利自己或別人(搜索引擎)使用,另外也可以製造出一些自動翻頁等特殊效果。
  2. http-equiv或NAME屬性,必須配合content屬性使用,兩者也可互替使用。
  3. 後設語法標籤(META description tag)的用法隨各搜索引擎設定有所不同。
  4. 有無Meta標籤,並不影響網頁正常顯示,其最大目的在於提供網頁各種資訊及產生特殊效果。

範例:

  1. <meta http-equiv="Content-Type" content="text/html; charset=big5">
    說明:
    Content-Type==>文件內容格式;
          ==>CONTENT內要作的每件事"  ",分別以分號區隔
    text/html==>純文字/超文字
    charset==>字元組為中文繁體大五碼,如用iso-2022-jp是指日文
  2. 讓搜索引擎容易找到您:
    <META NAME="KeyWords" CONTENT="網頁'網頁製作'研習'免費'教學'下載'">
    <META NAME="KeyWords" CONTENT="HomePage'java'html'download'download'free">
    說明:
    網頁內文關鍵字,可使用中、英文均可
  3. 關於網站的內容描述:
    <META NAME="Description" CONTENT="自學網頁製作教室">
    說明:
    Description==>內容的主要描述
  4. 這個網頁的作者是誰:
    <META NAME="Author" CONTENT="Timon Cheng">
    說明:標註本網頁作者姓名等資料
  5. 這是用何編輯器完成的網頁:
    <META NAME="Generator" CONTENT="Mozilla/3.0Gold(Win95)[Netscape]">
    說明:
    標註本網頁作者姓名等資料
    Generator==>編輯器
    Mozilla/3.0Gold(Win95)[Netscape]==>編輯器等版本說明
  6. 這個網頁何時完成:
    <META NAME="Creation-Date" CONTENT="01-jan-2001 14:41:01">
    說明:
    Creation-Date==>創作日期
    01-jan-2001 14:41:01==>詳細日期時間
  7. 這個網頁有效時期:
    <META NAME="Expired" CONTENT="01-jan-2002 00:00:01">
    說明:
    Expired==>網頁終止期限
    01-jan-2002 00:00:01==>詳細日期時間
  8. 網頁作者的網站與信箱:
    <link rev="made" href="mailto:AAA@BBB.MAIL.COM">
    <link rev="made" href="http://www.AAA.COM">
    說明:
    網頁作者信箱或網址陳述
    rev==>正向關聯
    made=>網頁製造者
    href==>您的信箱或網址
  9. 使網頁能自動換頁:
    <META HTTP-EQUIV="REFRESH" CONTENT="15; url=exp1.htm">
    說明:
    REFRESH==>更新或重整
    15==>15秒後執行下一動作;
     ==>CONTENT內要作的每件事" ",分別以分號區隔
    url=exp1.htm==>指定轉換到此網頁
  10. 進入或離開的特效(限IE使用):
    <meta http-equiv="指定要換頁特效發生的狀況" content="特效模式(Duration=特效持續時間,Transition=代替的特效)">
    說明:
    http-equiv="Page-Enter是進入本頁、Page-Exit是離開本頁、Site-Enter是進入本站、Site-Exit是離開本站"。
    content="revealTrans(指定換頁特效)、blendTrans(設定換頁特效為"混合" )。
    Duration=設定特效持續的時間(秒),建議在3-5秒之間。
    Transition=以0-23代替特效。

<meta http-equiv="Content-Type" content="text/html; charset=big5">

TITLE
2006/01/16,10:35

<TITLE>抬頭文字</TITLE>

這組標籤須在包含在<HEAD></HEAD>標籤中

標籤裡面的文字會出現在瀏覽器視窗最上頭藍色部份裡,當作一篇網頁的主題。

網頁架構
2006/01/16,10:32
<HTML>
 <HEAD>
  <TITLE>網頁抬頭</TITLE>
  <Meta>
 </HEAD>
 <BODY>
  網頁主要語法所在,也是網頁的主要呈現部分。
 </BODY>
</HTML>
 
Accessible and Valid XHTML 1.0 Strict and CSS Powered by LifeType