從 Blogger 的 blogspot.com,搬到自家兩隻老虎,選擇 WordPress 作為 blog 軟體,它內建的 tagging 功能,讓我感到如虎添翼(WordPress 內部對此功能的正式術語為 category)。從左側的 sidebar 可明顯看出,先前的三個 blogs — 勞虎的左腦、右腦,和其他,透過安插標籤的做法,可以輕易地整合為一個 blog。舉個例子,如果對「右腦」和「其他」類內容沒興趣的讀者,可以點擊 sidebar 中「勞虎的左腦」鏈結。除此之外,tagging 提供了層級式的分類索引,方便讀者依照每篇文章的內容特性來尋找。
其實讓內容提供者自行標示關鍵字的做法,在多年前的 Web(即現在被稱作 Web 1.0 的時代)就有了。當初的機制是在 HTML 網頁中的 <head> 區域加上 <meta name=”keywords” content=“…” />。在 Google 竄起前,大多數的搜尋引擎,包括最紅的 AltaVista,都會把這個欄位中設定的所有關鍵字,作為搜尋結果的重要參考。但這個機制,不久後開始遭到不肖的垃圾網站業者濫用,搜索出來的結果往往充斥著這類的「假內容,真廣告」。許多搜尋引擎此時也紛紛開始走下坡…。
後來 Google 發明了一套截然不同的搜尋演算法,改變了搜尋引擎的版圖。但道高一尺,魔高一丈;上有政策,下有對策。即使時至今日,不肖業者仍兢兢業業地鑽研著欺漫搜尋引擎的技巧,有的時候還真能成功地突破 Google 的防線,達陣站上搜尋結果的前幾大排名,而 Google 在這個方面也持續投入人力在防守工作上。
在談論 Web 2.0 的場合中,自然少不了 tagging,更別說當初把 tagging 發揚光大的,正是 Web 2.0 的模範生 Flickr 和 del.cio.us。“Tagging” 一詞為俗稱,如果要用比較有學問的說法,那您得說 “folksonomy“。這是一個複合字,結合了 folk (尋常百姓)和 Taxonomy(分類學、綱目)二字。我個人比較偏好「俗民分類」這個翻譯。不止 Flickr 和 del.cio.us,世界最大的 blog 搜尋引擎 Technorati,從一年半前也開始提供 tags 搜尋服務。他們除了匯集 Flickr 和 Buzznet 的照片標籤外,還會自動從 WordPress、TypePad 這類內建 tagging 功能的 blog 軟體所發布的 RSS/Atom feeds 中收集標籤。即使是沒有在這些平台上寫 blogs 的作者,也可以透過一個簡單的 HTML 標記,讓 Technorati 取得自訂的標籤。眼尖的網友或許已發現,Amazon 從去年底,也開始提供訪客在每個產品頁面中,幫忙訂標籤。另外像最近一年竄紅的 video 共享網站 YouTube,也有 tagging 的機制。
還記得 Yahoo 的楊致遠和 David Filo 二人是如何起家的嗎?他們替 Web 分類,訂綱目。後來 Netscape 也推動一個 DMOZ (Open Directory Project),希望動員網民的力量,來協助維繫 Web 的 taxonomy。如今,這些利用由上而下做法的分類網站,在 Web 2.0 的眼中已被打為 Web 1.0 時代的餘孽。取而代之的,是由下而上的 tagging。
由於 tagging 的資訊來自廣大基層的個人用戶,那正確度會不會因為不小心輸錯字等意外狀況而受影響?Web 2.0 的威力,在這裡便發揮得淋漓盡致 — 在資料量夠大、統計樣本夠多的情況下,彙整軟體其實不難推論出大大小小的標籤類別,及相互的階層關係,甚至能判斷出有些與主流熱門標籤拼法近似的標籤,很可能是意外打錯字所致;換句話說,只要樣本數夠多,儘管可能有雜音,所歸納出來的資訊仍然具有相當的參考價值。Google 對拼錯字和內容近似度的推斷方式,也是基於這樣的原理。大量的網頁加上每天上億使用者的搜尋 requests,提供了最好的實驗樣本。在統計分析過大量使用者輸入的搜尋關鍵字後,Google 對當前使用者輸入的字是否拼錯,具有相當大的把握,只要是這個字和其他出現頻率不低的字拼法相近。在 Web 2.0 環境下,因為有大量貢獻自使用者的資料,拼字校正不再需要利用像 soundex 這種傳統拼音近似度的演算法。關聯性的推斷原理與此類似 — 從掃描大量的網頁中,Google 能大致推斷出某個字和其他哪些字的關係比較密切(如 J2EE 和 Sun, BEA, IBM 有 clustering [叢集] 現象;.NET 則和 Microsoft, Windows, COM 等)。對 Google 資料分析做法有興趣的網友,可從這個演講中得到更多的資訊。
使用者主動訂標籤的行為,方便了其他使用者能更快地找到所需的內容。Ross Mayfield 探討使用者主動訂標籤背後的動機。他認為最初的動機來自於利己,讓自己的照片和文章有更清楚的分類,讓他人更容易地找到自己的作品,進而提高曝光率。但就在此同時,廣大使用者進行同類的行為,無意間也提供了標籤彙整網站 (Flickr, Technorati) 大量的資訊,讓他們能將內容整理分類,方便大眾搜尋,間接地積累了一筆利他的功德。
Tagging 是另一個源自於個人消費市場領域,而逐漸開始受企業重視、採用的科技。BEA 去年底在北京舉行的 BEAWorld 大會中,宣布今年將推出的資訊自動挖掘產品 Graffiti,就是基於 tagging 的機制。Tagging 是 Web 2.0 科技,繼 blog 和 wiki 之後,逐漸入侵企業應用領域的另一生力軍。Tagging 在 Web 2.0 世界中更是正逐漸升高為全面主流。