之前我在 “Windows Live — Web 2.0 Not Yet” 這篇 post 的最後提到 Windows Live 的搜尋引擎,和搜尋中文遇到的問題。進一步探究,發現幾個有趣的現象,暴露出它目前在中文搜尋方面,仍落後 Google 的地方。
我透過 Amazon.com 的 A9 和 Alexa 搜尋服務,來測試微軟的新搜尋引擎。上次提到,Amazon.com 最近從 Google 轉到 Windows Live Search,作為 A9 和 Alexa 的搜尋後台。我從 A9 的搜尋歷史紀錄中,發現之前所下的搜尋字串「雅魯藏布江」,用的是繁體輸入法輸入,而這串字中,「魯」字是繁體(其他幾個字在 Unicode 中剛好被簡繁體所共用)。如果用簡體輸入,則「魯」字會是「鲁」,其他則沒有差別(因為支援多國語言的搜尋引擎網頁,都用 UTF-8 編碼的 Unicode 來接受用戶的輸入)。這次我特別用繁/簡體字個別試了一試…
雅魯藏布江 墨脫(繁): 得到三百多個結果。這些結果看來大都來自提供繁體中文內容的大陸網站。
雅鲁藏布江 墨脱(簡): 得到一萬七千多個。不意外,這個西藏東部、世界第一深的峽谷的相關資訊,絕大多數都位於大陸的網站。
真正有趣的是,從這裡我們可以看出,Windows Live 搜尋引擎仍不具備像 Google 那樣,能夠自動處理編碼轉換,並將簡繁體的搜尋結果合併呈現。
另外又發現一個有趣的現象,如果把「江」字從搜尋字串中省略,那麼不管是以繁體或簡體字輸入;也就是: “雅魯藏布 墨脫” 和 “雅鲁藏布 墨脱“,Windows Live 就掛了 — 不是什麼都找不到,說抱歉,就是找到韓文頁(就像我之前在 A9 遇到的)。
反觀 Google,在同樣艱困的搜尋條件下,仍然能找出兩萬七千筆。可見 Google 不但搜尋能力強,爬蟲也又勤又快。
這暴露出 Windows Live 搜尋引擎對中文的索引處理,似乎仍仰賴詞彙。如果碰到它的辭庫中沒有的,就不知所措了。換句話說,至少就中文而言,Windows Live Search 仍做不到真正的全文檢索,也就是能處理任意中文字串,典型的例子,像是一個人的姓名,辭典中沒有,但不表示文章中不會出現。我用「勞虎」試了一下,竟然一筆也沒有!真的很沮喪
。不過看到像吳宗憲和李登輝這樣的當代名人,也不過幾百筆結果(Google 找到百萬筆),也就釋懷了
。