
自从一年多前,从 Wired 杂志著名的 “Long Tail” 文章中(先前也曾 blog 过)得知 Touching the Void(触及巅峰)这部电影后,就一直惦记着想看,一方面也是因为自己爱爬山(仅止于 hiking,尚未达 mountaineering 的程度),更别说这是个真人真事的登山界传奇故事。

自从一年多前,从 Wired 杂志著名的 “Long Tail” 文章中(先前也曾 blog 过)得知 Touching the Void(触及巅峰)这部电影后,就一直惦记着想看,一方面也是因为自己爱爬山(仅止于 hiking,尚未达 mountaineering 的程度),更别说这是个真人真事的登山界传奇故事。
英文中的介词,本来就是需要多放些注意力才能充分掌握的部分。对学英文的人,一直是个麻烦的领域。在台湾的 IT 界,常听到大家用「come out 一个…」,来表达「想出、规划出一个…」。但事实上,这个句子中的「想出」,英文的说法应为 “come up with”。那什么时候用 “come out” 呢?
昨天有篇美国商业周刊的报导,刚好为我们做了最佳的示范。这篇报导提到,Apple CEO Steve Jobs 和各大好莱坞电影公司,就 iTune 作为影片租售渠道一事,相互间仍存在诸多歧见。在文章的最后一节 (THE LIVING ROOM WAITS) 中,”come up with” 被用了两次:
从今天开始,这里会增加一个大项 — 虎人英文。我想利用这个园地,和网友们分享一些英文词组、特殊的表达方式、俚语、甚至发音技巧。也算是让过去在学校主修的专长,派上用场。我会从网上读到、电影中听到,或脑中不经意浮现的一些英文用法中,选择对大家比较有帮助的,把它们写下来。也欢迎大家提供建议。
Yahoo!奇摩知识+ 一直是台湾 Yahoo! 在被记者问到 Web 2.0 服务时所搬出的挡箭牌。它更是台湾互联网业者的骄傲象征,科技甚至输出回美国 Yahoo! 总部;灵感来自于韩国,将传统BBS 加以改良;获得多项大奖…blah, blah, blah,相信大家已经听得很多了。昨天 CNet 报导,最近 PCHome 和番薯藤纷纷打 Web 2.0 牌,推出新服务,而 Yahoo!奇摩呢?依旧是知识+。
耐人寻味的是,美国 Yahoo! 在去年底以奇摩知识+ 为基础,稍加修改、上线后,用的名称竟不是 “Knowledge”,而是 Yahoo! Answers。同类型的网站中,有 Google 在四年前推出的 Google Answsers。它的做法比较特殊,采取收费的方式,由五百位各行各业的专家来负责回答问题。此外,善于模仿、再力拼后来居上的微软,也不甘寂寞地在上个月宣布 Windows Live QnA。尚未正式运营,但看起来八成是以抄袭 Yahoo! Answers 为主。
之前我在 “Windows Live — Web 2.0 Not Yet” 这篇 post 的最后提到 Windows Live 的搜索引擎,和搜索中文遇到的问题。进一步探究,发现几个有趣的现象,暴露出它目前在中文搜索方面,仍落后 Google 的地方。
我透过 Amazon.com 的 A9 和 Alexa 搜索服务,来测试微软的新搜索引擎。上次提到,Amazon.com 最近从 Google 转到 Windows Live Search,作为 A9 和 Alexa 的搜索后台。我从 A9 的搜索历史纪录中,发现之前所下的搜索字符串「雅魯藏布江」,用的是繁体输入法输入,而这串字中,「魯」字是繁体(其它几个字在 Unicode 中刚好被简繁体所共享)。如果用简体输入,则「魯」字会是「鲁」,其它则没有差别(因为支持多国语言的搜索引擎网页,都用 UTF-8 编码的 Unicode 来接受用户的输入)。这次我特别用繁/简体字个别试了一试…
雅魯藏布江 墨脫(繁): 得到三百多个结果。这些结果看来大都来自提供繁体中文内容的大陆网站。
雅鲁藏布江 墨脱(简): 得到一万七千多个。不意外,这个西藏东部、世界第一深的峡谷的相关信息,绝大多数都位于大陆的网站。
真正有趣的是,从这里我们可以看出,Windows Live 搜索引擎仍不具备像 Google 那样,能够自动处理编码转换,并将简繁体的搜索结果合并渲染。
另外又发现一个有趣的现象,如果把「江」字从搜索字符串中省略,那么不管是以繁体或简体字输入;也就是: “雅魯藏布 墨脫” 和 “雅鲁藏布 墨脱“,Windows Live 就挂了 — 不是什么都找不到,说抱歉,就是找到韩文页(就像我之前在 A9 遇到的)。
反观 Google,在同样艰困的搜索条件下,仍然能找出两万七千笔。可见 Google 不但搜索能力强,爬虫也又勤又快。
这暴露出 Windows Live 搜索引擎对中文的索引处理,似乎仍仰赖词汇。如果碰到它的辞库中没有的,就不知所措了。换句话说,至少就中文而言,Windows Live Search 仍做不到真正的全文检索,也就是能处理任意中文字符串,典型的例子,像是一个人的姓名,辞典中没有,但不表示文章中不会出现。我用「劳虎」试了一下,竟然一笔也没有!真的很沮丧
。不过看到像吴宗宪和李登辉这样的当代名人,也不过几百笔结果(Google 找到百万笔),也就释怀了
。
纽约时报昨天有篇文章,对 Wikipedia 做了一个很好的综观。
根据尼尔森/NetRatings 调查公司的数据, Wikipedia 已经超越 CNN 和 Yahoo! News,成为访问者量排名第三的新闻与信息类网站。盛名加上「任何人都可以编辑」的基本精神,可想而知,自然也衍生一些问题,包括无聊人士蓄意破坏;幼稚小孩添加胡言乱语的条目;政治性、宗教性条目引发不同立场的人互相删改对方的言论等。为了应付这样的问题,Wikipedia 仰赖一群志工编辑,每天不断审核篩選新增和被修改的内容。目前大约有 82 个条目被标示为 “protected”,另外有 179 个条目是 “semi-protected”。这些争议性大、或常受到窜改的条目,是 Wikipedia 一百多万条目中的异常,无法让任何人自由编辑或修改。
Wikipedia 创办人 Jimmy Wales 在报导中说,很多人以为 Wikipedia 的内容是由千百万人,一人贡献一小段而来。但事实上,大多数的内容都来自于一千多位核心志工,许多志工还身兼编审委员的职责。编审委员是由志工之间推举。
前些时候,blog 到十二点、一点、甚至更晚,卧床后往往还有灵感不断浮现;要不就是架站相关的琐事。多次下来,搞得生物时钟整整向后拉了两个钟头。本来几乎每天锻炼的习惯,很快荡然无存。
这个星期六一大早要加班,身负一项重要的任务,萎靡不得。于是便下定决心,从星期一开始,不管睡足时数与否,强迫自己一定要恢复过去早起锻炼的习惯。值得庆幸的是,已经持续了三天,有点惊讶,荒废了一两个月的老朋友,竟这么快又回来了!
该就寝了,晚安!