昨天从 Digg 得知 Google Talk 刚增加一个翻译功能,用法很有创意(大概又是哪位 Google 员工利用每周 20% 的自由时间想出来的),配置方式是必须先将恰当的语言,以联络人的方式加入,格式为 xx2yy@bot.talk.google.com,其中 xx 和 yy 是根据 IANA 制定的双字母语言码,中间加 2,例如英翻中为:en2zh@bot.talk.google.com,其他语言可如法炮制(Google 目前支持二十多种语言间的互转),@后一律相同。如果要利用这个 bot 充当语言不通的 IM 用户间的及时翻译的话,可以用 group chat 的方式,把翻译 bot 同时加入。
用几个口语的句子测了一下它的中英文翻译能力,和对简繁体字的处理,发现它和 Google 的搜索引擎一样,繁体和简体中文同时支持,Google 会自动判别,这点做得不错,至于翻译的准确性,就有点爆笑了 — 相同意思的三句话,分别用英文和中文版本测了一下(如下图),翻译出来的结果,其中甚至连语法都有问题(不过最搞笑的,还是将中文的语助词 “啊” 硬生生地翻成 "ah",让我想起在和香港的朋友 chat,英文句尾夹带 "ma"、"la" 的感觉)。(BTW, ”You never cease to amaze me" 是英文常用的说法,有时候用来讽刺,但这里我们看到 GTalk 的 bot 把意思完全搞反了)。
不过我主要想谈的,不是它的翻译水平,而是其背后的运作机制。这个翻译机器人 (bot) 的运作方式,仰赖的正是 Cloud Computing(云计算) — 无独有偶地,恰好是前几天纽约时报和美国商业周刊封面故事分别报道的主题(尽管二者的侧重点不同)。更巧的是,最早触发商业周刊对 Google 云计算做报道的,正是这个翻译 bot 。在商业周刊幕后故事 podcast中,记者谈到他在两年前,从卡内基梅隆大学那儿听到,曾经有一场自然语言电脑翻译大赛。参赛者中,IBM 自然不能缺席,此外还有来自亚洲、欧洲的团队,当然还有 Google。Google 团队的玩法与众不同,他们不用传统 AI 那套,从分析语句结构、语义模型等入手,而是利用一组超强的分布式计算 cluster(也就是那朵“云”),然后喂给它海量的联合国翻译稿件,让它根据字的关联性,做出统计分析,作为翻译的基础。结果 Google 队赢了。自此之后,美国许多大学的研究机构,都渴望能有一套像 Google 一样的计算怪兽,用来加速对海量信息的科学分析。两年后,他们终于如愿以偿。这篇报道讲的正是背后的故事 — 一名 Google 员工如何将公司核心竞争力平台的缩小版,带入校园,教导大学生如何善用并行计算资源。这项利用 20% 自由时间的项目,稍后还带动了和 IBM 的研发合作。同样巧合的是,纽约时报这周也对并行计算和它对编程带来的新挑战,做了一个报道(中译)。
纽约时报对 Cloud Computing 的报道,则着重于和微软的竞争,和潮流的变迁。简单的讲,Google 玩的是改变游戏规则的玩法,顺着时势潮流,用云来遮蔽桌面。
这几篇报道的相关链接:
- 纽约时报 12/16 对 Cloud Computing 的报道(中译)
- 商业周刊 12/24 封面故事: Google and the Wisdom of Clouds(Goo 不到中文翻译,不过找到一篇相关报道), BTW, 很明显地,标题玩了一个谐音游戏 — "Wisdom of Crowds"(群体智慧)。这个故事同时凸显了 Google 的企业文化。
回到 Google Talk 翻译机器人的翻译水平问题,由于听了上述翻译大赛的故事,还有之前对 Google 超级电脑的粗浅了解,我的猜测是 1) Google 的翻译引擎的翻译能力是可以调整的,而他们大概没有分给 Gtalk 翻译 bot 太多的脑细胞/计算能力(使用比较简化的计算过程),目前的目的只在实验这个新的应用模式,以致翻译品质仍处在搞笑阶段;2) 我用来考它的生活口语太难了,它比较擅长的,应该还是正经八百的官样文章,这或许是为什么喂食海量联合国资料和网页的 Google 云能够赢得冠军的原因吧!