Archive for December, 2007
來自雲端的翻譯

昨天從 Digg 得知 Google Talk 剛增加一個翻譯功能,用法很有創意(大概又是哪位 Google 員工利用每週 20% 的自由時間想出來的),設定方式是必須先將恰當的語言,以聯絡人的方式加入,格式為 xx2yy@bot.talk.google.com,其中 xx 和 yy 是根據 IANA 制定的雙字母語言碼,中間加 2,例如英翻中為:en2zh@bot.talk.google.com,其他語言可如法炮製(Google 目前支援二十多種語言間的互轉),@後一律相同。如果要利用這個 bot 充當語言不通的 IM 用戶間的即時翻譯的話,可以用 group chat 的方式,把翻譯 bot 同時加入。

用幾個口語的句子測了一下它的中英文翻譯能力,和對簡繁體字的處理,發現它和 Google 的搜尋引擎一樣,繁體和簡體中文同時支援,Google 會自動判別,這點做得不錯,至於翻譯的準確性,就有點爆笑了 — 相同意思的三句話,分別用英文和中文版本測了一下(如下圖),翻譯出來的結果,其中甚至連語法都有問題(不過最搞笑的,還是將中文的語助詞 「啊」 硬生生地翻成 “ah”,讓我想起在和香港的朋友 chat,英文句尾夾帶 “ma”、”la” 的感覺)。(BTW, “You never cease to amaze me” 是英文常用的說法,有時候用來諷刺,但這裡我們看到 GTalk 的 bot 把意思完全搞反了)。

GTalk Bot - en2zh GTalk Bot - zh2en

不過我主要想談的,不是它的翻譯水準,而是其背後的運作機制。這個翻譯機器人 (bot) 的運作方式,仰賴的正是 Cloud Computing(雲運算) — 無獨有偶地,恰好是前幾天紐約時報和美國商業週刊封面故事分別報道的主題(儘管二者的側重點不同)。更巧的是,最早觸發商業週刊對 Google 雲運算做報道的,正是這個翻譯 bot 。在商業週刊幕後故事 podcast中,記者談到他在兩年前,從卡內基美隆大學那兒聽到,曾經有一場自然語言電腦翻譯大賽。參賽者中,IBM 自然不能缺席,此外還有來自亞洲、歐洲的團隊,當然還有 Google。Google 團隊的玩法與眾不同,他們不用傳統 AI 那套,從分析語句結構、語義模型等入手,而是利用一組超強的分散式運算 cluster(也就是那朵「雲」),然後餵給它大量的聯合國翻譯稿件,讓它根據字的關聯性,做出統計分析,作為翻譯的基礎。結果 Google 隊贏了。自此之後,美國許多大學的研究機構,都渴望能有一套像 Google 一樣的運算怪獸,用來加速對大量資訊的科學分析。兩年後,他們終於如願以償。這篇報道講的正是背後的故事 — 一名 Google 員工如何將公司核心競爭力平台的縮小版,帶入校園,教導大學生如何善用平行運算資源。這項利用 20% 自由時間的專案,稍後還帶動了和 IBM 的研發合作。同樣巧合的是,紐約時報這周也對平行運算和它對程式設計帶來的新挑戰,做了一個報道中譯)。

紐約時報對 Cloud Computing 的報道,則著重於和微軟的競爭,和潮流的變遷。簡單的講,Google 玩的是改變遊戲規則的玩法,順著時勢潮流,用雲來遮蔽桌面。

這幾篇報道的相關鏈結:

回到 Google Talk 翻譯機器人的翻譯水準問題,由於聽了上述翻譯大賽的故事,還有之前對 Google 超級電腦的粗淺瞭解,我的猜測是 1) Google 的翻譯引擎的翻譯能力是可以調整的,而他們大概沒有分給 Gtalk 翻譯 bot 太多的腦細胞/運算能力(使用比較簡化的運算過程),目前的目的只在實驗這個新的應用模式,以致翻譯品質仍處在搞笑階段;2) 我用來考它的生活口語太難了,它比較擅長的,應該還是正經八百的官樣文章,這或許是為什麼餵食大量聯集國資料和網頁的 Google 雲能夠贏得冠軍的原因吧!