電腦翻譯的今昔與展望

更新 2005-06-15 6:23 AM 人氣 12

標籤:

【大紀元6月15日訊】(大紀元記者安莉莉，石玲編譯報導) 當人類社會在70年代中期大踏步地邁進了資訊時代之際，「資訊爆炸」使人類的相互交流急劇增長，人們對翻譯匱缺的呼聲日益強烈，於是，機器翻譯技術被列為２１世紀世界十大科技難題的第一位。眼下，一個位於加州馬林那德爾雷(Marina del Rey, Calif.)的小公司正在研發一種技術，希望能夠為現實世界帶來「通用的翻譯家」。

電腦翻譯使用的新方法

語言編織公司（Language Weaver）是兩名南加州大學電腦科學家於2002年創辦，他們發展出一些方法，通過強行向電腦灌輸大量文字內容來教電腦如何翻譯。該項目的早期投資者包括美國中央情報局。

自1954年電腦翻譯誕生以來，數十年使用的方法皆為向電腦輸入翻譯字典的字彙及它們在另一種語言的相應字、同時也輸入文法、以及句子結構的各種規則。這個以規則為基礎的方法隨著時間的推移而變得更為複雜，也因為語言規則的不連貫和許多字彙的多重涵義而倍受打擊。

二十世紀八十年代，IBM研究一種方法，即電腦不去理睬字典或者規則，而是分析文章內容和人對這些內容的翻譯。這樣，當電腦得到一份需要翻譯的文字時，它就會搜查它的數據庫，找出文章中每個字彙都是如何被使用的，再以統計分析為依據做出選擇。

「這並非傳統意義上的翻譯，」語言編織公司總裁布裡斯•本傑明(Bryce Benjamin)說，他的公司取得了IBM的技術許可並已經進一步發展了該技術。「我們所創造的是一種可能性預測法，其基礎是為一個字彙而查看數百萬條該字彙的翻譯，然後選擇最可能正確的那個翻譯。」IBM取得了這個統計學方法的專利權，但是該方法仍然緩慢而吃力。更重要的是，查詢足夠的已翻譯資料並將其數字化是一項十分巨大的工作。

語言編織公司的創始人丹尼爾•馬庫(Daniel Marcu) 和凱文•耐特(Kevin Knight)已發現一些方法提高IBM的技術。希望自己有朝一日能上市的語言編織公司說，它是提供純粹統計式翻譯產品的唯一公司。

在學術界，針對以規則為基礎的方法和統計學方法的相對優點的爭論十分激烈。許多研究人員認為若將以規則為基礎的翻譯法針對某個專有行業或者題材而予以修剪，就能夠提供更高品質。另外許多人認為統計學方法在處理一般文章上是較為優越的。多數主要研究者說，最終，最好的語言軟件將結合以規則為基礎的方法和統計學技術。

目前發展狀況

盡管輕便式翻譯設備是一個長遠的目標，語言編織公司的技術已被使用，亦即與聲音辨認軟件公司的產品，一起被用於電視節目的即時翻譯。如果成功，這類項目可以幫助該公司贏得世界翻譯行業的一杯羹。本傑明說：「這仍然處於早期階段。」確實，專家們說，電腦要和人類翻譯競爭還有很多年的路要走。

但是語言編織公司及其競爭者們，例如為Goggle、時代華納美國在線、和雅虎提供多語種翻譯技術的巴黎Systran公司，其翻譯的精確度已經達到了多方面實用的水平。

語言編織公司的每種語言翻譯軟件的價格從2萬元到10萬元不等，取決於語言的晦澀程度──這比以規則為基礎的傳統翻譯程式要貴了很多。公司創始人之一耐特說：「我們的優勢是在文字上的高精確度。」

1968年創立的Systran公司現在提供40多種語言的產品，是最有名的以規則為基礎的提供者。其首席執行長沙巴塔克(Dimitris Sabatakakis)說，在它的產品中，正在結合統計學方法。但是他說這些是該公司已在做的事情的延伸。「有所更新的是電子內容的有效性。我們現在有網路蜘蛛(crawlers)在網上尋找各種使用一個動詞或者一個名詞的不同方法。但那不是突破。」

本傑明說語言編織公司會發揮其最大實力繼續在老字號電腦翻譯公司沒有重視的語言上做出努力。至於什麼時候該技術會產生可以把講話翻譯成任何語言的手提工具，他則沒有提供任何預測。但是「這是每個人都正在努力的目標。」

Google公司的機器翻譯系統

不久前Google公司舉行記者會除了演示他們使用衛星照片的地圖搜索新服務外，也介紹了他們的機器翻譯系統，並用一句阿拉伯句子為例將其翻為英文，顯示了Google翻譯的優秀品質。

Google公司利用互聯網中已有的多語種並列的文檔──例如聯合國的網站中，就有許多把一個內容翻譯成多種語言的文檔，或是歐盟的文件。── Google把這樣的文檔群數據庫化後進行解析，開發出了新型自動翻譯系統，使用的也是統計學的方法。Google的優勢在於該類文檔的龐大數量，其總字數約為兩萬億，相當於一百萬本書籍。

尚未公開發行的Google自動翻譯系統預計將有許多用途﹕將來消費者可以使用自己的母語搜索外國網站；毫無困難的瀏覽國外網站；也能在其搜索結果中發現非母語的網頁已被翻譯成自己的母語；發到國外的電子郵件已被翻譯成當地語言；上網聊天也無語言隔閡；而最終預計將發展出Google的巴別魚(Google Babelfish)。那應該是像MP3那樣的小玩藝兒，可經由聲音辨認功能將語言轉化成文字檔再翻譯成特定語種播放出來。因此只要將耳機塞到耳中，就可跟任何外國人溝通了。到那時只要有了它，又何愁「天下誰人不識君」？

電腦翻譯的瓶頸

「為廣泛內容的各種資料提供優質的電腦化翻譯就類似於完成人工智能一樣，」位於匹茲保的卡內基•梅隆大學(Carnegie Mellon University)語言技術學院的資深系統科學家羅伯特•福萊德金(Robert Frederking)說，「語言從本質上講是和我們人的行為聯繫在一起的。為解決語言上的大問題，你必須解決人工智能問題。」

設想一下，任何一個人，哪怕他把一本《英漢詞典》背得滾瓜爛熟也當不成翻譯，關鍵在於理解所翻譯文章的意思，還要掌握各種相關知識。然而擔任電腦翻譯的機器並不理解所翻譯的任何詞句。因此讓電腦「理解」人類語言應該是電腦翻譯需要突破的焦點。所以需要通過「人工智能」的研究，讓機器增加智能，像人那樣學會用人類語言「思維」。如今這方面的發展還不很成熟，因此電腦翻譯仍然遠遠趕不上優秀翻譯家的功底。此外電腦翻譯也會遇上許多攔路虎，如新字與冷僻字等。

不想再學習第二語言了嗎？對不起，還需再等一段不算短的時日。

資料來源﹕ Los Angeles Times， The Christian Science Monitor， Corante。
(//www.dajiyuan.com)

相關專題: 軟硬件區