人工智慧大突破！微軟中翻英技術可媲美人類

2018-03-16 16:20

+A -A

加入收藏

微軟亞洲研究院與雷德蒙研究院團隊宣布，其研發的機器翻譯系統突破了數十年來的技術關卡，在中文新聞翻譯成英文的任務中，達到了可與人工翻譯媲美的水準。

微軟技術院士黃學東表示，翻譯是自然語言處理領域最具挑戰性的任務，「在機器翻譯方面達到與人類相同的水準是所有人的夢想，我們沒有想到這麼快就能實現。」他表示，「消除語言障礙，代表人們的溝通進步，這非常有意義，值得我們多年來為此付出的努力。」

機器翻譯是科研人員攻堅了數十年的研究領域，曾經很多人都認為機器翻譯根本不可能達到人類翻譯的水準。雖然此次突破意義非凡，但研究人員也提醒大家，這並不代表人類已經完全解決了機器翻譯的問題，只能說明我們離終極目標又更近了一步。

由於表達同一個句子的「正確的」方法不止一種，即使是兩位專業的翻譯人員對於完全相同的句子也會有略微不同的翻譯。微軟亞洲研究院副院長、自然語言計算組負責人周明表示，「由於翻譯沒有唯一的標準答案，它更像是一種藝術，因此需要更加複雜的演算法和系統去應對。」

突破機器翻譯難關

創新AI技術神助攻

該研究使用的資料為「newstest2017」新聞報導測試集，包括約2000個句子，由專業人員從線上報紙樣本翻譯而來。為了確保翻譯結果準確且達到人類的翻譯水準，微軟研究團隊邀請了雙語語言顧問將微軟的翻譯結果與兩個獨立的人工翻譯結果進行了比較評估。

微軟亞洲研究院機器學習組將他們的最新研究成果 -「對偶學習（Dual Learning）」和「推敲網路（Deliberation Networks）」應用在此次取得突破的機器翻譯系統中。

例如，使用「對偶學習」技術，可以讓中翻英、英翻中兩個對偶的任務互相充當對方的環境，並互相產生有效的回饋信號，而這些回饋資訊可以用來訓練深度學習模型。

「推敲學習」則是發展自人類閱讀、寫文章的行為方式，即任務完成之後，並不會停止，而是會反復推敲，產生更好的結果。

推敲網路具有兩段解碼器，其中第一階段解碼器用於解碼生成原始序列，第二階段解碼器通過推敲的過程打磨和潤色原始語句。在機器翻譯中看，它可以基於第一階段生成的語句，產生更好的翻譯結果。

為了提高翻譯準確性，微軟團隊在此次的系統模型中，增加了另外兩項新技術：「聯合訓練（Joint Training）」「和一致性規範（Agreement Regularization）」。

「聯合訓練」可以理解為用反覆運算的方式去改進翻譯系統。例如，在每次訓練中，中英翻譯系統將中文句子翻譯成英文句子，從而獲得新的句子，而該句子又可以反過來補充到英中翻譯系統的資料集中。同理，這個過程也可以反向進行，最終讓兩個過程生成一致、準確率更高的翻譯結果。

聯合訓練：從來源語言到目的語言翻譯（Source to Target）P(y|x) 與從目的語言到來源語言翻譯（Target to Source）P(x|y)

「一致性規範」：翻譯結果可以從左到右按順序產生，也可以從右到左進行生成。該規範對從左到右和從右到左的翻譯結果進行約束。如果這兩個過程生成的翻譯結果一樣，一般而言比結果不一樣的翻譯更加可信。這個約束應用於神經機器翻譯訓練過程中，以鼓勵系統基於這兩個相反的過程生成一致的翻譯結果。

下一步：即時新聞翻譯

去年，微軟推出Presentation Translator演講即時翻譯字幕功能，可以輔助聽障人士理解演講並參與討論。而此次翻譯技術突破後，接下來將挑戰即時新聞翻譯以及機器翻譯之外的其他領域，催生更多人工智慧技術和應用的突破。

微軟人工智慧人工智慧微軟翻譯

2018-02-27

2018-02-27

2018-02-02

2017-12-05

2017-09-07

熱門話題

/ HOT ARTICLES /