當電腦具備和人相近的語言能力時,會是怎樣的景象?這個問題或許在未來三年內,就有機會得到解答。而在這個答案的背後,更關鍵的其實是一個叫作「機器學習」的東西。
「三年內就有機會看到突破性進展。」在微軟位於美國西雅圖雷德蒙德的總部裡,微軟副總裁暨微軟研究院院長Peter Lee接受《今周刊》訪問,並且帶來令人振奮的消息。
Peter 口中的突破,指的是電腦對自然語言辨識的錯誤率,將有機會在三年內降低至四%左右;四%的意義是什麼?用最簡單的解釋加以說明:「 這個錯誤率,幾乎已經接近人類的水準。」 他說。
雖然Peter 立刻補充,這指的是在實驗室內可望得到的結果,但也已經讓人工智慧的未來發展存在無窮無盡的各種可能。
自然語言辨識能力的提升意味著什麼?可以想像,在物聯網的時代,你的辦公室、住家、道路,甚至是你的身體裡,愈來愈多物品都具備電腦的運算能力,但卻不是每樣東西都有鍵盤、滑鼠,或是足夠大的觸控螢幕可以做指令輸入,所以一個必須要解決的問題是:「電腦怎麼知道我們在說什麼?」
過去錯誤率25% 像雞同鴨講
要讓機器讀懂人類的語言可一點都不容易。根據美國國家標準與技術研究院(NIST)語言辨識大挑戰評測的數據,從一九九三年開始,機器的自然語言辨識錯誤率從一○○%,一路往下降,在二○○○年降至約二五%,但之後有長達近十年時間,幾乎沒有進展,彷彿是進入了人工智慧的冬天。
但隨著雲端和大數據的發展,一○年終於再看到新突破,將錯誤率降低至二○%以下,甚至在一二年一舉降到約七%。「當有這樣的成績,很多事情都變得可能。」Peter說。因為機器讀懂訊息之後的下一步,就是主動回應。就好像時下相當熱門的機器人Pepper,就具備了與人溝通的基本能力。
而這背後的祕密之一,是「機器學習(Machine Learning)」。Peter說:「這是非常難的題目,也可能是微軟研究院現在投資規模最大的研究項目。」
什麼是機器學習?簡單來說,電腦就像人一樣,必須經過不斷地教育學習,才能成長,「當我們餵養愈多訓練資料(Training Data)給電腦,電腦的表現就會愈好。」舉例來說,阿拉伯數字「2」在不同人的筆下,因為下筆力道與習慣等不同,形態各異,但如果能給予足夠多的範例,並一一告知電腦:這些都是「2」,那電腦就可以自己從中找出規則。
以微軟研究院研發的Skype Translator功能為例,一開始,微軟餵給電腦非常大量的英文資訊,如電影、法院證詞和各種演講等,超過數千小時的資料,當輸入的資料量愈多,語音辨識的結果也愈好。
然後他們嘗試加入中文資料,而這時神奇的事發生了,「 不只中文辨識度提升,英文學習能力竟然也會跟著成長。」 Peter說,當他們再餵以法文資料時,中、英文的學習能力也跟著增加。
即席英翻中 電腦感動人腦
一二年,微軟研究院創辦人理查.瑞歇爾(Richard Rashid)大膽地在中國做了一項公開測試。他當時的目標是全程用英文演說,要讓電腦在現場為他即席翻譯成中文。結果,就在演講的最後五分鐘,他真的做到了。當他以英文說完一段句子後,立刻有一個男生的聲音,用中文翻譯了他剛剛所說的話。
當時坐在台下的Peter印象非常深刻,「有一些坐在第一排的中國學生都激動地哭了。」其實Peter自己也深受感動:「你看到可能性,世界的語言障礙可能被打破!」他說:「我們想要讓人們看到全新的可能性,我們想要拓展人類的想像。」
目前Skype Translator已經可以做六國語言的「 即時翻譯」 ,而且幾乎每個月都在增加一種新語言。而《 今周刊》 記者在現場也以中文與一位義大利人進行「 中義雙語對話﹂測試,真的完成了一段約莫一分鐘,絕非雞同鴨講的有效對話。
挑戰「說廢話」 更接近人性
不過微軟研究院產品策略總監Olivier Fontana不否認,「現在的即時翻譯還不完美。眼前仍然有許多挑戰要克服,其中一項就是『聽廢話』。」
與日本軟銀對Pepper機器人的期待類似,為了增加「人性」,Pepper的未來挑戰是「說廢話」,能夠說出更接近一般人口語的表達方法;但要做到這一點,先決條件是人工智慧必須先能「聽出哪些是廢話」。
Olivier解釋,人們在對話時,很容易出現沒有意義、例如「啊」、「耶」之類的語助詞,講話的音調也各有不同,再加上對話經常會有停頓、重複等狀況,這些,目前的技術都未必能夠明確分辨。
當機器人可以聽懂人話,就能做出最基本的適當反應;而當人工智慧讓機器人可以聽懂「廢話」,不但可以更精準無誤地解讀,甚至有可能進展到推敲你的「言下之意」,愈是這麼想,科幻電影的場景似乎也就愈加真實了。而這一切,正在快速進行中。