相隔十年再次來到台灣,科大訊飛高級副總裁杜蘭替AI語音技術與應用進行盤點。
語音助理持續走紅、智慧音箱熱銷的同時,哪些有潛力的應用市場,值得我們持續關注?
「我看你不停在打字,你應該快試試看我們的產品。」採訪才開始十分鐘,科大訊飛品牌管理部總經理吳駿華忍不住喊了聲暫停,起身向記者推薦一款語音辨識應用,科大訊飛去年十月推出的「訊飛聽見」App。在他的手機螢幕上,可以看到記者與科大訊飛高級副總裁杜蘭博士的對話內容,一字一句地被清楚記錄成文字,連對談中不經意的口頭禪都被正確地記錄下來。
作為中文AI語音技術的領頭羊,二○○一年,科大訊飛就確定了以語音技術為核心的發展方向。十八年後的今天,受惠於機器學習技術所推動的AI躍進,以及海量聲音數據的資料積累,科大訊飛在AI語音技術上,有了長足進步,也在不同的垂直領域,找出應用商機。
技術突破:商用價值提升
大陸28種方言都能懂
首先是技術面,自二○一二年深度學習成為AI研究主流,以語音為核心的AI技術開始高速進步。杜蘭點出兩個極為重要的領域,分別是「AI語音辨識」以及「AI語音合成」。她說:「這是非常專業的領域,而且我們在技術上是有很多突破的。」
科大訊飛的突破,從去年的成績就能看出端倪。二○一八年九月,科大訊飛在國際多通道語音分離和識別大賽(CHiME)上,有四個項目拿下辨識率冠軍。一八年七月,科大訊飛更在全球英文語音合成競賽(Blizzard Challenge)中,拿下多個項目排名第一的表現,勝過同場競技的微軟、IBM等科技巨頭。
「包含大陸二十八種方言,目前都已經有能力做正確的辨識。」杜蘭指出,在語音數據持續累積,以及AI模型的持續精進下,AI語音辨識能力已經提升到一般人也能使用的程度。「像是我們之前給媒體推出的一款錄音筆,轉寫精準度只有八○%,媒體已經覺得很好用。」而現在,科大訊飛又進一步將精準度提升到最高九五%以上。