自從蘋果正式在iPhone 4S採用Siri語音技術後,市場對接下來即將推出的iPhone 5進一步發展充滿期待,在語音聲控愈來愈深入進駐人類生活的情況下,部分已開始切入相關領域的個股,值得長線關注。
八○年代美國影集《霹靂遊俠》裡的經典對話:「夥計」「嗨!老哥」,主要就是描述人與智慧汽車的不可能任務,霹靂車不僅會說話,還能接受並執行「主人」的指令,這樣的人機完美互動模式,終於在Siri(智慧語音)看到了。
人類自工業革命以來,對「機器」的操作方法從手動、腳踏、以至於口述,都是單方面的傳達指令,遇到複選模式,還必須參閱使用說明書,才能完成操作。而近幾年來觸控功能盛行,主打最人性化的人機介面,殊不知在很多場合,使用者可能連手都懶得動,或是不方便動手,最終就應回歸到最人性的下達指令模式──聲控。
可互動對話 也是搜尋引擎
語音辨識功能是人工智慧AI中較簡易且成熟度高的一環,但真正要做到精確判讀不同語言是不容易的,過去在人工智慧研發領域中,日本最熱中於開發各類型機器人,在投入逾十億美元後,至今仍無法商業化上市,而美國則是選擇以個人電腦為應用領域,遂成就了Siri這樣劃時代的產品。
蘋果產品總是給人創新的期待,去年底的iPhone 4S就具備了語音祕書Siri這樣的功能,能與使用者對話,並主動搜尋相關網站,進而接受執行指令。
話說Siri的起源,可是美國國防部的人工智慧研究計畫,當時召集了二十五家一流學府的三百多位頂尖人才,投入自行學習、建構思惟的人工智慧研究,並於二○○七年成立SRI公司,繼續投入商業化助理祕書輔助軟體開發,到一○年才被蘋果購併。
起初蘋果對Siri也沒給特別的關愛眼神,主要是語音辨識早就廣泛應用在眾多手機上,常見的為使用者說出想要聯絡者的名稱,就可以直接撥電話出去。
不過,Siri可不是一般的辨識軟體,除了具備精確的辨識語音功能外,因為投入得早、燒的錢多,構築了相當規模的資料庫及演算法,透過人工智慧學習功能,可分析問題、找出解答、並提供建議,也是強大的搜尋引擎。更重要的是,透過使用者的經驗,Siri資料庫仍不斷更新與新增。
在Siri問世之前,創新有餘的中國業者就已將語音控制的功能放入電視、廚房家電以及音樂播放器上,使用者可以對著電視遙控器說出要轉的台數、用聲音啟動家電運作、以及對著音響點歌,動口不動手,但大致上仍只是小範圍的互動,回應劇本固定,稱不上人工智慧。
然而,iPhone 4S的Siri功能,目前也僅支援英語、德語、法語三種,對於艱澀、轉折多、難發音的中文,可就沒那麼容易上口。
為了應付使用者不可預期的要求,資料庫必須建立龐大的處理情境,以便讓系統快速找出解答。由於一般小家電的指令受限,尚可將資料庫燒入在MCU(微處理器)的儲存空間,但像Siri這樣廣泛的個人祕書功能,就必須利用雲端的空間來存放資料。
當然,順暢的網路頻寬是必備的,未來應用也不僅局限在手機上,就像今年初陸續有車廠宣布將推出支援Siri的汽車,顯示車用電子有其商機。
中文難度高 要靠合成技術
為了要精確辨識,收話品質好壞非常重要,所以iPhone 4S採用了四顆MEMS(微機電系統)麥克風,除了可加強接收端的收話,亦可降低環境噪音。由於台灣在MEMS產業技術落後,以揚聲器大廠美律來說,至今也還未量產MEMS麥克風,但封測廠菱生則擁有許多國際MEMS大廠客戶,整體營收貢獻將逾一成。
至於降噪IC,大致由國際大廠把持,國內的IC設計公司驊訊則是主推去噪IC,除了獲得大陸龍旗控股公司採用外,今年有機會打入聯發科智慧型手機平台。
此外,語音發話的合成技術也不容易,由於中文語音變化多,難以用有限的韻律規則資料庫涵蓋所有情況,故必須兼有規則庫及類神經網路技術,來演算生成語音韻律,以確保語音合成之自然流,並貼近真人發音,而音質好壞,取決於軟體的合成技術及發話系統上。
國內消費性電子IC設計公司大多有涉獵,但真正對於語音合成技術有專精研究的,首推以手寫辨識起家的蒙恬,其語音辨識整合語音合成技術,是市面上中文語音控制GPS的主要軟韌體技術供應商,也是過去聯發科公版的搭配廠商。
今年中國粗估會有一億五千萬支的智慧手機,以及超過三千萬台的聯網電視,要能抗衡Siri,勢必得先解決資料雲的問題,故今年三月下旬,中國聯通宣布與當地的科大訊飛共同簽署戰略合作框架協議,由科大訊飛提供新一代語音雲系統,構成中文版語音辨識服務,堪稱中國版的Siri。
由於台灣並沒有人工智慧的研究成果,但在語音辨識與合成技術上則相當成熟,正好與大陸發展的資料雲有互補作用,有助於快速打造中文平台的Siri。在個股方面,可留意松翰、新唐、凌陽、蒙恬、驊訊、菱生等。