即時理解自然語言的內容,將改變我們與智慧型機器和應用程式的互動方式。
迅速、智慧又自然的回應,才能造就出人和機器之間高品質的對話。
隨著人們紛紛轉向在家工作、進行遠端醫療和遠端學習,大量催生出客製化語言 AI 服務的需求,範圍從客戶支援到即時轉錄,以及針對視訊通話的內容進行總結,以保持人們的工作效率並且維持人們之間的聯繫。然而直到現在,開發出在背後支持著即時語音應用程式之語言處理神經網路的人員,面臨著一個兩難的取捨:到底要快速回應,而犧牲掉回應的品質;還是要提出一個智慧的回應,結果速度又太慢。原因在於人類之間的對話異常複雜,要看說話的前後脈絡及先前的互動內容,才決定要怎麼說出下一句話,從話語中的梗到文化借鑒和文字遊戲,人們口中說出的話,一字一句都有著極其微妙的差異。每個幾乎是瞬間萌生的反應環環相扣,友人之間的聊天甚至在對方說話之前,就能料到這個人要說些什麼。
何謂對話式人工智慧?
真正的對話式人工智慧是一項語音助理,可以從事跟人類一樣的自然對話、取得對話裡的前後脈絡,再提供智慧回應。這樣的人工智慧模型規模碩大無朋,且極為複雜。
可是模型愈大,使用者發話與人工智慧回答之間的時間差就愈大,超過0.2秒便會使得對話聽起來很不自然。經過 GPU 優化的語言理解模型可以納入醫療、零售及金融服務等產業的人工智慧應用程式中,為智慧音箱和客戶服務熱線中先進的數位語音助理提供支援。這些高品質的對話式人工智慧工具可以讓各行各業在與客戶互動時,提供過去望塵莫及的個性化服務標準。
未來的對話式人工智慧會是什麼樣子?
電話樹狀結構演算法之類的基本語音介面(有著「如要預訂新航班,請說出預定二字」之類的提示,)充滿著互動性,要用到一連串的步驟和回應,才能讓使用者完成預先設定好的流程。不時要靠著電話樹狀結構末端的真人接線員,才能理解話語中細微的問題,聰明地解決來電者的問題。目前市場上的語音助理有著更為強大的功能,背後的語言模型卻沒有想像的那麼複雜,其中只有數百萬個參數,而非數十億個參數。這些人工智慧工具在對話中可能會出現停頓的情況,在回答問題前,會先說出「我查一下」這樣的回答,或是直接顯示網頁搜尋結果,而不是以對話方式來回答查詢。
真正對話式的人工智慧則遠非當前的語音助理可以比擬。理想的模型已經複雜到能夠準確理解一個人查詢銀行對帳單或醫療報告結果的話語,並且用流暢的自然語言幾乎立即做出回應。
這項技術可以用於醫生診間的語音助理,以協助病患安排約診和後續驗血事宜,或是用於零售業的語音人工智慧助理,可以向不滿的來電者解釋還沒收到包裹的原因及提供商店抵用金。
對這類先進對話式人工智慧工具的需求將不斷增加,預估到2020年時,會透過語音進行 50 % 的搜尋活動,到2023年時數位語音助理的使用量將達八十億案例。
想進一步了解未來企業數位樣貌及如何善用對話式語音服務提升客戶品質與企業價值,下載白皮書一探究竟。