影片裡,虛擬主播的播報方式聽起來與真人無異,要不是有人特意提醒,根本不會發現這是AI的聲音。以前影片後製要先寫腳本再剪輯、過音,現在應用AI就能直接將文字轉語音,不僅省下大量工作時間,還能建立品牌或個人專屬的語音IP,而這項技術正是宏正自動科技的最新產品—「AI Voice優聲學」,更獲 2024台灣精品獎肯定。
宏正以電腦與周邊設備切換起家,於2010年正式進軍專業影音市場,提供軟硬整合的整體解決方案。除了提供全面的企業整合解決方案,宏正更看好內容創作浪潮所帶來之無限商機,投入研發內容創作相關產品,如讓直播更加流暢的直播機、提升錄音品質的Podcast 混音器等,這些產品不僅滿足市場需求,更引領市場潮流。近來生成式AI需求爆發,宏正早在2016年就預見AI將會成為未來重要趨勢,進而開始專研AI技術領域,並在2018年初成立AI研發中心,鎖定聲音AI的開發。
口語擬真自然,像和真人互動
宏正系統應用研發中心協理張教勇指出,目前市場上的AI語音生成以國際大廠和中國為主,可是語言具有文化及地域性的差異,為保留及傳承台灣在地文化,宏正6年多來以自主研發的專業技術,開發出AI文字轉語音的解決方案。
有別於過去合成語音生硬的機械音,宏正優聲學所建立的AI語音模型不但有台灣口音,還可區分為播報型及口語型的說話方式,感覺就像在跟真人互動。相較於採用開放資料所建立的聲音模型,更為擬真、自然。
張協理特別看好未來在人機介面溝通上的應用發展,如商場的互動設備,智慧助理或電話關懷,「我們可以用台灣人的語氣、用詞,強化文化的傳承,讓過去因文字系統而逐漸失去的傳統,都獲得永續的使用。」目前已經有企業、網紅、學校老師開始採用優聲學來錄製素材,將來也可應用在語言導覽、互動客服、醫療、長照等領域,解決人力短缺的問題。
張教勇表示,AI研發最大的挑戰是,「人工智慧其實就是『工人智慧』。」
標準化AI工廠,打造專屬IP
雖然現在也有許多開放資源,只需講幾句話,錄幾秒聲音,就能製作出AI聲音模型,「但那個效果最後你都不會接受」。
張教勇表示,AI研發最大的挑戰是,「人工智慧其實就是『工人智慧』。」前端資料必須要有人標記,並進行有效的調整和訓練,才能產出正確的結果。因此,宏正在內部成立「AI工廠」,從聲線分析、文本設計、錄音工程、修整與標記,到訓練與驗證,建立完整的標準化AI服務與AI模型管理流程,確保每個專屬聲音IP的品質。過去AI因著作權問題而被人垢病,宏正所有訓練資料也都在合法且尊重聲音所有人的著作權下使用。
隨著 AI 科技的進步,愈來愈多內容創作者選擇以節省時間及成本的方式,藉助AI的力量,打造屬於自己的聲音 IP。目前已有許多創作者開始積極與宏正優聲學合作,開發專屬於個人的語音IP。
此外,隨著宏正逐步擴展其在台灣本土台語語音合成技術的應用,激起許多內容創作者的興趣,期望透過深植於台灣文化的台語,為內容創作帶來更多元和豐富的層次!
宏正除了提供企業整合性解決方案,還提供內容創作等個人用戶解決方案。
透過台灣語音,傳承在地文化
身為台灣人,宏正董事長陳尚仲對傳承台灣在地文化深具使命感,他一直期許AI團隊能持續完成台語、客語、原住民語等台灣本土語言的AI模型。
除了中英文的語音合成,宏正優聲學也拓展至台灣道地的台語語音合成,希望讓更多人能夠聽見台語的聲音;另一方面,在醫療及長照領域協助與長者做前期問診溝通,增加後續的看診效率。此外,宏正深耕新北汐止超過40年,目前也正與汐止在地文史工作者及學校合作,希望建立專屬於汐止的線上文化博物館,並透過宏正優聲學的聲音錄製語音導覽,讓更多人透過聲音認識汐止這片土地。
除了AI在聲音合成方面的應用,希望能做出成功典範,讓國際市場看見台灣的軟實力,宏正的願景是全方位發展AI,未來更進一步協助客戶落實智慧製造。「我們公司的核心價值,就是持續為客戶帶來創新的價值。」張教勇強調,企業要追求永續經營,就必須找出各種方法來擁抱AI。
宏正以優聲學為起點,期待這項技術能真正解決市場的多元需求,並在未來提供更多豐富有趣的AI解決方案,用AI為台灣發聲。