生成式AI熱潮席捲全球,ChatGPT、BARD等這些基於大型語言模型(LLM)開發的生成式AI、對話式AI,是怎麼煉成的?使用限制有哪些?
在台灣特別有機會紅起來的應用是什麼?
台灣國科會主導開發的語言模型有搞頭嗎?
由在Google總部DeepMind團隊帶領大型語言模型研究與 Bard開發的傑出科學家紀懷新,一一來解答。
Google開發大型語言模型的種子 是2014年一篇論文
紀懷新說,早在2014年一篇由有關於深層神經網路(DNN)學術論開始,就種下Google開發大型語言模型的因,2017年底由Google發表的論文,首度揭示現在許多AI使用的基礎模型Transformer,為AI目前的革命性發展開啟序幕,而ChatGPT就是基於Transformer開發出來的AI。
而Google的對話型AI BARD,則是基於一篇在2015年發表的論文所發展出來的大型語言模型LaMDA所開發。
Google並在2021年的Google一年一度最大的開發者大會I/O中首度對外展示由LaMDA打造的AI,可以讓用戶像跟真人一樣的對話,今年3月以實驗性質先在美國、英國推出BARD,並在5月加入圖片生成、做摘要等新功能,6月再加入解數學題、資訊匯出至Google試算表等,7月起開放支援40種語言,繁體中文正是其中之一。
BARD、ChatGPT都能夠同時支援多種語言,甚至中、英夾雜的「晶晶體」也沒有問題,然而在此之前,Google翻譯面對一句話內有多種語言,翻譯的效果常常不盡滿意。紀懷新表示,
Google翻譯與大型語言模型最大的差別是,以前在做AI翻譯時,每個語言都是不同的模型,現在的生成式AI都是一個模型就支援所有的語言,不僅能同時支援多種語言,看完文章後讓AI做總結(摘要)、追問AI為什麼給這樣子的建議(解釋),都在同一個模型內做完。
Google:生成式AI很強大,但限制也更多
雖然生成式AI很強大,但限制也比想像中的更多。紀懷新說,生成式AI回答問題時的正確性就是其中之一,而且模型訓練時如果沒有留意餵給模型的資料內容,回答問題時就會有偏差,比如說歧視。
另外,現在很多用戶與生成式AI應對時覺得它很有個性,但事實是,AI沒有個人意見與感受,更別說,很多使用者會不斷找到對AI進行「壓力測試」的方式,試圖破壞模型,不過Google早期推出搜尋引擎時,已經碰過無數次類似的事情,面對各種壓力測試還算有點經驗。
為了解決正確性的問題,紀懷新說,Google讓BARD學會使用搜尋引擎,降低BARD「幻覺」式回答的可能,尤其在因為立場不同而引發AI回答正確性爭議時,BARD可以透過搜尋引擎,找到有來源可以引用的回答,類似人在看到Line上的奇怪資訊時上網做事實查核的作法。
生成式AI在台灣應用 他看好「一對一英文家教」
現在的生成式AI模型十分龐大,只能連上雲端使用,無法將模型下放至手機、耳機、筆電中,離線使用更是不可能。
紀懷新表示,可以用大的模型訓練、教會放在用戶終端設備中的小模型,但是這種做法有限制,現在學界研究的重點正是如何在縮小模型跟維持同樣功能間,取得平衡,但即使能夠縮小,離線使用依然會限制許多功能。
而在生成式AI眾多功能中,紀懷新相當看好生成式AI在台灣發展出「一對一英文家教」的應用,他說,台灣人覺得學好英文很重要,但是英文不常說就不流利、常常請家教一對一講英文的費用很高,這就是用BARD當小老師的好機會。
現在BARD已經開發出以語音提問的功能,等這個功能成熟後,BARD就可以變身為英文口語家教,每天讓小孩子跟BARD以英文對談,即使離線使用也不會影響功能。
國科會正積極開發台灣自有的大型語言模型與生成式AI,對此紀懷新含蓄地指出,台灣的晶片、硬體製造奠定科技人才的基礎,而數學與物理則與AI、機器學習的發展息息相關,希望台灣的學者能開發能夠支援大型語言模型所需軟、硬體,為台灣帶出新高度。