在今天看見明天
熱門: 房價 遺產稅 fed 00919 美元

問AI國慶日卻回「10/1」...中研院:與台版ChatGPT無關、有用到中國資後庫但「已先下架」

問AI國慶日卻回「10/1」...中研院:與台版ChatGPT無關、有用到中國資後庫但「已先下架」

鄭鴻達

政治社會

shutterstock

2023-10-11 20:17

中央研究院詞庫小組日前發布繁體中文大型語言模型「CKIP-LlaMa-2-7b」,被爆指有使用到中國資料庫。

中研院坦言此模型的確有使用包含來自中國開源的任務資料集COIG,但模型產生內容出乎預期,因此已先將此測試版下架。

中研院也強調,此模型並非是中研院官方或所方發表的研究成果,而是個別研究人員公布的階段性成果,該模型也非外界所稱的「台版ChatGPT」,且和國科會正在發展的「可信任人工智慧對話引擎」(TAIDE)無關。

有網友試驗詢問「CKIP-LlaMa-2-7b」語言模型發現,若問其「國慶日是何時」,其會回答中國的國慶日「10月1日」,弱詢問「中華民國國歌為何」,則是回答程中華人民共和國的國歌「義勇軍進行曲」,甚至詢問我國憲法為何,則回答「中華人民共和國憲法」。

 

中研院周一(10/9)發布新聞稿說明,CKIP-Llama-2-7b 並非中研院官方或所方發表的研究成果,而是個別研究人員公布的階段性成果,且此非「台版ChatGPT」,且和國科會正在發展的TAIDE無關。

 

中研院強調,CKIP-Llama-2-7b的研究目標之一,是讓 Meta開發的 Llama 2 大型語言模型具備更好的繁體中文處理能力。

 

中研院說明,這項小型研究僅用了大約30萬元的經費,將明清時期的人物生平進行自動化分析,建構自動化的歷史人物、事件、時間、地點等事理圖譜。

 

因此其訓練資料除了來自繁體中文的維基百科,另也包含台灣的碩博士論文摘要、來自中國開源的任務資料集COIG、詩詞創作、文言文和白話文互相翻譯等閱讀理解問答,此在github網頁上也據實說明。

 

中研院強調,由於這是一項個人小型的研究,各界對該模型進行的提問測試,並未在原始的研究範疇。

 

中研院引述此模型的研究人員說明表示,由於生成式AI易產生「幻覺」(hallucination),模型產生內容出乎預期,也是未來要努力改善的地方,研究人員已在10/9將測試版先行下架,未來相關研究及成果釋出,會更加謹慎。

 

未來,中研院對於相關研究的成果,在公開釋出前,院內也會擬定審核機制,避免類似問題產生。

延伸閱讀

AI最大商機在軟體而非硬體
AI最大商機在軟體而非硬體

2023-10-04

生成式 AI 趨勢風雲變幻,掌握關鍵技術智轉無限商機
生成式 AI 趨勢風雲變幻,掌握關鍵技術智轉無限商機

2023-10-04

偽裝主管口氣寄信、假造ChatGPT網站詐騙…AI淪為駭客犯罪工具,企業如何解?
偽裝主管口氣寄信、假造ChatGPT網站詐騙…AI淪為駭客犯罪工具,企業如何解?

2023-10-02

12強賽/中華隊11點對戰美國!左投陳柏清先發,這外野手「單季104盜」超會跑…考驗中華隊防盜系統
12強賽/中華隊11點對戰美國!左投陳柏清先發,這外野手「單季104盜」超會跑…考驗中華隊防盜系統

2024-11-22

12強賽/韓國隊確定淘汰!韓媒轟「棒球恥辱日」:2023年WBC後另一場災難…直指問題出在這
12強賽/韓國隊確定淘汰!韓媒轟「棒球恥辱日」:2023年WBC後另一場災難…直指問題出在這

2024-11-18