中央研究院詞庫小組日前發布繁體中文大型語言模型「CKIP-LlaMa-2-7b」,被爆指有使用到中國資料庫。
中研院坦言此模型的確有使用包含來自中國開源的任務資料集COIG,但模型產生內容出乎預期,因此已先將此測試版下架。
中研院也強調,此模型並非是中研院官方或所方發表的研究成果,而是個別研究人員公布的階段性成果,該模型也非外界所稱的「台版ChatGPT」,且和國科會正在發展的「可信任人工智慧對話引擎」(TAIDE)無關。
有網友試驗詢問「CKIP-LlaMa-2-7b」語言模型發現,若問其「國慶日是何時」,其會回答中國的國慶日「10月1日」,弱詢問「中華民國國歌為何」,則是回答程中華人民共和國的國歌「義勇軍進行曲」,甚至詢問我國憲法為何,則回答「中華人民共和國憲法」。
中研院周一(10/9)發布新聞稿說明,CKIP-Llama-2-7b 並非中研院官方或所方發表的研究成果,而是個別研究人員公布的階段性成果,且此非「台版ChatGPT」,且和國科會正在發展的TAIDE無關。
中研院強調,CKIP-Llama-2-7b的研究目標之一,是讓 Meta開發的 Llama 2 大型語言模型具備更好的繁體中文處理能力。
中研院說明,這項小型研究僅用了大約30萬元的經費,將明清時期的人物生平進行自動化分析,建構自動化的歷史人物、事件、時間、地點等事理圖譜。
因此其訓練資料除了來自繁體中文的維基百科,另也包含台灣的碩博士論文摘要、來自中國開源的任務資料集COIG、詩詞創作、文言文和白話文互相翻譯等閱讀理解問答,此在github網頁上也據實說明。
中研院強調,由於這是一項個人小型的研究,各界對該模型進行的提問測試,並未在原始的研究範疇。
中研院引述此模型的研究人員說明表示,由於生成式AI易產生「幻覺」(hallucination),模型產生內容出乎預期,也是未來要努力改善的地方,研究人員已在10/9將測試版先行下架,未來相關研究及成果釋出,會更加謹慎。
未來,中研院對於相關研究的成果,在公開釋出前,院內也會擬定審核機制,避免類似問題產生。