問AI國慶日卻回「10/1」...中研院：與台版ChatGPT無關、有用到中國資後庫但「已先下架」

鄭鴻達

shutterstock

2023-10-11 20:17

+A -A

加入收藏

中央研究院詞庫小組日前發布繁體中文大型語言模型「CKIP-LlaMa-2-7b」，被爆指有使用到中國資料庫。

中研院坦言此模型的確有使用包含來自中國開源的任務資料集COIG，但模型產生內容出乎預期，因此已先將此測試版下架。

中研院也強調，此模型並非是中研院官方或所方發表的研究成果，而是個別研究人員公布的階段性成果，該模型也非外界所稱的「台版ChatGPT」，且和國科會正在發展的「可信任人工智慧對話引擎」（TAIDE）無關。

有網友試驗詢問「CKIP-LlaMa-2-7b」語言模型發現，若問其「國慶日是何時」，其會回答中國的國慶日「10月1日」，弱詢問「中華民國國歌為何」，則是回答程中華人民共和國的國歌「義勇軍進行曲」，甚至詢問我國憲法為何，則回答「中華人民共和國憲法」。

中研院周一（10/9）發布新聞稿說明，CKIP-Llama-2-7b 並非中研院官方或所方發表的研究成果，而是個別研究人員公布的階段性成果，且此非「台版ChatGPT」，且和國科會正在發展的TAIDE無關。

中研院強調，CKIP-Llama-2-7b的研究目標之一，是讓 Meta開發的 Llama 2 大型語言模型具備更好的繁體中文處理能力。

中研院說明，這項小型研究僅用了大約30萬元的經費，將明清時期的人物生平進行自動化分析，建構自動化的歷史人物、事件、時間、地點等事理圖譜。

因此其訓練資料除了來自繁體中文的維基百科，另也包含台灣的碩博士論文摘要、來自中國開源的任務資料集COIG、詩詞創作、文言文和白話文互相翻譯等閱讀理解問答，此在github網頁上也據實說明。

中研院強調，由於這是一項個人小型的研究，各界對該模型進行的提問測試，並未在原始的研究範疇。

中研院引述此模型的研究人員說明表示，由於生成式AI易產生「幻覺」（hallucination），模型產生內容出乎預期，也是未來要努力改善的地方，研究人員已在10/9將測試版先行下架，未來相關研究及成果釋出，會更加謹慎。

未來，中研院對於相關研究的成果，在公開釋出前，院內也會擬定審核機制，避免類似問題產生。