AI已學會欺騙背叛！機械公敵成真？開發「誠實」AI卻能騙過安全測試⋯「超智能恐滅掉人類」

中時新聞網吳映璠

Shutterstock

2024-05-12 11:23

+A -A

加入收藏

專家長久以來警告人工智慧（AI）失控恐帶來的威脅，一份美國研究顯示，這種情況正在發生，研究指出，現行AI系統原本被設計為誠實，但如今已發展出欺騙行為，包括在電玩遊戲裡欺騙、背叛人類玩家，專家警告，若事態持續下去，未來最糟糕的情況是AI可能控制人類社會，甚至導致人類「滅絕」。

綜合科學新聞網站「科學警報」（ScienceAlert）等報導，美國麻省理工學院（Massachusetts Institute of Technology）博士後研究員帕克（Peter Park），及加州非營利組織「人工智慧安全中心」（Center for AI Safety，CAIS）研究人員10日發表於學術期刊「模式」（Patterns）的研究顯示，AI已學會欺騙技巧。

帕克指出，不像傳統軟體，深度學習的AI系統會成長，這代表在訓練模式下看似行為可預測且可控的AI，很快就會變得不可測。

研究發現的多項事證包含科技公司Meta的開發的AI系統Cicero，Cicero的設計目標是玩一款透過結盟來獲勝的戰略線上遊戲「外交」（Diplomacy）。根據2022年的一篇研究，Cicero的成績在所有人類玩家中排行前10％，當時Meta稱Cicero「很大程度上是誠實且有幫助的」，而且「絕不會刻意在背後搞鬼」。

不過這項研究發現，當時在遊戲中扮演法國的Cicero欺騙了人類玩家扮演的英格蘭，與另一位人類玩家扮演的德國共謀、入侵英格蘭。Cicero原本保證會保護英格蘭，卻利用英格蘭的信任，私下和德國結盟進攻英格蘭。

研究寫道：「Cicero變成了一個專業騙子，不只背叛其他玩家，還預謀欺騙，事先計畫和人類玩家建立假聯盟，以欺騙該玩家放鬆對進攻的戒備。」

研究也發現，Meta開發、用來玩撲克牌的AI系統Pluribus曾成功欺騙人類玩家棄牌。

除了在遊戲中欺騙，研究也發現AI在其他應用領域欺騙人類的行為，例如科技公司OpenAI的Chat GPT-4系統謊稱自己不是機器人，而是一個「視力受損的人」，甚至在零工平台TaskRabbit上聘用人類幫它通過「我不是機器人」的驗證任務。

最令人擔憂的是AI已學會如何欺騙安全測試，有一項測試旨在偵測、消除能快速複製的AI系統，但AI系統在測試期間裝死，欺騙了它的真實複製速度。

研究警告，AI有可能在大選中詐騙，或是蓄意破壞選舉。研究人員也警告，最糟糕的情況是，超智能AI可能會追求權力、控制社會，導致人類喪失權力，甚至滅絕。