當所有業界龍頭幾乎都在遵循基本相同的發展路徑(儘管 Meta 略有不同,採用部分開源模式),整個行業似乎把所有雞蛋都放在同個籃子裡。美國科技公司無一例外地,對規模有著近乎癡迷的追求。它們宣揚尚未被證實的「規模法則」,認為向模型輸入更多資料與算力,是解鎖更強大能力的關鍵。有些人甚至斷言,「規模就是一切」。
一月二十日之前,美國公司不願意考慮其他可能方式,堅持用海量資料預先訓練的基礎模型,來預測序列中的下一個單詞。基於這樣的優先考量,它們幾乎將所有精力,集中於目的是在執行人類(或類人)任務的擴散模型和聊天機器人。
雖然DeepSeek採用的方式與主流模式大致相同,但它似乎更依賴於強化學習、混合專家模型(即使用許多更小、效率更高的模型)、蒸餾,以及精煉過的思惟鏈推理策略。據報導,該策略能以較低成本,打造出一款具競爭力的模型。
暴露美國AI產業集體思惟弊病
儘管對DeepSeek是否已向外界交代一切,還存在爭議,但這一事件暴露了美國AI行業的「集體思惟」弊病:美國業界長期無視更便宜、更具潛力的方法,配合市場大力炒作既有典範,完全符合強森(Simon Johnson)與我在《權力與進步》一書中的預言,這本著作完成時,生成式AI時代仍尚未來臨。
現在的問題是,美國產業界是否還有其他更危險的盲點?例如,美國科技龍頭是否錯失了將模型導向更「以人為本」的機會?我猜答案是肯定的,但只有時間才能證明。
另一個問題是,中國是否正在超越美國?如果是,是否意味著專制、由上而下的結構,即英國經濟學家羅賓遜(James A. Robinson)和我所說的「榨取型制度」,在推動創新方面可媲美、甚至更勝由下而上的體系?
我認為,由上而下的控制會阻礙創新,正如羅賓遜和我在《國家為什麼會失敗》一書中所論述的那樣。
DeepSeek擴大規模 需強大晶片
雖然DeepSeek的成功似乎挑戰了這項觀點,但它還遠遠不能證明,榨取型制度下的創新,可以如廣納型制度下的創新般強大或持久。
畢竟,DeepSeek 是建立在美國(以及部分歐洲國家)的技術進步基礎上,它所有的基本方法都源自美國。幾十年前,學術研究機構就開發出混合專家模型和強化學習;轉換器模型、思惟鏈推理以及模型蒸餾技術,也是由美國大型科技公司所引進發展。
DeepSeek目前的成功是展現在工程上,它在整合相同方法上,做得比美國公司更好。但中國公司和研究機構能否進一步推出改變遊戲規則的技術、產品和方法,仍有待觀察。
此外,DeepSeek似乎與大多數其他中國人工智慧公司不同,後者一般是專注為政府開發技術或接受政府資助。身為一家由對沖基金分拆出來的公司,DeepSeek在成為鎂光燈焦點後,能否繼續維持過去名不見經傳時的創造力與活力,不得而知。但無論如何,單一公司成就,無法證明中國能在創新方面超越開放社會。
另一個問題涉及地緣政治。DeepSeek事件是否意味美國出口管制和其他遏制中國AI研究的措施失敗了?答案尚未明朗。DeepSeek是用功能較弱的舊晶片訓練最新模型(V3和 R1),想取得進一步進展並擴大規模,仍可能需要最強大的晶片。
即使我們還不知道DeepSeek開發模型的所有細節,以及它明顯的成就對AI產業未來發展有何意義,但有一點似乎已很明確:這家中國後起之秀戳破了科技產業對規模的癡迷,甚至讓它們從自滿中驚醒。
(編譯:經研室)
Copyright Project Syndicate:www.project-syndicate.org
