何方神聖〉廣東小城高考狀元意外造出中國AI界鯰魚揭密深度求索創辦人梁文鋒

黃煒軒

科技

達志勿轉

1468期

2025-02-05 09:22

+A -A

加入收藏

(今周刊1468)

過去一周，一款由中國AI新創深度求索所推出的大型語言模型DeepSeek-R1，在全球資本市場颳起一陣旋風，也讓矽谷科技巨擘為之瘋狂。究竟，這家成立不到兩年的新創公司有何本事？它的創辦人又是何方神聖？

「我們不是故意要成為一條鯰魚，只是，不小心成了一條鯰魚⋯⋯。」這是中國AI新創公司深度求索（DeepSeek）創辦人梁文鋒，在去年中接受中國媒體採訪時的一段談話。

DeepSeek，梁文鋒；一家公司，一號人名，也是過去一周間，全球資本市場最火熱的兩個關鍵詞。

時序，先回到去年6月。

當時，DeepSeek發布了一款名叫DeepSeek-V2的大型語言模型，因其在特定推理任務上展現的優異性能，引起了中國科技圈的廣泛關注；此外，V2相較國際指標語言模型更為低廉的訓練與開發成本，也在字節跳動、阿里巴巴、百度、騰訊等中國一線AI科技大廠之間，掀起了一場意料之外的「價格戰」，被外界形容為是中國AI界的「鯰魚效應」。

梁文鋒

（圖／視覺中國）

篤信AI終將改變世界

攻讀碩士期間探索「全自動量化交易」

然而，半年過去，就在中國科技大廠仍心有餘悸之際，這條鯰魚，在最新一代DeepSeek-R1模型的「助攻」下，無預警地，游到了太平洋的另一端，震撼了矽谷科技巨擘，嚇壞了華爾街與歐美政壇。

一時之間，全世界都在問，DeepSeek是何方神聖？梁文鋒又是誰？而DeepSeek背後的「金主」幻方量化，又是一家什麼樣的機構？

答案，得先從廣東西南部的一座小城——湛江說起。

矽谷人稱「來自東方神祕力量」的梁文鋒，1985年出生於廣東湛江吳川巿的一個小村落——米歷嶺村。據家鄉人的說法，梁文鋒自小就精通數理，初中時期就學完了高中數學，甚至開始自學大學的微積分等課程。

2002年，梁文鋒以吳川一中「高考狀元」的成績，考上近年直追清華、北大，中國國內綜合排名長期位居前五的浙江大學，並在2006年及2010年，分別取得電子資訊工程和計算機科學的學士和碩士學位。

在攻讀碩士、專研機器學習的期間，梁文鋒開始對AI的發展和潛力應用產生興趣，並篤信「人工智慧終將改變世界」。

信念，很快地轉化為行動。

正當美國次貸風暴席捲全球的2008年，還在攻讀碩士的梁文鋒，與幾個志同道合的同校友人，開始嘗試運用機器學習技術，收集金融市場即時行情與總體經濟等相關數據，探索「全自動量化交易」的可能性。這成為他日後成立對沖基金「幻方量化」的基礎。

量化策略全採AI模型計算

成立不滿3年資產管理規模破億人民幣

2013年起，梁文鋒與同是浙大畢業、待過華為上海研究所的校友徐進，以及另一校友、曾任盛大網絡旗下創新研究院的鄭達韡開始合夥創業，陸續成立投資公司、資產管理公司，其中，2016年成立的寧波幻方量化最廣為人知，而包含寧波幻方、浙江九章資產等多家「幻方系」企業，梁文鋒皆持股過半，為最終的實際控制人。

幻方量化的擴張速度非常快。2016年，幻方量化第一個由AI模型產生的股票實盤交易上線，使用GPU（繪圖處理器）進行運算。截至2017年底，該公司幾乎所有的量化策略，都已採用AI模型計算。

只用不到3年時間，幻方量化的資產管理規模就突破百億人民幣（以下單位同），躋身中國量化私募領域的「四天王」之列。2021年，一舉突破千億元大關，登上四天王之首。成立至今，幻方量化已連續多年拿下中國私募證券領域的最高獎項「金牛獎」。

一路猛爆性的成長，相當程度反映在幻方的「成績單」上。以幻方旗下旗艦產品、2018年成立的「量化對沖X號」為例，其截至2024年3月的平均年化報酬率，達到28.5％，為同期滬深三百指數的兩倍以上。在巔峰的2021年，幻方旗下產品的年化報酬率更是高達35％。

外界普遍認為如此不俗的成績，來自於幻方背後強大的「算力」。

其實，從幻方量化成立的第一年起，梁文鋒就意識到幻方迫切需要更多的算力，2019年時便由幻方轉投資一家AI基礎研究公司，投入兩億元自主研發深度學習的訓練平台「螢火一號」。據稱，平台搭載了1100塊的GPU顯卡。

約當同時，梁文鋒開始大量囤積來自輝達的顯卡。在梁文峰參與的一篇技術論文裡寫道，幻方於2021年耗資10億元推出的改良版「螢火二號」，就部署了多達一萬張的輝達A100顯卡。而據中國業內人士估算，幻方的螢火超算平台，算力至少是同業平均的10倍以上，每秒可處理高達數百萬條的市場資訊。

梁文鋒與「深度求索」大事紀

積極探索「算力的可能性」

進軍AGI 高「性價比」模型投震撼彈

就在梁文鋒熱中於打造營火平台時，幻方在量化投資績效也趨於平緩，以綜合平均報酬和中位數的報酬率來看，在中國私募排行榜中，去年幻方的績效排在第19位，前一年更僅排在第32位，雖不算太差，但顯然不及幾年前的光彩。

恰好此時，ChatGPT橫空問世，讓原本就對「算力的可能性」充滿各種探索渴望與想像的梁文鋒，發現下一個值得追求的目標：通用人工智慧（AGI）。

2023年5月，38歲的梁文鋒宣布進軍AGI；兩個月後，DeepSeek正式成立。

一開始，DeepSeek推出的DeepSeek Coder（免費且開源的首個模型）、DeepSeek LLM（第一個大語言模型），都未引起太多關注。直到去年5月，DeepSeek發布DeepSeek V2的開源模型後，中國AI大廠的警報聲，才開始響起。

V2模型在中國AI界掀起波瀾，除了是因性能優異，但更根本的關鍵，在於由DeepSeek公告的V2「性價比」，可謂「史無前例」。

根據官方數據，V2的推理成本每百萬詞元（token）僅需1元人民幣，換算下來，這只是Meta的LLaMA 3 70B模型成本的七分之一，更僅有GPT-4 Turbo的七十分之一。

等到去年底發表的DeepSeek-V3，該模型的效能不僅足以對標OpenAI最先進模型GPT-4o，訓練成本更僅約557.6萬美元； GPT-4o模型的訓練成本至少需要1億美元，DeepSeek僅用了約二十分之一的算力資源，就達到了相同的效能。

今年1月，DeepSeek-R1模型的發布，更宛如在AI界投下一枚深水炸彈，知名美國數據標記新創Scale AI創辦人汪滔（Alexandr Wang）感嘆，過去十年來，美國一直在人工智慧競賽中領先中國，「但DeepSeek的AI大模型，很可能會改變這一切。」

這家成立僅一年多的AI新創公司，為何能如此讓全球科技巨擘都為之震顫？

答案，或可從梁文鋒獨特的管理與用人哲學，窺探出一絲端倪。

首先，是在招募上的特定堅持。

「我們的核心技術職位，基本上以應屆和畢業一兩年的人為主。」梁文鋒曾表示，在招募人員上，他首重的是能力，至於經驗，反而是「扣分項」。

根據公開數據，DeepSeek目前約一四○位的工程師團隊，幾乎清一色都是應屆畢業生或博士在讀生，且多數來自清華、北大、北郵、北航等以電腦專業聞名的一線中國頂尖大學。「工作經驗在3到5年，已經是最多了，工作超過8年的，基本就pass了。」一名親近Deepseek的獵頭如此觀察。

對此，梁文鋒曾解釋：經驗不是不好，但對創新來說，過多的經驗往往是種「阻礙」。

他舉例，做一件事，有經驗的人，常常會不假思索告訴你，應該這樣做，「但沒有經驗的人，則會反覆摸索、很認真去想應該怎麼做。」他觀察，最終新人的解方，往往更有「突破性」。

不僅如此，招募新人時，DeepSeek還非常看重他們在國際知名程式設計競賽的表現，「基本是『金獎』以下就不要了。」一名協力廠商指出。

1月20日，中國國務院總理李強召開專家座談會，與會的DeepSeek創辦人梁文鋒，是在場唯一來自AI界的企業領袖。

1月20日，中國國務院總理李強召開專家座談會，與會的DeepSeek創辦人梁文鋒，是在場唯一來自AI界的企業領袖。（圖／取自央視網）

主張「不干預」

全面授權、無為管理方式成創新泉源

梁文鋒自然也提供比中國一線科技大廠更優渥的薪資待遇，來吸引年輕人，但他授權、無為的管理方式，更是留才的關鍵。

「每個人都有自己獨特的成長經歷，都是自帶想法的，不需要push他⋯⋯，當一個idea顯示出潛力，我們也會自上而下地去調配資源。」梁文鋒曾在訪談中如此形容他的「不干預」哲學。

梁文鋒自己就曾在訪談中透露，讓DeepSeek模型訓練成本大降的重中之重：「多頭潛在注意力架構（MLA）」，最初就是來自一個年輕研究員的個人興趣，「我們為此組了一個team，花了幾個月的時間才跑通。」

最終，推動DeepSeek快速前進的動力，則是來自梁文鋒個人長年對基礎研究的熱愛，以及對「開源」理念的堅定信仰。

談及梁文鋒，不少員工對他的形容是，與其說他像個老闆，不如說他更像個「極客」（geek）。梁文鋒的日常，就是看論文、寫代碼、參與小組討論，是少有具備一線研究員能力的公司掌舵者。

親力親為的投入，來自於他對中國的AI發展，始終懷抱著某種願景和理想。梁文鋒曾表示，長遠來說，DeepSeek希望形成一個開源的生態系，讓業界可以直接使用他們的技術，去發展To B和To C的業務，而DeepSeek，就只專注負責基礎模型的開發和前沿的創新。

他曾感嘆，中國AI和美國的真正差距，是來自「原創和模仿」的差距。「如果這不改變，中國永遠只能是追隨者。」

但，梁文鋒樂觀認為，隨著中國經濟下行，資本進入冷週期，整個社會和產業，對發展AI基礎這樣的「硬派創新」，將愈來愈重視，「因為錢不好賺了，（現在許多人）連開計程車的機會可能都沒了。」他觀察，當多數人發現，過去賺快錢很可能來自「時代運氣」，就會更願意俯身去做「真正的創新」。

如今，DeepSeek火爆全球，微軟、輝達、亞馬遜等一線美國科技大廠，乃至中國的百度、阿里巴巴等，紛紛高調宣告擁抱DeepSeek R1的服務之際，梁文鋒孜孜矻矻追求的「硬派創新」夢想，或許，已在實現的道路上。

梁文鋒 DeepSeek 創新 ChatGPT 中國AI發展

DeepSeek之亂引爆半導體股短線重挫，對輝達將造成衝擊？歷史事件證明，黃仁勳不喜歡輸的感覺

2025-02-03

DeepSeek攪局，蛇年台股怎麼買？台積電、鴻海、緯創甜甜價可以撿？專家點名下一波飆股，這8檔「長線有好戲」

2025-02-03

DeepSeek啟動價格戰反攻...外媒分析戰勝OpenAI關鍵不只如此　CEO奧特曼認錯：會向對手學習並公開模型

2025-02-03

DeepSeek春節震撼美國AI股「全面仆倒」！台積電變數增...謝金河：與川普團隊溝通是當務之急

2025-01-31

AI界的「偷襲珍珠港」！DeepSeek是什麼？40歲創辦人梁文鋒為何讓輝達、台積電ADR股價重挫，矽谷大佬害怕？

2025-01-27

熱門話題

/ HOT ARTICLES /

35歲月存5000元、65歲輕鬆翻700萬！0050、006208還有選這小鋼炮：存退休金很輕鬆 2025大罷免懶人包》大罷免進度、網站、日期進程、原因一次看！最後誰會被掃地出門？驚悚影片曝光／台中大里氣爆「施工坑竄噴火龍」　8工人手臉灼傷、頭髮燒焦捲曲...他痛到倒地打滾

當股災來襲，如何聰明買債？一文看懂債券屬性，3準則篩出退休好債金融股反攻號角響起？富邦金、中信金、第一金、元大金...達人首選這2檔：股價最甜、殖利率逾6％，坐等ETF抬轎

何方神聖〉廣東小城高考狀元 意外造出中國AI界鯰魚 揭密深度求索創辦人梁文鋒

篤信AI終將改變世界

攻讀碩士期間 探索「全自動量化交易」

量化策略全採AI模型計算

成立不滿3年資產管理規模破億人民幣

積極探索「算力的可能性」

進軍AGI 高「性價比」模型投震撼彈

主張「不干預」

全面授權、無為管理方式成創新泉源

DeepSeek之亂引爆半導體股短線重挫，對輝達將造成衝擊？歷史事件證明，黃仁勳不喜歡輸的感覺

DeepSeek攪局，蛇年台股怎麼買？台積電、鴻海、緯創甜甜價可以撿？專家點名下一波飆股，這8檔「長線有好戲」

DeepSeek啟動價格戰反攻...外媒分析戰勝OpenAI關鍵不只如此 CEO奧特曼認錯：會向對手學習並公開模型

DeepSeek春節震撼美國AI股「全面仆倒」！台積電變數增...謝金河：與川普團隊溝通是當務之急

AI界的「偷襲珍珠港」！DeepSeek是什麼？40歲創辦人梁文鋒為何讓輝達、台積電ADR股價重挫，矽谷大佬害怕？

何方神聖〉廣東小城高考狀元意外造出中國AI界鯰魚揭密深度求索創辦人梁文鋒

攻讀碩士期間探索「全自動量化交易」

DeepSeek啟動價格戰反攻...外媒分析戰勝OpenAI關鍵不只如此　CEO奧特曼認錯：會向對手學習並公開模型