在今天看見明天
熱門: 0056 0050 輝達 00878 00940
投資理財
保險稅制
產業時事
職場生活
今周大耳朵 Podcast
富足今周起
幸福熟齡
ESG永續台灣
專題報導
今選頻道
存股助理
今周學堂
訂購優惠
活動報名

何方神聖〉廣東小城高考狀元 意外造出中國AI界鯰魚 揭密深度求索創辦人梁文鋒

何方神聖〉廣東小城高考狀元  意外造出中國AI界鯰魚   揭密深度求索創辦人梁文鋒

黃煒軒

科技

達志勿轉

1468期

2025-02-05 09:22

(今周刊1468)

過去一周,一款由中國AI新創深度求索所推出的大型語言模型DeepSeek-R1,在全球資本市場颳起一陣旋風,也讓矽谷科技巨擘為之瘋狂。究竟,這家成立不到兩年的新創公司有何本事?它的創辦人又是何方神聖?

「我們不是故意要成為一條鯰魚,只是,不小心成了一條鯰魚⋯⋯。」這是中國AI新創公司深度求索(DeepSeek)創辦人梁文鋒,在去年中接受中國媒體採訪時的一段談話。

 

DeepSeek,梁文鋒;一家公司,一號人名,也是過去一周間,全球資本市場最火熱的兩個關鍵詞。

 

時序,先回到去年6月。

 

當時,DeepSeek發布了一款名叫DeepSeek-V2的大型語言模型,因其在特定推理任務上展現的優異性能,引起了中國科技圈的廣泛關注;此外,V2相較國際指標語言模型更為低廉的訓練與開發成本,也在字節跳動、阿里巴巴、百度、騰訊等中國一線AI科技大廠之間,掀起了一場意料之外的「價格戰」,被外界形容為是中國AI界的「鯰魚效應」。

 

梁文鋒

(圖/視覺中國)

 

篤信AI終將改變世界

攻讀碩士期間  探索「全自動量化交易」

 

然而,半年過去,就在中國科技大廠仍心有餘悸之際,這條鯰魚,在最新一代DeepSeek-R1模型的「助攻」下,無預警地,游到了太平洋的另一端,震撼了矽谷科技巨擘,嚇壞了華爾街與歐美政壇。

 

一時之間,全世界都在問,DeepSeek是何方神聖?梁文鋒又是誰?而DeepSeek背後的「金主」幻方量化,又是一家什麼樣的機構?

 

答案,得先從廣東西南部的一座小城——湛江說起。

 

矽谷人稱「來自東方神祕力量」的梁文鋒,1985年出生於廣東湛江吳川巿的一個小村落——米歷嶺村。據家鄉人的說法,梁文鋒自小就精通數理,初中時期就學完了高中數學,甚至開始自學大學的微積分等課程。

 

2002年,梁文鋒以吳川一中「高考狀元」的成績,考上近年直追清華、北大,中國國內綜合排名長期位居前五的浙江大學,並在2006年及2010年,分別取得電子資訊工程和計算機科學的學士和碩士學位。

 

在攻讀碩士、專研機器學習的期間,梁文鋒開始對AI的發展和潛力應用產生興趣,並篤信「人工智慧終將改變世界」。

 

信念,很快地轉化為行動。

 

正當美國次貸風暴席捲全球的2008年,還在攻讀碩士的梁文鋒,與幾個志同道合的同校友人,開始嘗試運用機器學習技術,收集金融市場即時行情與總體經濟等相關數據,探索「全自動量化交易」的可能性。這成為他日後成立對沖基金「幻方量化」的基礎。

 

量化策略全採AI模型計算

成立不滿3年資產管理規模破億人民幣

 

2013年起,梁文鋒與同是浙大畢業、待過華為上海研究所的校友徐進,以及另一校友、曾任盛大網絡旗下創新研究院的鄭達韡開始合夥創業,陸續成立投資公司、資產管理公司,其中,2016年成立的寧波幻方量化最廣為人知,而包含寧波幻方、浙江九章資產等多家「幻方系」企業,梁文鋒皆持股過半,為最終的實際控制人。

 

幻方量化的擴張速度非常快。2016年,幻方量化第一個由AI模型產生的股票實盤交易上線,使用GPU(繪圖處理器)進行運算。截至2017年底,該公司幾乎所有的量化策略,都已採用AI模型計算。

 

只用不到3年時間,幻方量化的資產管理規模就突破百億人民幣(以下單位同),躋身中國量化私募領域的「四天王」之列。2021年,一舉突破千億元大關,登上四天王之首。成立至今,幻方量化已連續多年拿下中國私募證券領域的最高獎項「金牛獎」。

 

一路猛爆性的成長,相當程度反映在幻方的「成績單」上。以幻方旗下旗艦產品、2018年成立的「量化對沖X號」為例,其截至2024年3月的平均年化報酬率,達到28.5%,為同期滬深三百指數的兩倍以上。在巔峰的2021年,幻方旗下產品的年化報酬率更是高達35%。

 

外界普遍認為如此不俗的成績,來自於幻方背後強大的「算力」。

 

其實,從幻方量化成立的第一年起,梁文鋒就意識到幻方迫切需要更多的算力,2019年時便由幻方轉投資一家AI基礎研究公司,投入兩億元自主研發深度學習的訓練平台「螢火一號」。據稱,平台搭載了1100塊的GPU顯卡。

 

約當同時,梁文鋒開始大量囤積來自輝達的顯卡。在梁文峰參與的一篇技術論文裡寫道,幻方於2021年耗資10億元推出的改良版「螢火二號」,就部署了多達一萬張的輝達A100顯卡。而據中國業內人士估算,幻方的螢火超算平台,算力至少是同業平均的10倍以上,每秒可處理高達數百萬條的市場資訊。

 

梁文鋒與「深度求索」大事紀

 

積極探索「算力的可能性」

進軍AGI  高「性價比」模型投震撼彈

 

就在梁文鋒熱中於打造營火平台時,幻方在量化投資績效也趨於平緩,以綜合平均報酬和中位數的報酬率來看,在中國私募排行榜中,去年幻方的績效排在第19位,前一年更僅排在第32位,雖不算太差,但顯然不及幾年前的光彩。

 

恰好此時,ChatGPT橫空問世,讓原本就對「算力的可能性」充滿各種探索渴望與想像的梁文鋒,發現下一個值得追求的目標:通用人工智慧(AGI)。

 

2023年5月,38歲的梁文鋒宣布進軍AGI;兩個月後,DeepSeek正式成立。

 

一開始,DeepSeek推出的DeepSeek Coder(免費且開源的首個模型)、DeepSeek LLM(第一個大語言模型),都未引起太多關注。直到去年5月,DeepSeek發布DeepSeek V2的開源模型後,中國AI大廠的警報聲,才開始響起。

 

V2模型在中國AI界掀起波瀾,除了是因性能優異,但更根本的關鍵,在於由DeepSeek公告的V2「性價比」,可謂「史無前例」。

 

根據官方數據,V2的推理成本每百萬詞元(token)僅需1元人民幣,換算下來,這只是Meta的LLaMA 3 70B模型成本的七分之一,更僅有GPT-4 Turbo的七十分之一。

 

等到去年底發表的DeepSeek-V3,該模型的效能不僅足以對標OpenAI最先進模型GPT-4o,訓練成本更僅約557.6萬美元; GPT-4o模型的訓練成本至少需要1億美元,DeepSeek僅用了約二十分之一的算力資源,就達到了相同的效能。

 

今年1月,DeepSeek-R1模型的發布,更宛如在AI界投下一枚深水炸彈,知名美國數據標記新創Scale AI創辦人汪滔(Alexandr Wang)感嘆,過去十年來,美國一直在人工智慧競賽中領先中國,「但DeepSeek的AI大模型,很可能會改變這一切。」

 

這家成立僅一年多的AI新創公司,為何能如此讓全球科技巨擘都為之震顫?

 

答案,或可從梁文鋒獨特的管理與用人哲學,窺探出一絲端倪。

 

首先,是在招募上的特定堅持。

 

「我們的核心技術職位,基本上以應屆和畢業一兩年的人為主。」梁文鋒曾表示,在招募人員上, 他首重的是能力,至於經驗,反而是「扣分項」。

 

根據公開數據,DeepSeek目前約一四○位的工程師團隊,幾乎清一色都是應屆畢業生或博士在讀生,且多數來自清華、北大、北郵、北航等以電腦專業聞名的一線中國頂尖大學。「工作經驗在3到5年,已經是最多了,工作超過8年的,基本就pass了。」一名親近Deepseek的獵頭如此觀察。

 

對此,梁文鋒曾解釋:經驗不是不好,但對創新來說,過多的經驗往往是種「阻礙」。

 

他舉例,做一件事,有經驗的人,常常會不假思索告訴你,應該這樣做,「但沒有經驗的人,則會反覆摸索、很認真去想應該怎麼做。」他觀察,最終新人的解方,往往更有「突破性」。

 

不僅如此,招募新人時,DeepSeek還非常看重他們在國際知名程式設計競賽的表現,「基本是『金獎』以下就不要了。」一名協力廠商指出。

 

1月20日,中國國務院總理李強召開專家座談會,與 會的DeepSeek創辦人梁文鋒,是在場唯一來自AI界 的企業領袖。

1月20日,中國國務院總理李強召開專家座談會,與會的DeepSeek創辦人梁文鋒,是在場唯一來自AI界的企業領袖。(圖/取自央視網)

 

主張「不干預」

全面授權、無為管理方式成創新泉源

 

梁文鋒自然也提供比中國一線科技大廠更優渥的薪資待遇,來吸引年輕人,但他授權、無為的管理方式,更是留才的關鍵。

 

「每個人都有自己獨特的成長經歷,都是自帶想法的,不需要push他⋯⋯,當一個idea顯示出潛力,我們也會自上而下地去調配資源。」梁文鋒曾在訪談中如此形容他的「不干預」哲學。

 

梁文鋒自己就曾在訪談中透露,讓DeepSeek模型訓練成本大降的重中之重:「多頭潛在注意力架構(MLA)」,最初就是來自一個年輕研究員的個人興趣,「我們為此組了一個team,花了幾個月的時間才跑通。」

 

最終,推動DeepSeek快速前進的動力,則是來自梁文鋒個人長年對基礎研究的熱愛,以及對「開源」理念的堅定信仰。

 

談及梁文鋒,不少員工對他的形容是,與其說他像個老闆,不如說他更像個「極客」(geek)。梁文鋒的日常,就是看論文、寫代碼、參與小組討論,是少有具備一線研究員能力的公司掌舵者。

 

親力親為的投入,來自於他對中國的AI發展,始終懷抱著某種願景和理想。梁文鋒曾表示,長遠來說,DeepSeek希望形成一個開源的生態系,讓業界可以直接使用他們的技術,去發展To B和To C的業務,而DeepSeek,就只專注負責基礎模型的開發和前沿的創新。

 

他曾感嘆,中國AI和美國的真正差距,是來自「原創和模仿」的差距。「如果這不改變,中國永遠只能是追隨者。」

 

但,梁文鋒樂觀認為,隨著中國經濟下行,資本進入冷週期,整個社會和產業,對發展AI基礎這樣的「硬派創新」,將愈來愈重視,「因為錢不好賺了,(現在許多人)連開計程車的機會可能都沒了。」他觀察,當多數人發現,過去賺快錢很可能來自「時代運氣」,就會更願意俯身去做「真正的創新」。

 

如今,DeepSeek火爆全球,微軟、輝達、亞馬遜等一線美國科技大廠,乃至中國的百度、阿里巴巴等,紛紛高調宣告擁抱DeepSeek R1的服務之際,梁文鋒孜孜矻矻追求的「硬派創新」夢想,或許,已在實現的道路上。

延伸閱讀
DeepSeek之亂引爆半導體股短線重挫,對輝達將造成衝擊?歷史事件證明,黃仁勳不喜歡輸的感覺
DeepSeek之亂引爆半導體股短線重挫,對輝達將造成衝擊?歷史事件證明,黃仁勳不喜歡輸的感覺

2025-02-03

DeepSeek攪局,蛇年台股怎麼買?台積電、鴻海、緯創甜甜價可以撿?專家點名下一波飆股,這8檔「長線有好戲」
DeepSeek攪局,蛇年台股怎麼買?台積電、鴻海、緯創甜甜價可以撿?專家點名下一波飆股,這8檔「長線有好戲」

2025-02-03

DeepSeek啟動價格戰反攻...外媒分析戰勝OpenAI關鍵不只如此 CEO奧特曼認錯:會向對手學習並公開模型
DeepSeek啟動價格戰反攻...外媒分析戰勝OpenAI關鍵不只如此 CEO奧特曼認錯:會向對手學習並公開模型

2025-02-03

DeepSeek春節震撼美國AI股「全面仆倒」!台積電變數增...謝金河:與川普團隊溝通是當務之急
DeepSeek春節震撼美國AI股「全面仆倒」!台積電變數增...謝金河:與川普團隊溝通是當務之急

2025-01-31

AI界的「偷襲珍珠港」!DeepSeek是什麼?40歲創辦人梁文鋒為何讓輝達、台積電ADR股價重挫,矽谷大佬害怕?
AI界的「偷襲珍珠港」!DeepSeek是什麼?40歲創辦人梁文鋒為何讓輝達、台積電ADR股價重挫,矽谷大佬害怕?

2025-01-27