滿拓科技獨家壓縮技術,搭上群聯的SSD解決方案,竟然打造出比輝達H100建置成本便宜七五%的生成式AI訓練機,他們是如何辦到的?
隨著生成式AI需求暴增,用以訓練大語言模型的輝達繪圖卡(GPU)H100因而全球大缺貨,也讓台灣半導體廠商看到商機。NAND Flash控制IC設計業者群聯,以輝達工作站等級繪圖卡RTX 4000整合SSD(固態硬碟),就不需使用輝達H100,且更比僅用H100的建置成本節省七五%以上。而這個解決方案中,少不了僅成立五年的新創——滿拓科技的協助。
讓工作站級繪圖卡跑得動
它的微型化軟體是關鍵
滿拓執行長吳昕益過去在網通IC大廠瑞昱任職,他表示,二○一六年回清華大學就讀博士時,眼見AI即將成為趨勢,促使他在一八年成立滿拓,投入AI晶片設計。公司研發的微型化IP(矽智財)、軟體技術,能將資料傳輸量壓縮九成,誤差卻可小於一%,不僅能大幅提升資料傳送效率,後來更發現,「我們當時就是在做AI模型中的推論晶片,我們已經把基礎準備好了。」
此外,以滿拓的技術壓縮模型進行低精度運算,可以大幅降低GPU算力以及功耗需求。
當時,滿拓成功打入幾家台灣客戶、進行概念化驗證(PoC),導入的產業包括智慧工廠、智慧交通等。不過受限於AI應用過於廣泛、整體需求量不大,滿拓年營收沒有太大的成長,始終徘徊在一、兩千萬元上下。
不過機會也在二三年找上門,投資滿拓的群聯執行長潘健成表示,群聯原本計畫將滿拓開發的 NPU IP(神經網路處理單元)導入群聯NAND控制器IC,然而,NPU被整合進CPU已是現在進行式,群聯與滿拓討論過後決定轉型,搶攻生成式AI訓練機這個全新的市場。
不過,生成式AI訓練機跟滿拓,有什麼關係?潘健成觀察,訓練大語言模型需要占用大量記憶體空間,但輝達H100內建的HBM(高頻寬記憶體)容量有限,需要多買幾張繪圖卡,才有足夠記憶體空間跑模型,「比如Meta的大語言模型Llama 2有七百億個參數,光是訓練就至少需要用到十八張 H100。」