《楠楠自語》最近DeepSeek講得風風火火,說甚麼中國AI超越OpenAI云云
。究竟是不是單靠2048張H800顯示卡,就可以造到一個大語言模型?
DeepSeek-V3擁有671億參數,採用MoE混合專家技術,因此每次只須調用
37億參數工作,不用動輒就671億組同時運作。為了高效運作,它配備了智能調度員,確保
每個專家都有任務。DeepSeek-V3還有「MLA」信息過濾器,使模型只關注重要信
息。無輔助損失的負載平衡策略和多令牌預測訓練目標,確保每個專家模型獲得合理的工作量,
並能預測多個步驟。
這當然是一個好的發明,相當於一個圖書館裏面已經做好詳細分類。例如當你想查找金庸小
說,你只須在圖書館大堂看看,一樓存放的是中國文學,那直接去一樓看就好了。
ChatGPT現時的設定就是,你可能須找遍整個九層樓的圖書館才能找到,那當然
DeepSeek所使用的算力和資源會少很多。這的確是DeepSeek的優勢。
但是究竟DeepSeek在學習、建立數據庫和推理的成本,是否如訓練成本般便宜?這
個無從蹊蹺。
但我可以肯定的是,從科技開始發展到現在,無論軟件還是硬件,都是在不停進步。軟件變
得更加有效率的同時,不會對硬件需求造成影響。如果只用十分之一成本就造出現有的AI模型
,那即是我們的AI模型還有十倍的擴充空間,資料庫也可以擴大十倍。
引述《經濟觀察報》專家陳永偉的文章,在19世紀中期,英國工業革命處於高峰期,煤炭
作為主要能源,推動了各領域的發展,但也導致了對煤炭的依賴和過度消耗。英國經濟學家威廉
.斯坦利.杰文斯在1865年的著作《煤炭問題》中表示,隨著經濟發展,煤炭需求將超過供
應,最終導致資源枯竭。杰文斯認為,提高能源使用效率並不會減少總消耗,反而會增加使用,
這被稱為「杰文斯悖論」。
雖然杰文斯的預測未成真,但「杰文斯悖論」在後續研究中多次得到驗證。例如,儘管汽車
燃油效率提高,但汽車保有量和使用量增加,使能源總消耗未顯著減少。同樣,在家庭用電研究
中,節能電器的引入,未帶來預期的能源需求下降。
與此類似,模型訓練的算力需求下降,可能不會減少市場對算力的總需求,反而可能激發更
高的總需求。
而這次DeepSeek的出現,也並非可以完全繞過以Nvidia為核心的硬件群,包
括CUDA及Hopper系列芯片。傳聞現時DeepSeek正就美國將會實施的制裁,而
準備將旗下伺服器機組換成國產GPU,但這也只是傳聞,能造出來再說。
雖然新模型的算力要求降低,但微軟、Google和Meta最近公布的業績內資本開支
的預測不降反升,Google的資本開支甚至由預測的579億美元增加至750億美元。那
是否所有大型科技公司的CEO都是傻子,明知道不用花那麼多錢,也仍然要繼續大撒幣?
各大科技公司都是需要向廣大股東和投資人交代的,不是因為「洗濕咗個頭」而為花而花。
辦公室政治充大頭鬼的說法顯然站不住脚。
因此,以目前大科技股的資本開支來說,半導體企業的績效,今年似乎仍然如日中天。《南
華金融集團副總監 莫灝楠》
*《經濟通》所刊的署名及╱或不署名文章,相關內容屬作者個人意見,並不代表《經濟通》立
場,《經濟通》所扮演的角色是提供一個自由言論平台。
【你點睇?】長和將全球43個港口出售,你是否擔心事件引發漣漪效應,影響本港企業在全球的業務?► 立即投票