DeepSeek的廉價AI模型令人驚訝地挑戰了行業規範。該公司聲稱使用2048 GPU培訓了其功能強大的DeepSeek V3神經網絡,僅需600萬美元,大大削弱了競爭對手。但是,該數字僅反映了培訓前的GPU成本,省略了大量研究,改進,數據處理和基礎設施費用。
圖像:ensigame.com
DeepSeek V3的創新架構是其效率的關鍵。它利用:
- 多語預測(MTP):同時預測多個單詞,以提高準確性和速度。
- 專家(MOE)的混合物:使用256個神經網絡,每個令牌激活8個,加速培訓並提高性能。
- 多頭潛在注意力(MLA):反複提取關鍵細節以最大程度地減少信息丟失並捕獲至關重要的細微差別。
圖像:ensigame.com
盡管培訓成本較低,但半分析揭示了DeepSeek的大量基礎設施:大約50,000個NVIDIA HOPPER GPU(包括10,000 H800、10,000 H100和額外的H20 GPU)在多個數據中心擴展。這代表了一項總服務器投資約16億美元,運營成本估計為9.44億美元。這與公開的600萬美元的預培訓成本形成鮮明對比。
圖像:ensigame.com
中國對衝基金High-Flyer的子公司DeepSeek擁有其數據中心,提供控製和更快的創新實施。它的自資助性質增強了敏捷性。該公司吸引了中國頂級人才,一些研究人員每年收入超過130萬美元。盡管DeepSeek的成本效益是相對的,但其成功源於大量投資,技術進步和高技能的團隊。
圖像:ensigame.com
該公司對AI開發的總體投資超過5億美元。與更大的官僚組織相比,其簡化的結構有助於有效的創新。盡管“革命性預算”的敘述可以說是誇大的,但DeepSeek的模型培訓成本(R1的500萬美元)仍然大大降低了諸如Chatgpt4o(1億美元)的競爭對手。最終,DeepSeek展示了一家資金充足,獨立的AI公司與已建立的巨頭有效競爭的潛力。
