Ang nakakagulat na Deepseek ay murang mga hamon sa modelo ng AI na mga pamantayan sa industriya. Inaangkin ng kumpanya na sinanay ang malakas na deepseek V3 neural network para sa isang $ 6 milyon lamang gamit ang 2048 GPU, na makabuluhang sumasaklaw sa mga kakumpitensya. Gayunpaman, ang figure na ito ay sumasalamin lamang sa mga gastos sa pre-training GPU, pagtanggal ng malaking pananaliksik, pagpipino, pagproseso ng data, at mga gastos sa imprastraktura.
Imahe: ensigame.com
Ang makabagong arkitektura ng Deepseek V3 ay susi sa kahusayan nito. Gumagamit ito:
- Multi-Token Prediction (MTP): Paghuhulaan ng maraming mga salita nang sabay-sabay para sa pinahusay na kawastuhan at bilis.
- Paghahalo ng mga eksperto (MOE): Paggamit ng 256 Neural Networks, pag -activate ng walong para sa bawat token, pabilis na pagsasanay at pagpapahusay ng pagganap.
- Multi-head Latent Pansin (MLA): Paulit-ulit na kumukuha ng mga pangunahing detalye upang mabawasan ang pagkawala ng impormasyon at makuha ang mga mahahalagang nuances.
Imahe: ensigame.com
Sa kabila ng mababang pag -angkin ng gastos sa pagsasanay, ang semianalysis ay nagsiwalat ng malaking imprastraktura ng Deepseek: humigit -kumulang 50,000 NVIDIA HOPPER GPUs (kabilang ang 10,000 H800, 10,000 H100, at karagdagang mga H20 GPU) na kumalat sa maraming mga sentro ng data. Ito ay kumakatawan sa isang kabuuang pamumuhunan ng server na humigit -kumulang na $ 1.6 bilyon, na may mga gastos sa pagpapatakbo na tinatayang $ 944 milyon. Ito ay kaibahan nang matindi sa naisapubliko na $ 6 milyong pre-pagsasanay na gastos.
Imahe: ensigame.com
Ang Deepseek, isang subsidiary ng High-Flyer, isang pondo ng hedge ng Tsino, ay nagmamay-ari ng mga sentro ng data nito, na nagbibigay ng kontrol at mas mabilis na pagpapatupad ng pagbabago. Ang kalikasan na pinondohan ng sarili ay nagpapabuti ng liksi. Ang kumpanya ay umaakit sa nangungunang talento ng Tsino, na may ilang mga mananaliksik na kumikita ng higit sa $ 1.3 milyon taun -taon. Habang ang pagiging epektibo ng cost-effective ng Deepseek, ang tagumpay nito ay nagmula sa malaking pamumuhunan, pagsulong sa teknolohiya, at isang mataas na bihasang koponan.
Imahe: ensigame.com
Ang pangkalahatang pamumuhunan ng kumpanya sa pag -unlad ng AI ay lumampas sa $ 500 milyon. Ang streamline na istraktura nito ay nagpapadali ng mahusay na pagbabago kumpara sa mas malaki, mas maraming mga burukratikong organisasyon. Habang ang salaysay na "rebolusyonaryong badyet" ay maaaring mapalaki, ang mga gastos sa pagsasanay sa modelo ng Deepseek ($ 5 milyon para sa R1) ay makabuluhang sumasaklaw pa rin sa mga kakumpitensya tulad ng Chatgpt4O ($ 100 milyon). Sa huli, ipinapakita ng Deepseek ang potensyal ng isang mahusay na pinondohan, independiyenteng kumpanya ng AI upang makipagkumpetensya nang epektibo sa mga naitatag na higante.