O modelo de IA surpreendentemente barato de Deepseek desafia as normas da indústria. A empresa afirma ter treinado sua poderosa rede neural Deepseek V3 por meros US $ 6 milhões usando 2048 GPUs, subcotando significativamente os concorrentes. No entanto, esse número apenas reflete os custos de GPU pré-treinamento, omitindo pesquisas substanciais, refinamento, processamento de dados e despesas de infraestrutura.
imagem: ensigame.com
A arquitetura inovadora da DeepSeek V3 é essencial para sua eficiência. Utiliza:
- Previsão com vários toques (MTP): Prevendo várias palavras simultaneamente para melhorar a precisão e a velocidade.
- Mistura de especialistas (MOE): Empregando 256 redes neurais, ativando oito para cada token, acelerando o treinamento e aprimorando o desempenho.
- Atenção latente de várias cabeças (MLA): Extraindo repetidamente os principais detalhes para minimizar a perda de informações e capturar nuances cruciais.
imagem: ensigame.com
Apesar da reivindicação de baixo custo de treinamento, a semiânica revelou a infraestrutura substancial da Deepseek: aproximadamente 50.000 GPUs NVIDIA Hopper (incluindo 10.000 H800, 10.000 H100 e GPUs H20 adicionais) se espalharam por vários data centers. Isso representa um investimento total do servidor de aproximadamente US $ 1,6 bilhão, com custos operacionais estimados em US $ 944 milhões. Isso contrasta fortemente com o custo pré-treinamento de US $ 6 milhões divulgado.
imagem: ensigame.com
A Deepseek, uma subsidiária da High-Flyer, um fundo de hedge chinês, possui seus data centers, fornecendo controle e implementação mais rápida da inovação. Sua natureza autofinanciada aumenta a agilidade. A empresa atrai os principais talentos chineses, com alguns pesquisadores ganhando mais de US $ 1,3 milhão anualmente. Embora a relação custo-benefício da Deepseek seja relativa, seu sucesso decorre de investimentos substanciais, avanços tecnológicos e uma equipe altamente qualificada.
imagem: ensigame.com
O investimento geral da empresa no desenvolvimento da IA excede US $ 500 milhões. Sua estrutura simplificada facilita a inovação eficiente em comparação com organizações maiores e mais burocráticas. Enquanto a narrativa do "orçamento revolucionário" é indiscutivelmente inflado, os custos de treinamento de modelos da Deepseek (US $ 5 milhões para R1) ainda prejudicam significativamente os concorrentes como o ChatGPT4O (US $ 100 milhões). Por fim, a Deepseek demonstra o potencial de uma empresa de IA independente e bem financiada para competir efetivamente com gigantes estabelecidos.
