DeepSeek의 놀랍도록 저렴한 AI 모델은 업계 규범에 도전합니다. 이 회사는 강력한 Deepseek V3 Neural Network를 2048 GPU를 사용하여 6 백만 달러에 달하는 경쟁 업체를 크게 약화 시켰다고 주장합니다. 그러나이 수치는 사전 훈련 GPU 비용, 실질적인 연구, 개선, 데이터 처리 및 인프라 비용을 생략하는 것만 반영합니다.
이미지 : ensigame.com
DeepSeek V3의 혁신적인 아키텍처는 효율성의 핵심입니다. 사용합니다.
- MTP (Multi-Token Prediction) : 정확도와 속도 향상을 위해 여러 단어를 동시에 예측합니다.
- 전문가 혼합 (MOE) : 256 개의 신경망을 사용하여 각 토큰 당 8 개 활성화, 교육 가속 및 성능 향상.
- 멀티 헤드 잠재주의 (MLA) : 정보 손실을 최소화하고 중요한 뉘앙스를 포착하기 위해 주요 세부 정보를 반복적으로 추출합니다.
이미지 : ensigame.com
낮은 교육 비용 주장에도 불구하고 Semianalysis는 DeepSeek의 실질적인 인프라를 나타 냈습니다 : 약 50,000 NVIDIA HOPPER GPU (10,000 H800, 10,000 H100 및 추가 H20 GPU 포함)는 여러 데이터 센터에 걸쳐 확산되었습니다. 이는 약 16 억 달러의 총 서버 투자를 나타내며 운영 비용은 9 억 9,400 만 달러로 추정됩니다. 이는 공개 된 6 백만 달러의 사전 훈련 비용과 크게 대조됩니다.
이미지 : ensigame.com
중국 헤지 펀드 인 High-Flyer의 자회사 인 DeepSeek는 데이터 센터를 소유하여 제어력과 더 빠른 혁신 구현을 제공합니다. 자체 자금을 지원하는 자연은 민첩성을 향상시킵니다. 이 회사는 중국 최고의 인재를 유치하며 일부 연구자들은 매년 130 만 달러 이상을 벌고 있습니다. DeepSeek의 비용 효율성은 상대적이지만 성공은 상당한 투자, 기술 발전 및 고도로 숙련 된 팀에서 비롯됩니다.
이미지 : ensigame.com
회사의 AI 개발에 대한 전반적인 투자는 5 억 달러를 초과합니다. 간소화 된 구조는 더 큰 관료 조직에 비해 효율적인 혁신을 촉진합니다. "혁명 예산"이야기는 틀림없이 팽창되지만 DeepSeek의 모델 교육 비용 (R1의 경우 5 백만 달러)은 여전히 ChatGPT4O (1 억 달러)와 같은 경쟁 업체를 크게 약화시킵니다. 궁극적으로 DeepSeek은 자금을 지원하는 독립적 인 AI 회사가 기존 거인들과 효과적으로 경쟁 할 수있는 잠재력을 보여줍니다.
