DeepSeek V4 : performance, prix cassés, et validation du pari des puces chinoises

Mathieu

Alpha & Oméga
Admin
15 Oct 2006
9 610
4 926
298
Shanghai, People Square
www.murailledechine.com
Le 24 avril, la startup de Hangzhou a publié la preview de deux nouveaux modèles open-source, V4-Pro et V4-Flash. Performance comparable au sommet du marché fermé sur les benchmarks de code et de raisonnement, prix d'API quatre à sept fois inférieurs aux concurrents américains. Mais le fait majeur est ailleurs : V4 a été entraîné de bout en bout sur les puces Ascend de Huawei. Pour la première fois, un modèle frontière valide la possibilité d'un écosystème IA chinois affranchi de Nvidia, et fait basculer le débat sur l'efficacité des contrôles d'exportation américains.

ModèleOutput / 1M tokens
DeepSeek V4-Pro3,48 $
DeepSeek V4-Flash0,28 $
GPT-5.4 (OpenAI)15 $
Claude Opus 4.6 (Anthropic)25 $
GPT-5.5 (OpenAI, sorti la veille)30 $
Kimi K2 (Moonshot AI)4 $




Ce que DeepSeek a sorti vendredi​

V4-Pro embarque 1,6 trillion de paramètres totaux dont 49 milliards actifs par token, dans une architecture Mixture of Experts (MoE) classique chez DeepSeek. V4-Flash en compte 284 milliards (13 milliards actifs). Les deux modèles sont open-weights sous licence MIT, exécutables localement, accessibles via l'API DeepSeek (compatible OpenAI ChatCompletions et Anthropic) et téléchargeables depuis Hugging Face. La fenêtre de contexte atteint un million de tokens, soit l'équivalent d'environ 750 000 mots.

Sur les benchmarks publiés par DeepSeek, V4-Pro mène en code (LiveCodeBench 93,5 contre 91,7 pour Gemini 3.1-Pro et 88,8 pour Claude Opus 4.6), domine en programmation compétitive (Codeforces 3206 contre 3168 pour GPT-5.4), et se hisse en tête sur plusieurs benchmarks agentiques dont MCPAtlas Public et Toolathlon. La connaissance générale reste le seul terrain où Gemini garde un avantage net (Humanity's Last Exam à 44,4 contre 37,7 pour V4-Pro). Le rapport technique de DeepSeek reconnaît un retard estimé de trois à six mois sur la frontière fermée.

Le calendrier mérite d'être noté. OpenAI a sorti GPT-5.5 le 23 avril, Anthropic teste son modèle Mythos en accès restreint, et DeepSeek arrive le lendemain. Ivan Su (Morningstar) résume la différence avec le moment R1 de janvier 2025 : le marché a déjà intégré le fait que l'IA chinoise est compétitive et moins chère, l'effet de surprise ne se reproduit pas. Les actions tech américaines n'ont pas réagi.




Le vrai sujet : l'IA chinoise sans Nvidia​

R1, en janvier 2025, avait été entraîné sur des Nvidia (H800 principalement, achetés avant les restrictions). V4 a été entraîné en intégralité sur des Ascend de Huawei, complétés par des puces Cambricon. La transition est complète. C'est la première fois qu'un modèle au niveau de la frontière sort sans avoir touché un GPU Nvidia.

L'objectif des contrôles d'exportation américains, depuis octobre 2022, était précisément d'empêcher la convergence de trois éléments sur le sol chinois : un modèle de pointe, un hardware compétitif, et un écosystème logiciel intégré. V4 marque le moment où cette convergence cesse d'être théorique. Que l'écart de génération avec les puces Nvidia se referme entièrement ou non importe moins que le fait qu'un acteur ait démontré qu'on pouvait s'en passer.

L'effet bourse a été immédiat. À Hong Kong vendredi, SMIC a pris environ 9 à 10 %, Hua Hong Semiconductor 15 %. Les concurrents directs de DeepSeek dans l'écosystème AI chinois ont chuté : MiniMax et Knowledge Atlas (Zhipu) à environ moins 8 %, Manycore Tech à moins 9 %. Le marché a lu la sortie comme un transfert de valeur depuis les éditeurs de modèles concurrents vers la chaîne d'approvisionnement matérielle nationale.

Huawei a annoncé un support complet via sa technologie de cluster Supernode, basée sur les Ascend 950. DeepSeek a indiqué qu'il pourrait baisser encore les prix de V4-Pro à mesure que la production des Ascend 950 monte en puissance.

Jensen Huang a dit:
Le jour où DeepSeek sortira d'abord sur Huawei sera un mauvais résultat pour les États-Unis.

C'est désormais le cas. Et il faut s'arrêter sur le contexte dans lequel Huang a prononcé cette phrase.




Jensen Huang acte la réalité​

Une semaine avant la sortie de V4, le PDG de Nvidia s'est exprimé sur le podcast Dwarkesh et a livré un constat qui mérite d'être lu attentivement, parce qu'il vient de la dernière source dont on l'attendrait : un dirigeant qui a tout intérêt commercial à minimiser la capacité chinoise.

Huang ne la minimise pas, il l'établit. La Chine fabrique 60 % des chips mainstream mondiaux, héberge la moitié des chercheurs en IA selon ses chiffres, et dispose d'une énergie abondante là où les États-Unis se heurtent à un mur de capacité électrique. Huawei vient de boucler la plus grande année en volume de son histoire, avec des livraisons de puces qui se comptent en millions d'unités. La thèse selon laquelle les contrôles d'exportation empêcheraient la Chine de disposer du compute nécessaire pour entraîner et déployer des modèles frontière est, selon ses propres mots, dénuée de tout fondement.

Sur le plan technique, son argument est précis. Les puces gravées en 7 nanomètres correspondent en gros à la génération Hopper de Nvidia, sur laquelle reposent encore aujourd'hui la majorité des modèles entraînés dans le monde. Le verrou supposé sur la mémoire HBM avancée (qui exigerait des machines EUV inaccessibles à la Chine) peut être contourné par l'agrégation et l'interconnexion silicium-photonique, exactement ce que fait la technologie Supernode de Huawei. Et là où les États-Unis doivent optimiser à l'extrême la performance par watt parce que l'énergie y est rare, la Chine peut se permettre de cumuler davantage de puces moins efficaces, parce que l'énergie y est abondante.

Surtout, Huang renverse le récit dominant. Si les chercheurs chinois sont contraints en compute, ils compensent en concevant des algorithmes plus efficaces. La loi de Moore avance d'environ 25 % par an, dit-il, mais des innovations algorithmiques peuvent multiplier la performance par dix. C'est exactement la trajectoire DeepSeek depuis V3, et l'architecture d'attention hybride de V4 en est la dernière itération.

Le constat est donc cohérent : l'écosystème que les contrôles d'exportation cherchaient à empêcher d'émerger a déjà franchi son seuil critique. V4 n'est pas la cause de cette bascule, c'est sa démonstration.





Pourquoi le prix est aussi bas​

Comparer 3,48 $ à 25 $ par million de tokens en sortie ne raconte pas grand-chose tant qu'on ne décompose pas ce qui produit l'écart. Cinq facteurs distincts se cumulent.

L'architecture MoE. Sur un modèle dense classique, chaque token mobilise l'intégralité des paramètres. Sur V4-Pro, le routage interne n'active que 49 milliards de paramètres sur les 1,6 trillion disponibles. Le coût d'inférence se calcule sur les paramètres actifs, pas sur le total. C'est le levier le plus structurel. La capacité du modèle est massive, mais la facture compute correspond à un modèle de taille moyenne.

L'attention hybride. DeepSeek a remplacé l'attention standard par deux mécanismes complémentaires (Compressed Sparse Attention pour la sélection sparse, Heavily Compressed Attention pour le contexte profond). À 1 million de tokens, V4-Pro requiert 27 % des FLOPs par token et 10 % du cache mémoire (KV cache) de son prédécesseur V3.2. V4-Flash descend respectivement à 10 % et 7 %. Concrètement, à matériel identique, un serveur traite plusieurs fois plus de requêtes en parallèle. Le coût marginal par requête s'effondre.

La précision mixte FP4 et FP8. Les paramètres des experts MoE sont stockés en FP4 (4 bits par poids), le reste du modèle en FP8 (8 bits). Cette quantification réduit la mémoire occupée et accélère les calculs sur les accélérateurs modernes. Là où la plupart des modèles frontière tournent en BF16 (16 bits), DeepSeek divise par deux à quatre l'empreinte mémoire de l'inférence sans perte significative de qualité.

La sortie de l'écosystème Nvidia. Servir le modèle sur Ascend supprime la marge que Nvidia et AMD imposent sur leurs GPU haut de gamme. Sur de l'inférence à grande échelle, ce poste représente une part significative du coût final.

La structure économique d'un lab open-source chinois. OpenAI et Anthropic supportent des coûts massifs de R&D, de sécurité, d'infrastructure cloud globale et de support entreprise, qu'ils répercutent sur le prix de l'API. Les deux ont d'ailleurs augmenté leurs tarifs ces derniers mois et imposé des limites de débit pour gérer la demande. DeepSeek, structurellement adossé au hedge fund High-Flyer, choisit une marge basse pour conquérir la part de marché développeur. La logique vise l'adoption massive et le verrouillage de l'écosystème agentique chinois autour des modèles maison.

Le tarif input cache hit illustre bien la stratégie. Quand un développeur réutilise le même contexte (ce qui arrive en permanence dans les agents qui maintiennent un long historique), DeepSeek facture 0,145 $ par million de tokens pour V4-Pro et 0,028 $ pour V4-Flash. Sur des workloads agentiques répétitifs, l'économie devient massive.




Ce que ça change pour le marché​

La réponse pratique des observateurs occidentaux tient en quelques points. VentureBeat note que des charges de travail considérées comme trop chères sur GPT-5.5 ou Claude Opus 4.7 deviennent économiquement viables sur V4-Pro, et triviales sur V4-Flash. Les équipes qui dimensionnent des produits agentiques (où le coût des tokens est le poste dominant) voient leur arbitrage pivoter.

Dans le même temps, les limites de V4 sont réelles. Le modèle est en preview et n'offre pas la stabilité d'API attendue d'une release production. Il reste texte uniquement, sans capacité multimodale. Les accusations de distillation portées par Anthropic en février, et reprises dans le mémo Kratsios du 24 avril (Bureau de la science et de la technologie de la Maison-Blanche), introduisent un risque compliance pour les organisations régulées, indépendamment des benchmarks. Le ministère chinois des Affaires étrangères a qualifié ces accusations de sans fondement.

Sur le plan industriel, DeepSeek serait en discussion avec Tencent et Alibaba pour une levée de fonds qui valoriserait la société à 20 milliards de dollars, selon le Financial Times et The Information. Le besoin n'est pas le cash (High-Flyer en dispose) mais la rétention des chercheurs face à des labs concurrents mieux valorisés. C'est le signal d'une normalisation : DeepSeek devient un acteur structurant qui doit gérer ses ressources humaines comme n'importe quelle entreprise du secteur.

L'indice composite Artificial Analysis Intelligence v4.0 place V4-Pro Max à 52 et V4-Flash Max à 47. Au-dessus de la médiane open-weights, en deçà des frontières fermées. La trajectoire DeepSeek reste cohérente : un peu en retrait sur la pointe absolue, très loin devant en rapport performance-prix, et désormais affranchie de Nvidia.




💬 V4 dans votre stack ? Le prix change-t-il votre arbitrage entre modèles ouverts et fermés ? Vos retours d'usage en commentaires.

DeepSeek API Docs (annonce officielle V4) : https://api-docs.deepseek.com/news/news260424
Hugging Face — collection DeepSeek-V4 : https://huggingface.co/collections/deepseek-ai/deepseek-v4
Hugging Face Blog (analyse technique) : https://huggingface.co/blog/deepseekv4
VentureBeat (analyse coûts) : https://venturebeat.com/technology/deepseek-v4-arrives-with-near-state-of-the-art-intelligence-at-1-6th-the-cost-of-opus-4-7-gpt-5-5
Fortune (intégration Huawei) : https://fortune.com/2026/04/24/deepseek-v4-ai-model-price-performance-china-open-source/
CNBC (réception marché) : https://www.cnbc.com/2026/04/24/deepseek-v4-llm-preview-open-source-ai-competition-china.html
CNN Business : https://www.cnn.com/2026/04/24/tech/chinas-ai-deepseek-v4-intl-hnk
Euronews : https://www.euronews.com/next/2026/...s-everything-to-know-as-the-ai-race-speeds-up
Al Jazeera : https://www.aljazeera.com/economy/2...atest-model-a-year-after-upending-global-tech
Artificial Analysis — V4-Pro : https://artificialanalysis.ai/models/deepseek-v4-pro
Artificial Analysis — V4-Flash : https://artificialanalysis.ai/models/deepseek-v4-flash
OfficeChai (benchmarks détaillés) : https://officechai.com/ai/deepseek-v4-pro-deepseek-v4-flash-benchmarks-pricing/
 
J'ai mergé la news DeepSeek V4 avec l'interview récente de Jensen Huang sur le podcast Dwarkesh, parce que c'est son analyse qui donne sa vraie portée à la news. Au-delà des qualités du modèle, V4 valide surtout la stratégie chinoise en matière de semi-conducteurs.

Le raisonnement de Huang en deux temps.
  • D'abord les puces chinoises sont moins avancées que les dernières Nvidia, donc il en faut plus pour la même puissance, donc plus d'énergie. Sauf que c'est précisément l'inverse de la contrainte américaine : les US doivent optimiser à l'extrême la performance par watt parce que l'énergie y est rare, alors que la Chine peut se permettre d'empiler des puces moins efficaces parce que l'énergie y est abondante. L'asymétrie joue à plein.

  • Ensuite, le manque relatif de compute pousse les chercheurs chinois vers des algorithmes plus efficaces. DeepSeek en est l'illustration directe : architecture MoE, attention hybride, précision FP4. La contrainte produit la créativité.

Résultat : les Chinois ne sont pas seulement dans la course à l'IA, ils sont en train de bâtir une alternative crédible à la dominance américaine sur les GPU. Pour leur autonomie d'abord, pour aller chasser les parts de marché mondiales ensuite.
 
C'est une belle avancée mais il faut pas non plus tomber dans le panneau de ce genre de table :

ModèleOutput / 1M tokens
DeepSeek V4-Pro3,48 $
DeepSeek V4-Flash0,28 $
GPT-5.4 (OpenAI)15 $
Claude Opus 4.6 (Anthropic)25 $
GPT-5.5 (OpenAI, sorti la veille)30 $
Kimi K2 (Moonshot AI)4 $

DeepSeek est un modèle 1.6T entrainé sur 32T tokens ce qui n'est pas énorme.
Pour comparaison, GPT/Opus/Gemini Pro sont entraintés sur 50~150T tokens, et sont des modèles de 5~7T environ.
Donc peut-être que DeepSeek est très bon sur des tâches spécifiques mais est nettement moins généraliste que les modèles US.
Ça se ressent directement dans le code, même si je n'ai pas testé les dernières générations depuis décembre (à part MiniMax M2.7 qui est plus désolant qu'autre chose), je me rends bien compte en lisant les retours de devs ici et là que c'est encore à la ramasse pour le code.
Bien sûr "à la ramasse" c'est probablement au niveau de Sonnet 4.5 d'octobre, donc on est quelque part assez blasés. Mais lorsqu'on a goûté à l'intelligence des modèles US c'est très compliqué de revenir sur des modèles chinois.

De fait, on ne peut pas comparer les 3.48$ de DeepSeek aux 15$ de GPT5.4 ni aux 30$ de GPT5.5.
Parlons d'ailleurs de ces deux derniers : la stratégie d'OpenAI semble de réduire le recours au raisonnement. GPT5.5-medium équivaut maintenant à GPT5.4-xhigh. Plus rapide, moins de tokens, pour un coût quasi équivalent.
Les modèles chinois aiment se perdre dans le raisonnement, ils mettent un temps fou à comprendre des choses simples et prendre des décisions simples, parce qu'ils n'ont pas l'intelligence généraliste nécessaire.

En bref c'est assez spectaculaire ce qu'ils font avec les puces Huawei et leurs architectures de plus en plus ingénieuses mais les US avancent aussi (y compris dans l'open-source/open-weights comme Google avec Gemma) et ont des mois d'avance.
 
C'est une belle avancée mais il faut pas non plus tomber dans le panneau de ce genre de table :



DeepSeek est un modèle 1.6T entrainé sur 32T tokens ce qui n'est pas énorme.
Pour comparaison, GPT/Opus/Gemini Pro sont entraintés sur 50~150T tokens, et sont des modèles de 5~7T environ.
Donc peut-être que DeepSeek est très bon sur des tâches spécifiques mais est nettement moins généraliste que les modèles US.
Ça se ressent directement dans le code, même si je n'ai pas testé les dernières générations depuis décembre (à part MiniMax M2.7 qui est plus désolant qu'autre chose), je me rends bien compte en lisant les retours de devs ici et là que c'est encore à la ramasse pour le code.
Bien sûr "à la ramasse" c'est probablement au niveau de Sonnet 4.5 d'octobre, donc on est quelque part assez blasés. Mais lorsqu'on a goûté à l'intelligence des modèles US c'est très compliqué de revenir sur des modèles chinois.

De fait, on ne peut pas comparer les 3.48$ de DeepSeek aux 15$ de GPT5.4 ni aux 30$ de GPT5.5.
Parlons d'ailleurs de ces deux derniers : la stratégie d'OpenAI semble de réduire le recours au raisonnement. GPT5.5-medium équivaut maintenant à GPT5.4-xhigh. Plus rapide, moins de tokens, pour un coût quasi équivalent.
Les modèles chinois aiment se perdre dans le raisonnement, ils mettent un temps fou à comprendre des choses simples et prendre des décisions simples, parce qu'ils n'ont pas l'intelligence généraliste nécessaire.

En bref c'est assez spectaculaire ce qu'ils font avec les puces Huawei et leurs architectures de plus en plus ingénieuses mais les US avancent aussi (y compris dans l'open-source/open-weights comme Google avec Gemma) et ont des mois d'avance.
On est d'accord sur le fait qu'Opus reste devant et perso je suis pas près de le lâcher pour un modèle open-source quel qu'il soit. L'enjeu de l'article n'était pas de dire que DeepSeek surpasse OpenAI ou Anthropic, c'était de pointer la validation du virage hardware chinois.

L'existence d'une alternative crédible compte sur deux plans.
Le risque de débranchement d'une part, et surtout le risque tarifaire, le plus insidieux : OpenAI et Anthropic ont déjà augmenté leurs prix et imposé des rate limits ces derniers mois pour gérer la demande. Sans concurrence, rien ne les empêche de continuer.

La concurrence ne se joue plus seulement sur les modèles mais sur toute la pile : silicium, modèle, écosystème. Un Nvidia sans rival sérieux peut se permettre des marges délirantes, un Nvidia qui voit Huawei Ascend monter en puissance doit ajuster. Même chose côté éditeurs. C'est ce double front qui rend la sortie de V4 structurante au-delà du benchmark.