Le 24 avril, la startup de Hangzhou a publié la preview de deux nouveaux modèles open-source, V4-Pro et V4-Flash. Performance comparable au sommet du marché fermé sur les benchmarks de code et de raisonnement, prix d'API quatre à sept fois inférieurs aux concurrents américains. Mais le fait majeur est ailleurs : V4 a été entraîné de bout en bout sur les puces Ascend de Huawei. Pour la première fois, un modèle frontière valide la possibilité d'un écosystème IA chinois affranchi de Nvidia, et fait basculer le débat sur l'efficacité des contrôles d'exportation américains.
Sur les benchmarks publiés par DeepSeek, V4-Pro mène en code (LiveCodeBench 93,5 contre 91,7 pour Gemini 3.1-Pro et 88,8 pour Claude Opus 4.6), domine en programmation compétitive (Codeforces 3206 contre 3168 pour GPT-5.4), et se hisse en tête sur plusieurs benchmarks agentiques dont MCPAtlas Public et Toolathlon. La connaissance générale reste le seul terrain où Gemini garde un avantage net (Humanity's Last Exam à 44,4 contre 37,7 pour V4-Pro). Le rapport technique de DeepSeek reconnaît un retard estimé de trois à six mois sur la frontière fermée.
Le calendrier mérite d'être noté. OpenAI a sorti GPT-5.5 le 23 avril, Anthropic teste son modèle Mythos en accès restreint, et DeepSeek arrive le lendemain. Ivan Su (Morningstar) résume la différence avec le moment R1 de janvier 2025 : le marché a déjà intégré le fait que l'IA chinoise est compétitive et moins chère, l'effet de surprise ne se reproduit pas. Les actions tech américaines n'ont pas réagi.
L'objectif des contrôles d'exportation américains, depuis octobre 2022, était précisément d'empêcher la convergence de trois éléments sur le sol chinois : un modèle de pointe, un hardware compétitif, et un écosystème logiciel intégré. V4 marque le moment où cette convergence cesse d'être théorique. Que l'écart de génération avec les puces Nvidia se referme entièrement ou non importe moins que le fait qu'un acteur ait démontré qu'on pouvait s'en passer.
L'effet bourse a été immédiat. À Hong Kong vendredi, SMIC a pris environ 9 à 10 %, Hua Hong Semiconductor 15 %. Les concurrents directs de DeepSeek dans l'écosystème AI chinois ont chuté : MiniMax et Knowledge Atlas (Zhipu) à environ moins 8 %, Manycore Tech à moins 9 %. Le marché a lu la sortie comme un transfert de valeur depuis les éditeurs de modèles concurrents vers la chaîne d'approvisionnement matérielle nationale.
Huawei a annoncé un support complet via sa technologie de cluster Supernode, basée sur les Ascend 950. DeepSeek a indiqué qu'il pourrait baisser encore les prix de V4-Pro à mesure que la production des Ascend 950 monte en puissance.
C'est désormais le cas. Et il faut s'arrêter sur le contexte dans lequel Huang a prononcé cette phrase.
Huang ne la minimise pas, il l'établit. La Chine fabrique 60 % des chips mainstream mondiaux, héberge la moitié des chercheurs en IA selon ses chiffres, et dispose d'une énergie abondante là où les États-Unis se heurtent à un mur de capacité électrique. Huawei vient de boucler la plus grande année en volume de son histoire, avec des livraisons de puces qui se comptent en millions d'unités. La thèse selon laquelle les contrôles d'exportation empêcheraient la Chine de disposer du compute nécessaire pour entraîner et déployer des modèles frontière est, selon ses propres mots, dénuée de tout fondement.
Sur le plan technique, son argument est précis. Les puces gravées en 7 nanomètres correspondent en gros à la génération Hopper de Nvidia, sur laquelle reposent encore aujourd'hui la majorité des modèles entraînés dans le monde. Le verrou supposé sur la mémoire HBM avancée (qui exigerait des machines EUV inaccessibles à la Chine) peut être contourné par l'agrégation et l'interconnexion silicium-photonique, exactement ce que fait la technologie Supernode de Huawei. Et là où les États-Unis doivent optimiser à l'extrême la performance par watt parce que l'énergie y est rare, la Chine peut se permettre de cumuler davantage de puces moins efficaces, parce que l'énergie y est abondante.
Surtout, Huang renverse le récit dominant. Si les chercheurs chinois sont contraints en compute, ils compensent en concevant des algorithmes plus efficaces. La loi de Moore avance d'environ 25 % par an, dit-il, mais des innovations algorithmiques peuvent multiplier la performance par dix. C'est exactement la trajectoire DeepSeek depuis V3, et l'architecture d'attention hybride de V4 en est la dernière itération.
Le constat est donc cohérent : l'écosystème que les contrôles d'exportation cherchaient à empêcher d'émerger a déjà franchi son seuil critique. V4 n'est pas la cause de cette bascule, c'est sa démonstration.
L'architecture MoE. Sur un modèle dense classique, chaque token mobilise l'intégralité des paramètres. Sur V4-Pro, le routage interne n'active que 49 milliards de paramètres sur les 1,6 trillion disponibles. Le coût d'inférence se calcule sur les paramètres actifs, pas sur le total. C'est le levier le plus structurel. La capacité du modèle est massive, mais la facture compute correspond à un modèle de taille moyenne.
L'attention hybride. DeepSeek a remplacé l'attention standard par deux mécanismes complémentaires (Compressed Sparse Attention pour la sélection sparse, Heavily Compressed Attention pour le contexte profond). À 1 million de tokens, V4-Pro requiert 27 % des FLOPs par token et 10 % du cache mémoire (KV cache) de son prédécesseur V3.2. V4-Flash descend respectivement à 10 % et 7 %. Concrètement, à matériel identique, un serveur traite plusieurs fois plus de requêtes en parallèle. Le coût marginal par requête s'effondre.
La précision mixte FP4 et FP8. Les paramètres des experts MoE sont stockés en FP4 (4 bits par poids), le reste du modèle en FP8 (8 bits). Cette quantification réduit la mémoire occupée et accélère les calculs sur les accélérateurs modernes. Là où la plupart des modèles frontière tournent en BF16 (16 bits), DeepSeek divise par deux à quatre l'empreinte mémoire de l'inférence sans perte significative de qualité.
La sortie de l'écosystème Nvidia. Servir le modèle sur Ascend supprime la marge que Nvidia et AMD imposent sur leurs GPU haut de gamme. Sur de l'inférence à grande échelle, ce poste représente une part significative du coût final.
La structure économique d'un lab open-source chinois. OpenAI et Anthropic supportent des coûts massifs de R&D, de sécurité, d'infrastructure cloud globale et de support entreprise, qu'ils répercutent sur le prix de l'API. Les deux ont d'ailleurs augmenté leurs tarifs ces derniers mois et imposé des limites de débit pour gérer la demande. DeepSeek, structurellement adossé au hedge fund High-Flyer, choisit une marge basse pour conquérir la part de marché développeur. La logique vise l'adoption massive et le verrouillage de l'écosystème agentique chinois autour des modèles maison.
Le tarif input cache hit illustre bien la stratégie. Quand un développeur réutilise le même contexte (ce qui arrive en permanence dans les agents qui maintiennent un long historique), DeepSeek facture 0,145 $ par million de tokens pour V4-Pro et 0,028 $ pour V4-Flash. Sur des workloads agentiques répétitifs, l'économie devient massive.
Dans le même temps, les limites de V4 sont réelles. Le modèle est en preview et n'offre pas la stabilité d'API attendue d'une release production. Il reste texte uniquement, sans capacité multimodale. Les accusations de distillation portées par Anthropic en février, et reprises dans le mémo Kratsios du 24 avril (Bureau de la science et de la technologie de la Maison-Blanche), introduisent un risque compliance pour les organisations régulées, indépendamment des benchmarks. Le ministère chinois des Affaires étrangères a qualifié ces accusations de sans fondement.
Sur le plan industriel, DeepSeek serait en discussion avec Tencent et Alibaba pour une levée de fonds qui valoriserait la société à 20 milliards de dollars, selon le Financial Times et The Information. Le besoin n'est pas le cash (High-Flyer en dispose) mais la rétention des chercheurs face à des labs concurrents mieux valorisés. C'est le signal d'une normalisation : DeepSeek devient un acteur structurant qui doit gérer ses ressources humaines comme n'importe quelle entreprise du secteur.
L'indice composite Artificial Analysis Intelligence v4.0 place V4-Pro Max à 52 et V4-Flash Max à 47. Au-dessus de la médiane open-weights, en deçà des frontières fermées. La trajectoire DeepSeek reste cohérente : un peu en retrait sur la pointe absolue, très loin devant en rapport performance-prix, et désormais affranchie de Nvidia.
V4 dans votre stack ? Le prix change-t-il votre arbitrage entre modèles ouverts et fermés ? Vos retours d'usage en commentaires.
| Modèle | Output / 1M tokens |
|---|---|
| DeepSeek V4-Pro | 3,48 $ |
| DeepSeek V4-Flash | 0,28 $ |
| GPT-5.4 (OpenAI) | 15 $ |
| Claude Opus 4.6 (Anthropic) | 25 $ |
| GPT-5.5 (OpenAI, sorti la veille) | 30 $ |
| Kimi K2 (Moonshot AI) | 4 $ |
Ce que DeepSeek a sorti vendredi
V4-Pro embarque 1,6 trillion de paramètres totaux dont 49 milliards actifs par token, dans une architecture Mixture of Experts (MoE) classique chez DeepSeek. V4-Flash en compte 284 milliards (13 milliards actifs). Les deux modèles sont open-weights sous licence MIT, exécutables localement, accessibles via l'API DeepSeek (compatible OpenAI ChatCompletions et Anthropic) et téléchargeables depuis Hugging Face. La fenêtre de contexte atteint un million de tokens, soit l'équivalent d'environ 750 000 mots.Sur les benchmarks publiés par DeepSeek, V4-Pro mène en code (LiveCodeBench 93,5 contre 91,7 pour Gemini 3.1-Pro et 88,8 pour Claude Opus 4.6), domine en programmation compétitive (Codeforces 3206 contre 3168 pour GPT-5.4), et se hisse en tête sur plusieurs benchmarks agentiques dont MCPAtlas Public et Toolathlon. La connaissance générale reste le seul terrain où Gemini garde un avantage net (Humanity's Last Exam à 44,4 contre 37,7 pour V4-Pro). Le rapport technique de DeepSeek reconnaît un retard estimé de trois à six mois sur la frontière fermée.
Le calendrier mérite d'être noté. OpenAI a sorti GPT-5.5 le 23 avril, Anthropic teste son modèle Mythos en accès restreint, et DeepSeek arrive le lendemain. Ivan Su (Morningstar) résume la différence avec le moment R1 de janvier 2025 : le marché a déjà intégré le fait que l'IA chinoise est compétitive et moins chère, l'effet de surprise ne se reproduit pas. Les actions tech américaines n'ont pas réagi.
Le vrai sujet : l'IA chinoise sans Nvidia
R1, en janvier 2025, avait été entraîné sur des Nvidia (H800 principalement, achetés avant les restrictions). V4 a été entraîné en intégralité sur des Ascend de Huawei, complétés par des puces Cambricon. La transition est complète. C'est la première fois qu'un modèle au niveau de la frontière sort sans avoir touché un GPU Nvidia.L'objectif des contrôles d'exportation américains, depuis octobre 2022, était précisément d'empêcher la convergence de trois éléments sur le sol chinois : un modèle de pointe, un hardware compétitif, et un écosystème logiciel intégré. V4 marque le moment où cette convergence cesse d'être théorique. Que l'écart de génération avec les puces Nvidia se referme entièrement ou non importe moins que le fait qu'un acteur ait démontré qu'on pouvait s'en passer.
L'effet bourse a été immédiat. À Hong Kong vendredi, SMIC a pris environ 9 à 10 %, Hua Hong Semiconductor 15 %. Les concurrents directs de DeepSeek dans l'écosystème AI chinois ont chuté : MiniMax et Knowledge Atlas (Zhipu) à environ moins 8 %, Manycore Tech à moins 9 %. Le marché a lu la sortie comme un transfert de valeur depuis les éditeurs de modèles concurrents vers la chaîne d'approvisionnement matérielle nationale.
Huawei a annoncé un support complet via sa technologie de cluster Supernode, basée sur les Ascend 950. DeepSeek a indiqué qu'il pourrait baisser encore les prix de V4-Pro à mesure que la production des Ascend 950 monte en puissance.
Jensen Huang a dit:Le jour où DeepSeek sortira d'abord sur Huawei sera un mauvais résultat pour les États-Unis.
C'est désormais le cas. Et il faut s'arrêter sur le contexte dans lequel Huang a prononcé cette phrase.
Jensen Huang acte la réalité
Une semaine avant la sortie de V4, le PDG de Nvidia s'est exprimé sur le podcast Dwarkesh et a livré un constat qui mérite d'être lu attentivement, parce qu'il vient de la dernière source dont on l'attendrait : un dirigeant qui a tout intérêt commercial à minimiser la capacité chinoise.Huang ne la minimise pas, il l'établit. La Chine fabrique 60 % des chips mainstream mondiaux, héberge la moitié des chercheurs en IA selon ses chiffres, et dispose d'une énergie abondante là où les États-Unis se heurtent à un mur de capacité électrique. Huawei vient de boucler la plus grande année en volume de son histoire, avec des livraisons de puces qui se comptent en millions d'unités. La thèse selon laquelle les contrôles d'exportation empêcheraient la Chine de disposer du compute nécessaire pour entraîner et déployer des modèles frontière est, selon ses propres mots, dénuée de tout fondement.
Sur le plan technique, son argument est précis. Les puces gravées en 7 nanomètres correspondent en gros à la génération Hopper de Nvidia, sur laquelle reposent encore aujourd'hui la majorité des modèles entraînés dans le monde. Le verrou supposé sur la mémoire HBM avancée (qui exigerait des machines EUV inaccessibles à la Chine) peut être contourné par l'agrégation et l'interconnexion silicium-photonique, exactement ce que fait la technologie Supernode de Huawei. Et là où les États-Unis doivent optimiser à l'extrême la performance par watt parce que l'énergie y est rare, la Chine peut se permettre de cumuler davantage de puces moins efficaces, parce que l'énergie y est abondante.
Surtout, Huang renverse le récit dominant. Si les chercheurs chinois sont contraints en compute, ils compensent en concevant des algorithmes plus efficaces. La loi de Moore avance d'environ 25 % par an, dit-il, mais des innovations algorithmiques peuvent multiplier la performance par dix. C'est exactement la trajectoire DeepSeek depuis V3, et l'architecture d'attention hybride de V4 en est la dernière itération.
Le constat est donc cohérent : l'écosystème que les contrôles d'exportation cherchaient à empêcher d'émerger a déjà franchi son seuil critique. V4 n'est pas la cause de cette bascule, c'est sa démonstration.
Pourquoi le prix est aussi bas
Comparer 3,48 $ à 25 $ par million de tokens en sortie ne raconte pas grand-chose tant qu'on ne décompose pas ce qui produit l'écart. Cinq facteurs distincts se cumulent.L'architecture MoE. Sur un modèle dense classique, chaque token mobilise l'intégralité des paramètres. Sur V4-Pro, le routage interne n'active que 49 milliards de paramètres sur les 1,6 trillion disponibles. Le coût d'inférence se calcule sur les paramètres actifs, pas sur le total. C'est le levier le plus structurel. La capacité du modèle est massive, mais la facture compute correspond à un modèle de taille moyenne.
L'attention hybride. DeepSeek a remplacé l'attention standard par deux mécanismes complémentaires (Compressed Sparse Attention pour la sélection sparse, Heavily Compressed Attention pour le contexte profond). À 1 million de tokens, V4-Pro requiert 27 % des FLOPs par token et 10 % du cache mémoire (KV cache) de son prédécesseur V3.2. V4-Flash descend respectivement à 10 % et 7 %. Concrètement, à matériel identique, un serveur traite plusieurs fois plus de requêtes en parallèle. Le coût marginal par requête s'effondre.
La précision mixte FP4 et FP8. Les paramètres des experts MoE sont stockés en FP4 (4 bits par poids), le reste du modèle en FP8 (8 bits). Cette quantification réduit la mémoire occupée et accélère les calculs sur les accélérateurs modernes. Là où la plupart des modèles frontière tournent en BF16 (16 bits), DeepSeek divise par deux à quatre l'empreinte mémoire de l'inférence sans perte significative de qualité.
La sortie de l'écosystème Nvidia. Servir le modèle sur Ascend supprime la marge que Nvidia et AMD imposent sur leurs GPU haut de gamme. Sur de l'inférence à grande échelle, ce poste représente une part significative du coût final.
La structure économique d'un lab open-source chinois. OpenAI et Anthropic supportent des coûts massifs de R&D, de sécurité, d'infrastructure cloud globale et de support entreprise, qu'ils répercutent sur le prix de l'API. Les deux ont d'ailleurs augmenté leurs tarifs ces derniers mois et imposé des limites de débit pour gérer la demande. DeepSeek, structurellement adossé au hedge fund High-Flyer, choisit une marge basse pour conquérir la part de marché développeur. La logique vise l'adoption massive et le verrouillage de l'écosystème agentique chinois autour des modèles maison.
Le tarif input cache hit illustre bien la stratégie. Quand un développeur réutilise le même contexte (ce qui arrive en permanence dans les agents qui maintiennent un long historique), DeepSeek facture 0,145 $ par million de tokens pour V4-Pro et 0,028 $ pour V4-Flash. Sur des workloads agentiques répétitifs, l'économie devient massive.
Ce que ça change pour le marché
La réponse pratique des observateurs occidentaux tient en quelques points. VentureBeat note que des charges de travail considérées comme trop chères sur GPT-5.5 ou Claude Opus 4.7 deviennent économiquement viables sur V4-Pro, et triviales sur V4-Flash. Les équipes qui dimensionnent des produits agentiques (où le coût des tokens est le poste dominant) voient leur arbitrage pivoter.Dans le même temps, les limites de V4 sont réelles. Le modèle est en preview et n'offre pas la stabilité d'API attendue d'une release production. Il reste texte uniquement, sans capacité multimodale. Les accusations de distillation portées par Anthropic en février, et reprises dans le mémo Kratsios du 24 avril (Bureau de la science et de la technologie de la Maison-Blanche), introduisent un risque compliance pour les organisations régulées, indépendamment des benchmarks. Le ministère chinois des Affaires étrangères a qualifié ces accusations de sans fondement.
Sur le plan industriel, DeepSeek serait en discussion avec Tencent et Alibaba pour une levée de fonds qui valoriserait la société à 20 milliards de dollars, selon le Financial Times et The Information. Le besoin n'est pas le cash (High-Flyer en dispose) mais la rétention des chercheurs face à des labs concurrents mieux valorisés. C'est le signal d'une normalisation : DeepSeek devient un acteur structurant qui doit gérer ses ressources humaines comme n'importe quelle entreprise du secteur.
L'indice composite Artificial Analysis Intelligence v4.0 place V4-Pro Max à 52 et V4-Flash Max à 47. Au-dessus de la médiane open-weights, en deçà des frontières fermées. La trajectoire DeepSeek reste cohérente : un peu en retrait sur la pointe absolue, très loin devant en rapport performance-prix, et désormais affranchie de Nvidia.
DeepSeek API Docs (annonce officielle V4) : https://api-docs.deepseek.com/news/news260424
Hugging Face — collection DeepSeek-V4 : https://huggingface.co/collections/deepseek-ai/deepseek-v4
Hugging Face Blog (analyse technique) : https://huggingface.co/blog/deepseekv4
VentureBeat (analyse coûts) : https://venturebeat.com/technology/deepseek-v4-arrives-with-near-state-of-the-art-intelligence-at-1-6th-the-cost-of-opus-4-7-gpt-5-5
Fortune (intégration Huawei) : https://fortune.com/2026/04/24/deepseek-v4-ai-model-price-performance-china-open-source/
CNBC (réception marché) : https://www.cnbc.com/2026/04/24/deepseek-v4-llm-preview-open-source-ai-competition-china.html
CNN Business : https://www.cnn.com/2026/04/24/tech/chinas-ai-deepseek-v4-intl-hnk
Euronews : https://www.euronews.com/next/2026/...s-everything-to-know-as-the-ai-race-speeds-up
Al Jazeera : https://www.aljazeera.com/economy/2...atest-model-a-year-after-upending-global-tech
Artificial Analysis — V4-Pro : https://artificialanalysis.ai/models/deepseek-v4-pro
Artificial Analysis — V4-Flash : https://artificialanalysis.ai/models/deepseek-v4-flash
OfficeChai (benchmarks détaillés) : https://officechai.com/ai/deepseek-v4-pro-deepseek-v4-flash-benchmarks-pricing/
Hugging Face — collection DeepSeek-V4 : https://huggingface.co/collections/deepseek-ai/deepseek-v4
Hugging Face Blog (analyse technique) : https://huggingface.co/blog/deepseekv4
VentureBeat (analyse coûts) : https://venturebeat.com/technology/deepseek-v4-arrives-with-near-state-of-the-art-intelligence-at-1-6th-the-cost-of-opus-4-7-gpt-5-5
Fortune (intégration Huawei) : https://fortune.com/2026/04/24/deepseek-v4-ai-model-price-performance-china-open-source/
CNBC (réception marché) : https://www.cnbc.com/2026/04/24/deepseek-v4-llm-preview-open-source-ai-competition-china.html
CNN Business : https://www.cnn.com/2026/04/24/tech/chinas-ai-deepseek-v4-intl-hnk
Euronews : https://www.euronews.com/next/2026/...s-everything-to-know-as-the-ai-race-speeds-up
Al Jazeera : https://www.aljazeera.com/economy/2...atest-model-a-year-after-upending-global-tech
Artificial Analysis — V4-Pro : https://artificialanalysis.ai/models/deepseek-v4-pro
Artificial Analysis — V4-Flash : https://artificialanalysis.ai/models/deepseek-v4-flash
OfficeChai (benchmarks détaillés) : https://officechai.com/ai/deepseek-v4-pro-deepseek-v4-flash-benchmarks-pricing/