Vous utilisez un navigateur non à jour ou ancien. Il ne peut pas afficher ce site ou d'autres sites correctement. Vous devez le mettre à jour ou utiliser un navigateur alternatif.
Ce sont juste les resultats des modèles indiqués en légende aux différents bench indiqués en dessous, tu mets la photos dans ton LLM et tu lui demande de t'expliquer ?
Ce qu'on regarde :
C'est une comparaison des performances de 5 modèles d'IA de pointe sur des benchmarks standardisés. En gros, des tests qui mesurent à quel point ces IA sont "intelligentes" sur différentes tâches.
Les challengers dans l'arène
Qwen3-235B (Instruct) : Le monstre d'Alibaba Cloud, version "qui réfléchit"
Qwen3-235B (Non-thinking) : Sa petite sœur "instinctive"
Kimi K2 : La pépite de Moonshot AI (la boîte qui cartonne à Pékin)
Claude Opus 4 : L'américain d'Anthropic
Deepseek-V3 : Un autre challenger chinois
Les leçons à tirer
1. La Chine n'est plus à la traîne
Qwen3 (la barre rouge) domine littéralement sur 4 tests sur 5.
On parle de scores entre 70% et 79%, là où les concurrents plafonnent souvent sous les 50%.
2. La "réflexion" fait toute la différence
Regardez l'écart énorme entre Qwen3 "Instruct" (rouge) et "Non-thinking" (bleu) : on passe de 77.5% à 62.9% sur GPQA. Pour les devs parmi nous, ça veut dire que les techniques de chain-of-thought sont cruciales.
3. Les use-cases qui comptent
Benchmark
Ce que ça teste
Intérêt pour nous
GPQA
Questions niveau PhD
R&D, analyses complexes
AIME25
Maths avancées
Finance, ingénierie
LiveCodeBench
Programmation
Dev, automation
GPQA = Graduate-level Physics
QAAIME = American Invitational Mathematics Examination
Arena-Hard = Benchmark de conversation complexe
BFCL = Berkeley Function Calling Leaderboard
Impact pour la communauté tech en Chine
Pour nous qui bossons dans la tech ici :
Accès local : Qwen et Kimi sont directement accessibles sans VPN, avec des API en yuan
Conformité : Pas de souci de data sovereignty pour vos projets sensibles
Prix : Les modèles chinois sont souvent 3-5x moins chers que GPT-4 ou Claude
Spécialisation : Meilleure compréhension du contexte chinois (réglementations, marché local...)
Attention quand même : ces benchmarks ne racontent pas toute l'histoire.
Il arrive d'une part que les modèles surperforment des benchmarks car entrainés spécifiquement pour bien ranker dessus.
Pour du contenu créatif ou des tâches très spécifiques en anglais et à fortiori en français, Claude et GPT gardent souvent l'avantage.
Ce que @Jean7 ne sait peut-être pas, c’est que GPQA, AIME25, LiveCodeBench v6, … sont des benchmarks pour IA, des tests normalisés permettant d’évaluer, mesurer, comparer les performances des différentes IA.
Ce sont juste les resultats des modèles indiqués en légende aux différents bench indiqués en dessous, tu mets la photos dans ton LLM et tu lui demande de t'expliquer ?
Ce qu'on regarde :
C'est une comparaison des performances de 5 modèles d'IA de pointe sur des benchmarks standardisés. En gros, des tests qui mesurent à quel point ces IA sont "intelligentes" sur différentes tâches.
Les challengers dans l'arène
Qwen3-235B (Instruct) : Le monstre d'Alibaba Cloud, version "qui réfléchit"
Qwen3-235B (Non-thinking) : Sa petite sœur "instinctive"
Kimi K2 : La pépite de Moonshot AI (la boîte qui cartonne à Pékin)
Claude Opus 4 : L'américain d'Anthropic
Deepseek-V3 : Un autre challenger chinois
Les leçons à tirer
1. La Chine n'est plus à la traîne
Qwen3 (la barre rouge) domine littéralement sur 4 tests sur 5.
On parle de scores entre 70% et 79%, là où les concurrents plafonnent souvent sous les 50%.
2. La "réflexion" fait toute la différence
Regardez l'écart énorme entre Qwen3 "Instruct" (rouge) et "Non-thinking" (bleu) : on passe de 77.5% à 62.9% sur GPQA. Pour les devs parmi nous, ça veut dire que les techniques de chain-of-thought sont cruciales.
3. Les use-cases qui comptent
Benchmark
Ce que ça teste
Intérêt pour nous
GPQA
Questions niveau PhD
R&D, analyses complexes
AIME25
Maths avancées
Finance, ingénierie
LiveCodeBench
Programmation
Dev, automation
GPQA = Graduate-level Physics
QAAIME = American Invitational Mathematics Examination
Arena-Hard = Benchmark de conversation complexe
BFCL = Berkeley Function Calling Leaderboard
Impact pour la communauté tech en Chine
Pour nous qui bossons dans la tech ici :
Accès local : Qwen et Kimi sont directement accessibles sans VPN, avec des API en yuan
Conformité : Pas de souci de data sovereignty pour vos projets sensibles
Prix : Les modèles chinois sont souvent 3-5x moins chers que GPT-4 ou Claude
Spécialisation : Meilleure compréhension du contexte chinois (réglementations, marché local...)
Attention quand même : ces benchmarks ne racontent pas toute l'histoire.
Il arrive d'une part que les modèles surperforment des benchmarks car entrainés spécifiquement pour bien ranker dessus.
Pour du contenu créatif ou des tâches très spécifiques en anglais et à fortiori en français, Claude et GPT gardent souvent l'avantage.
Une AI, C'est bien, mais cela ne vous aide pas à vraiment maîtriser une langue étrangère, à l'intégrer dans votre sang et votre esprit, à prendre les bonnes choses de cette culture, à rejeter les mauvaises, et à contribuer au développement de votre propre culture.
Accéder à des super-pouvoir ne peut pas faire de nous des super-héros.
Juste des singes dotés de super-pouvoir.
Cela étant.
J'étais de ton avis il y a 10 ans.
Mais mon humble expérience (j'ai utilisé deepseek2 pour aborder 3 problèmes dans des domaines très variés) m'incite à penser que même ton intervention que je cite n'est plus évidente.
L'aide de l'AI ? Je laisse aux spécialistes évoquer les limites propres aux AI.
Ce que je crois aujourd'hui concernant l'aide de l'AI :
Pour un néophyte, c'est un outil tellement efficace pour accéder aux connaissances par son propre langage que la seule chose qui empêche vraiment un utilisateur de l'utiliser pour maitriser quelque chose est sa propre volonté, sa propre disponibilité, sa propre énergie disponible, les limites de sa mémoire et de sa structure cérébrale, et bien entendu la nature du problème qu'il aborde.
En quelque sorte, elle ne serait limitée que par la capacité de l'humain à en bénéficier.
Ce qui doit nous inquiéter, ce sont les capacités d'accès pour chacun à une AI du niveau de qualité actuel (on entend dire que les conséquences matérielles seraient insoutenables).
D'autre part, dans cette perspective et dans une démarche "black mirror" :
- le devenir des relations inter-humaines (pourquoi échanger avec des humains qui peuvent subitement perdre toute fiabilité (rationalité, bonne foi, intelligence...) ou qui ont leur propre intérêt à préserver).
- le devenir de la science elle-même (le risque de faire entrer du fake et de développer une croyance robuste, le risque de déclasser les chercheurs humains qui ont besoin de temps... )