Ce sont juste les resultats des modèles indiqués en légende aux différents bench indiqués en dessous, tu mets la photos dans ton LLM et tu lui demande de t'expliquer ?Ha oui.
Mais je ne comprend toujours pas.
Un titre alors ?
Enfin, un truc pour que le commun des mortels puisse comprendre.
Benchmark | Ce que ça teste | Intérêt pour nous |
---|---|---|
GPQA | Questions niveau PhD | R&D, analyses complexes |
AIME25 | Maths avancées | Finance, ingénierie |
LiveCodeBench | Programmation | Dev, automation |
Ce que @Jean7 ne sait peut-être pas, c’est que GPQA, AIME25, LiveCodeBench v6, … sont des benchmarks pour IA, des tests normalisés permettant d’évaluer, mesurer, comparer les performances des différentes IA.elle est juste au dessus du graph !?
Tu as été plus rapide …Ce sont juste les resultats des modèles indiqués en légende aux différents bench indiqués en dessous, tu mets la photos dans ton LLM et tu lui demande de t'expliquer ?
Ce qu'on regarde :
C'est une comparaison des performances de 5 modèles d'IA de pointe sur des benchmarks standardisés. En gros, des tests qui mesurent à quel point ces IA sont "intelligentes" sur différentes tâches.
Les challengers dans l'arène
- Qwen3-235B (Instruct) : Le monstre d'Alibaba Cloud, version "qui réfléchit"
- Qwen3-235B (Non-thinking) : Sa petite sœur "instinctive"
- Kimi K2 : La pépite de Moonshot AI (la boîte qui cartonne à Pékin)
- Claude Opus 4 : L'américain d'Anthropic
- Deepseek-V3 : Un autre challenger chinois
1. La Chine n'est plus à la traîne
Les leçons à tirer
Qwen3 (la barre rouge) domine littéralement sur 4 tests sur 5.
On parle de scores entre 70% et 79%, là où les concurrents plafonnent souvent sous les 50%.
2. La "réflexion" fait toute la différence
Regardez l'écart énorme entre Qwen3 "Instruct" (rouge) et "Non-thinking" (bleu) : on passe de 77.5% à 62.9% sur GPQA.
Pour les devs parmi nous, ça veut dire que les techniques de chain-of-thought sont cruciales.
3. Les use-cases qui comptent
Benchmark Ce que ça teste Intérêt pour nous GPQA Questions niveau PhD R&D, analyses complexes AIME25 Maths avancées Finance, ingénierie LiveCodeBench Programmation Dev, automation
GPQA = Graduate-level Physics
QAAIME = American Invitational Mathematics Examination
Arena-Hard = Benchmark de conversation complexe
BFCL = Berkeley Function Calling Leaderboard
Impact pour la communauté tech en Chine
Pour nous qui bossons dans la tech ici :
- Accès local : Qwen et Kimi sont directement accessibles sans VPN, avec des API en yuan
- Conformité : Pas de souci de data sovereignty pour vos projets sensibles
- Prix : Les modèles chinois sont souvent 3-5x moins chers que GPT-4 ou Claude
- Spécialisation : Meilleure compréhension du contexte chinois (réglementations, marché local...)
Attention quand même : ces benchmarks ne racontent pas toute l'histoire.
Il arrive d'une part que les modèles surperforment des benchmarks car entrainés spécifiquement pour bien ranker dessus.
Pour du contenu créatif ou des tâches très spécifiques en anglais et à fortiori en français, Claude et GPT gardent souvent l'avantage.
Accéder à des super-pouvoir ne peut pas faire de nous des super-héros.Une AI, C'est bien, mais cela ne vous aide pas à vraiment maîtriser une langue étrangère, à l'intégrer dans votre sang et votre esprit, à prendre les bonnes choses de cette culture, à rejeter les mauvaises, et à contribuer au développement de votre propre culture.
Une fois j'ai loué une Lamborghini pour déménager mes meubles, alors déjà je l'ai rayée sur l'avant en passant les dos d'âne du parking, et puis au moment de mettre le canapé dedans, cette merde n'avait même pas de coffre ! Donc j'ai ramené tout ça chez le concessionaire et j'ai pris un pickup JAC en tôle bleue qui a très bien fait l'affaire finalement.Pour moi, l'IA reste un peu comme un gros produit ménager : à ne pas mettre entre toutes les mains, et efficace seulement dans des conditions très spécifiques.
j'avais testé miaougpt, puis mistral.AI, supposée fierté française.
Sur une dizaine de films dont j'ai jamais retrouvé les noms, aucun des deux n'a été en mesure de me les retrouver.
J'ai voulu tester avec un autre film, dont j'avais oublié le nom aussi, en me souvenant d'une scène très étonnante (avec un gros acteur américain qui n'apparait que dans une seule scène), j'ai donc interrogé les deux : aucun résultat. Petite recherche classique sur internet, avec des mots clés spécifiques. Je tombe sur un forum dont un commentateur, surpris, observe que sens-critique (un équivalent d'allocine) n'évoque meme pas la dite scène, assez "marquante". Je tombe par cette recherche, sur le nom du film. En dix minutes de "zapping", je retrouve l'instant précis. Ni miaou-chose ni mistral, n'ont été foutus de retrouver ce titre, sachant qu'il est sorti après 2010.
ça plus les photomontages et vidéosmontages générés par IA : je me demande comment ce truc, qui fait plus de ravages que la beuh, fait pour être encore légal. Comme la crypto. Si c'est le "progrès" revendiqué par les uns, je comprends lar-ge-ment que les autres deviennent réticents, voire se convainquent de retourner à l'amish.
L'IA et consors, plus jamais... on est jamais mieux servis etc...
Donc toute ton expérience de l'IA est basée sur les pires IA du marché.j'avais testé miaougpt, puis mistral.AI, supposée fierté française.