ChatGPT, Character.AI, et autres intelligences artificielles

Ha oui.
Mais je ne comprend toujours pas.
Un titre alors ?
Enfin, un truc pour que le commun des mortels puisse comprendre.
 
Ha oui.
Mais je ne comprend toujours pas.
Un titre alors ?
Enfin, un truc pour que le commun des mortels puisse comprendre.
Ce sont juste les resultats des modèles indiqués en légende aux différents bench indiqués en dessous, tu mets la photos dans ton LLM et tu lui demande de t'expliquer ?

Ce qu'on regarde :
C'est une comparaison des performances de 5 modèles d'IA de pointe sur des benchmarks standardisés. En gros, des tests qui mesurent à quel point ces IA sont "intelligentes" sur différentes tâches.

Les challengers dans l'arène​

  • Qwen3-235B (Instruct) : Le monstre d'Alibaba Cloud, version "qui réfléchit"
  • Qwen3-235B (Non-thinking) : Sa petite sœur "instinctive"
  • Kimi K2 : La pépite de Moonshot AI (la boîte qui cartonne à Pékin)
  • Claude Opus 4 : L'américain d'Anthropic
  • Deepseek-V3 : Un autre challenger chinois

💡 Les leçons à tirer​

1. La Chine n'est plus à la traîne
Qwen3 (la barre rouge) domine littéralement sur 4 tests sur 5.
On parle de scores entre 70% et 79%, là où les concurrents plafonnent souvent sous les 50%.

2. La "réflexion" fait toute la différence
Regardez l'écart énorme entre Qwen3 "Instruct" (rouge) et "Non-thinking" (bleu) : on passe de 77.5% à 62.9% sur GPQA.
Pour les devs parmi nous, ça veut dire que les techniques de chain-of-thought sont cruciales.

3. Les use-cases qui comptent
BenchmarkCe que ça testeIntérêt pour nous
GPQAQuestions niveau PhDR&D, analyses complexes
AIME25Maths avancéesFinance, ingénierie
LiveCodeBenchProgrammationDev, automation

GPQA = Graduate-level Physics
QAAIME = American Invitational Mathematics Examination
Arena-Hard = Benchmark de conversation complexe
BFCL = Berkeley Function Calling Leaderboard

Impact pour la communauté tech en Chine​

Pour nous qui bossons dans la tech ici :
  • Accès local : Qwen et Kimi sont directement accessibles sans VPN, avec des API en yuan
  • Conformité : Pas de souci de data sovereignty pour vos projets sensibles
  • Prix : Les modèles chinois sont souvent 3-5x moins chers que GPT-4 ou Claude
  • Spécialisation : Meilleure compréhension du contexte chinois (réglementations, marché local...)
⚠️ Attention quand même : ces benchmarks ne racontent pas toute l'histoire.
Il arrive d'une part que les modèles surperforment des benchmarks car entrainés spécifiquement pour bien ranker dessus.
Pour du contenu créatif ou des tâches très spécifiques en anglais et à fortiori en français, Claude et GPT gardent souvent l'avantage.
 
Dernière édition:
elle est juste au dessus du graph !?
Ce que @Jean7 ne sait peut-être pas, c’est que GPQA, AIME25, LiveCodeBench v6, … sont des benchmarks pour IA, des tests normalisés permettant d’évaluer, mesurer, comparer les performances des différentes IA.
 
Ce sont juste les resultats des modèles indiqués en légende aux différents bench indiqués en dessous, tu mets la photos dans ton LLM et tu lui demande de t'expliquer ?

Ce qu'on regarde :
C'est une comparaison des performances de 5 modèles d'IA de pointe sur des benchmarks standardisés. En gros, des tests qui mesurent à quel point ces IA sont "intelligentes" sur différentes tâches.

Les challengers dans l'arène​

  • Qwen3-235B (Instruct) : Le monstre d'Alibaba Cloud, version "qui réfléchit"
  • Qwen3-235B (Non-thinking) : Sa petite sœur "instinctive"
  • Kimi K2 : La pépite de Moonshot AI (la boîte qui cartonne à Pékin)
  • Claude Opus 4 : L'américain d'Anthropic
  • Deepseek-V3 : Un autre challenger chinois

💡 Les leçons à tirer​

1. La Chine n'est plus à la traîne
Qwen3 (la barre rouge) domine littéralement sur 4 tests sur 5.
On parle de scores entre 70% et 79%, là où les concurrents plafonnent souvent sous les 50%.

2. La "réflexion" fait toute la différence
Regardez l'écart énorme entre Qwen3 "Instruct" (rouge) et "Non-thinking" (bleu) : on passe de 77.5% à 62.9% sur GPQA.
Pour les devs parmi nous, ça veut dire que les techniques de chain-of-thought sont cruciales.

3. Les use-cases qui comptent
BenchmarkCe que ça testeIntérêt pour nous
GPQAQuestions niveau PhDR&D, analyses complexes
AIME25Maths avancéesFinance, ingénierie
LiveCodeBenchProgrammationDev, automation

GPQA = Graduate-level Physics
QAAIME = American Invitational Mathematics Examination
Arena-Hard = Benchmark de conversation complexe
BFCL = Berkeley Function Calling Leaderboard

Impact pour la communauté tech en Chine​

Pour nous qui bossons dans la tech ici :
  • Accès local : Qwen et Kimi sont directement accessibles sans VPN, avec des API en yuan
  • Conformité : Pas de souci de data sovereignty pour vos projets sensibles
  • Prix : Les modèles chinois sont souvent 3-5x moins chers que GPT-4 ou Claude
  • Spécialisation : Meilleure compréhension du contexte chinois (réglementations, marché local...)
⚠️ Attention quand même : ces benchmarks ne racontent pas toute l'histoire.
Il arrive d'une part que les modèles surperforment des benchmarks car entrainés spécifiquement pour bien ranker dessus.
Pour du contenu créatif ou des tâches très spécifiques en anglais et à fortiori en français, Claude et GPT gardent souvent l'avantage.
Tu as été plus rapide …
 
En effet.
Je ne dirais pas que maintenant c'est clair, mais au moins, je vois l'idée et peut lire le graphe.
 
Une AI, C'est bien, mais cela ne vous aide pas à vraiment maîtriser une langue étrangère, à l'intégrer dans votre sang et votre esprit, à prendre les bonnes choses de cette culture, à rejeter les mauvaises, et à contribuer au développement de votre propre culture.
Accéder à des super-pouvoir ne peut pas faire de nous des super-héros.
Juste des singes dotés de super-pouvoir.

Cela étant.
J'étais de ton avis il y a 10 ans.
Mais mon humble expérience (j'ai utilisé deepseek2 pour aborder 3 problèmes dans des domaines très variés) m'incite à penser que même ton intervention que je cite n'est plus évidente.
L'aide de l'AI ? Je laisse aux spécialistes évoquer les limites propres aux AI.

Ce que je crois aujourd'hui concernant l'aide de l'AI :
Pour un néophyte, c'est un outil tellement efficace pour accéder aux connaissances par son propre langage que la seule chose qui empêche vraiment un utilisateur de l'utiliser pour maitriser quelque chose est sa propre volonté, sa propre disponibilité, sa propre énergie disponible, les limites de sa mémoire et de sa structure cérébrale, et bien entendu la nature du problème qu'il aborde.
En quelque sorte, elle ne serait limitée que par la capacité de l'humain à en bénéficier.

Ce qui doit nous inquiéter, ce sont les capacités d'accès pour chacun à une AI du niveau de qualité actuel (on entend dire que les conséquences matérielles seraient insoutenables).
D'autre part, dans cette perspective et dans une démarche "black mirror" :
- le devenir des relations inter-humaines (pourquoi échanger avec des humains qui peuvent subitement perdre toute fiabilité (rationalité, bonne foi, intelligence...) ou qui ont leur propre intérêt à préserver).
- le devenir de la science elle-même (le risque de faire entrer du fake et de développer une croyance robuste, le risque de déclasser les chercheurs humains qui ont besoin de temps... )
 
Dernière édition: