ChatGPT, Character.AI, et autres intelligences artificielles

Ha oui.
Mais je ne comprend toujours pas.
Un titre alors ?
Enfin, un truc pour que le commun des mortels puisse comprendre.
 
Ha oui.
Mais je ne comprend toujours pas.
Un titre alors ?
Enfin, un truc pour que le commun des mortels puisse comprendre.
Ce sont juste les resultats des modèles indiqués en légende aux différents bench indiqués en dessous, tu mets la photos dans ton LLM et tu lui demande de t'expliquer ?

Ce qu'on regarde :
C'est une comparaison des performances de 5 modèles d'IA de pointe sur des benchmarks standardisés. En gros, des tests qui mesurent à quel point ces IA sont "intelligentes" sur différentes tâches.

Les challengers dans l'arène​

  • Qwen3-235B (Instruct) : Le monstre d'Alibaba Cloud, version "qui réfléchit"
  • Qwen3-235B (Non-thinking) : Sa petite sœur "instinctive"
  • Kimi K2 : La pépite de Moonshot AI (la boîte qui cartonne à Pékin)
  • Claude Opus 4 : L'américain d'Anthropic
  • Deepseek-V3 : Un autre challenger chinois

💡 Les leçons à tirer​

1. La Chine n'est plus à la traîne
Qwen3 (la barre rouge) domine littéralement sur 4 tests sur 5.
On parle de scores entre 70% et 79%, là où les concurrents plafonnent souvent sous les 50%.

2. La "réflexion" fait toute la différence
Regardez l'écart énorme entre Qwen3 "Instruct" (rouge) et "Non-thinking" (bleu) : on passe de 77.5% à 62.9% sur GPQA.
Pour les devs parmi nous, ça veut dire que les techniques de chain-of-thought sont cruciales.

3. Les use-cases qui comptent
BenchmarkCe que ça testeIntérêt pour nous
GPQAQuestions niveau PhDR&D, analyses complexes
AIME25Maths avancéesFinance, ingénierie
LiveCodeBenchProgrammationDev, automation

GPQA = Graduate-level Physics
QAAIME = American Invitational Mathematics Examination
Arena-Hard = Benchmark de conversation complexe
BFCL = Berkeley Function Calling Leaderboard

Impact pour la communauté tech en Chine​

Pour nous qui bossons dans la tech ici :
  • Accès local : Qwen et Kimi sont directement accessibles sans VPN, avec des API en yuan
  • Conformité : Pas de souci de data sovereignty pour vos projets sensibles
  • Prix : Les modèles chinois sont souvent 3-5x moins chers que GPT-4 ou Claude
  • Spécialisation : Meilleure compréhension du contexte chinois (réglementations, marché local...)
⚠️ Attention quand même : ces benchmarks ne racontent pas toute l'histoire.
Il arrive d'une part que les modèles surperforment des benchmarks car entrainés spécifiquement pour bien ranker dessus.
Pour du contenu créatif ou des tâches très spécifiques en anglais et à fortiori en français, Claude et GPT gardent souvent l'avantage.
 
Dernière édition:
elle est juste au dessus du graph !?
Ce que @Jean7 ne sait peut-être pas, c’est que GPQA, AIME25, LiveCodeBench v6, … sont des benchmarks pour IA, des tests normalisés permettant d’évaluer, mesurer, comparer les performances des différentes IA.
 
Ce sont juste les resultats des modèles indiqués en légende aux différents bench indiqués en dessous, tu mets la photos dans ton LLM et tu lui demande de t'expliquer ?

Ce qu'on regarde :
C'est une comparaison des performances de 5 modèles d'IA de pointe sur des benchmarks standardisés. En gros, des tests qui mesurent à quel point ces IA sont "intelligentes" sur différentes tâches.

Les challengers dans l'arène​

  • Qwen3-235B (Instruct) : Le monstre d'Alibaba Cloud, version "qui réfléchit"
  • Qwen3-235B (Non-thinking) : Sa petite sœur "instinctive"
  • Kimi K2 : La pépite de Moonshot AI (la boîte qui cartonne à Pékin)
  • Claude Opus 4 : L'américain d'Anthropic
  • Deepseek-V3 : Un autre challenger chinois

💡 Les leçons à tirer​

1. La Chine n'est plus à la traîne
Qwen3 (la barre rouge) domine littéralement sur 4 tests sur 5.
On parle de scores entre 70% et 79%, là où les concurrents plafonnent souvent sous les 50%.

2. La "réflexion" fait toute la différence
Regardez l'écart énorme entre Qwen3 "Instruct" (rouge) et "Non-thinking" (bleu) : on passe de 77.5% à 62.9% sur GPQA.
Pour les devs parmi nous, ça veut dire que les techniques de chain-of-thought sont cruciales.

3. Les use-cases qui comptent
BenchmarkCe que ça testeIntérêt pour nous
GPQAQuestions niveau PhDR&D, analyses complexes
AIME25Maths avancéesFinance, ingénierie
LiveCodeBenchProgrammationDev, automation

GPQA = Graduate-level Physics
QAAIME = American Invitational Mathematics Examination
Arena-Hard = Benchmark de conversation complexe
BFCL = Berkeley Function Calling Leaderboard

Impact pour la communauté tech en Chine​

Pour nous qui bossons dans la tech ici :
  • Accès local : Qwen et Kimi sont directement accessibles sans VPN, avec des API en yuan
  • Conformité : Pas de souci de data sovereignty pour vos projets sensibles
  • Prix : Les modèles chinois sont souvent 3-5x moins chers que GPT-4 ou Claude
  • Spécialisation : Meilleure compréhension du contexte chinois (réglementations, marché local...)
⚠️ Attention quand même : ces benchmarks ne racontent pas toute l'histoire.
Il arrive d'une part que les modèles surperforment des benchmarks car entrainés spécifiquement pour bien ranker dessus.
Pour du contenu créatif ou des tâches très spécifiques en anglais et à fortiori en français, Claude et GPT gardent souvent l'avantage.
Tu as été plus rapide …
 
En effet.
Je ne dirais pas que maintenant c'est clair, mais au moins, je vois l'idée et peut lire le graphe.
 
Une AI, C'est bien, mais cela ne vous aide pas à vraiment maîtriser une langue étrangère, à l'intégrer dans votre sang et votre esprit, à prendre les bonnes choses de cette culture, à rejeter les mauvaises, et à contribuer au développement de votre propre culture.
Accéder à des super-pouvoir ne peut pas faire de nous des super-héros.
Juste des singes dotés de super-pouvoir.

Cela étant.
J'étais de ton avis il y a 10 ans.
Mais mon humble expérience (j'ai utilisé deepseek2 pour aborder 3 problèmes dans des domaines très variés) m'incite à penser que même ton intervention que je cite n'est plus évidente.
L'aide de l'AI ? Je laisse aux spécialistes évoquer les limites propres aux AI.

Ce que je crois aujourd'hui concernant l'aide de l'AI :
Pour un néophyte, c'est un outil tellement efficace pour accéder aux connaissances par son propre langage que la seule chose qui empêche vraiment un utilisateur de l'utiliser pour maitriser quelque chose est sa propre volonté, sa propre disponibilité, sa propre énergie disponible, les limites de sa mémoire et de sa structure cérébrale, et bien entendu la nature du problème qu'il aborde.
En quelque sorte, elle ne serait limitée que par la capacité de l'humain à en bénéficier.

Ce qui doit nous inquiéter, ce sont les capacités d'accès pour chacun à une AI du niveau de qualité actuel (on entend dire que les conséquences matérielles seraient insoutenables).
D'autre part, dans cette perspective et dans une démarche "black mirror" :
- le devenir des relations inter-humaines (pourquoi échanger avec des humains qui peuvent subitement perdre toute fiabilité (rationalité, bonne foi, intelligence...) ou qui ont leur propre intérêt à préserver).
- le devenir de la science elle-même (le risque de faire entrer du fake et de développer une croyance robuste, le risque de déclasser les chercheurs humains qui ont besoin de temps... )
 
Dernière édition:
Alors pour ceux qui l'auraient loupé, Google a sorti il y a une dizaine de jours un nouveau type d'IA spécialisé dans l'édition d'image. Il s'appelle Nano Banana et peut s'utiliser directement sur gemini.google.com en sélectionnant "Créer des images" dans le menu d'outils. Cette IA permet de concurrencer directement des outils comme Photoshop, elle peut par exemple changer les vêtements de quelqu'un ou changer la couleur du ciel, mais sait aussi recréer des personnes sous différents angles, et donc générer des photos/images aussi.

Et là Bytedance, créateurs de Tiktok, vient de balancer Seedream 4.0 qui concurrence directement Nano Banana. Voilà la page de présentation : https://seed.bytedance.com/en/seedream4_0

Bref si déjà en 2025 on en est là j'ai très hâte pour 2026.
 
Pour moi, l'IA reste un peu comme un gros produit ménager : à ne pas mettre entre toutes les mains, et efficace seulement dans des conditions très spécifiques.

j'avais testé miaougpt, puis mistral.AI, supposée fierté française.

Sur une dizaine de films dont j'ai jamais retrouvé les noms, aucun des deux n'a été en mesure de me les retrouver.
J'ai voulu tester avec un autre film, dont j'avais oublié le nom aussi, en me souvenant d'une scène très étonnante (avec un gros acteur américain qui n'apparait que dans une seule scène), j'ai donc interrogé les deux : aucun résultat. Petite recherche classique sur internet, avec des mots clés spécifiques. Je tombe sur un forum dont un commentateur, surpris, observe que sens-critique (un équivalent d'allocine) n'évoque meme pas la dite scène, assez "marquante". Je tombe par cette recherche, sur le nom du film. En dix minutes de "zapping", je retrouve l'instant précis. Ni miaou-chose ni mistral, n'ont été foutus de retrouver ce titre, sachant qu'il est sorti après 2010.

ça plus les photomontages et vidéosmontages générés par IA : je me demande comment ce truc, qui fait plus de ravages que la beuh, fait pour être encore légal. Comme la crypto. Si c'est le "progrès" revendiqué par les uns, je comprends lar-ge-ment que les autres deviennent réticents, voire se convainquent de retourner à l'amish.

L'IA et consors, plus jamais... on est jamais mieux servis etc...
 
Pour moi, l'IA reste un peu comme un gros produit ménager : à ne pas mettre entre toutes les mains, et efficace seulement dans des conditions très spécifiques.

j'avais testé miaougpt, puis mistral.AI, supposée fierté française.

Sur une dizaine de films dont j'ai jamais retrouvé les noms, aucun des deux n'a été en mesure de me les retrouver.
J'ai voulu tester avec un autre film, dont j'avais oublié le nom aussi, en me souvenant d'une scène très étonnante (avec un gros acteur américain qui n'apparait que dans une seule scène), j'ai donc interrogé les deux : aucun résultat. Petite recherche classique sur internet, avec des mots clés spécifiques. Je tombe sur un forum dont un commentateur, surpris, observe que sens-critique (un équivalent d'allocine) n'évoque meme pas la dite scène, assez "marquante". Je tombe par cette recherche, sur le nom du film. En dix minutes de "zapping", je retrouve l'instant précis. Ni miaou-chose ni mistral, n'ont été foutus de retrouver ce titre, sachant qu'il est sorti après 2010.

ça plus les photomontages et vidéosmontages générés par IA : je me demande comment ce truc, qui fait plus de ravages que la beuh, fait pour être encore légal. Comme la crypto. Si c'est le "progrès" revendiqué par les uns, je comprends lar-ge-ment que les autres deviennent réticents, voire se convainquent de retourner à l'amish.

L'IA et consors, plus jamais... on est jamais mieux servis etc...
Une fois j'ai loué une Lamborghini pour déménager mes meubles, alors déjà je l'ai rayée sur l'avant en passant les dos d'âne du parking, et puis au moment de mettre le canapé dedans, cette merde n'avait même pas de coffre ! Donc j'ai ramené tout ça chez le concessionaire et j'ai pris un pickup JAC en tôle bleue qui a très bien fait l'affaire finalement.

Bref c'est dommage de rejeter en bloc une technologie révolutionnaire parce qu'on ne la comprend pas et qu'on l'a mal utilisée une fois.
Ce qu'il faut comprendre déjà est que chaque entreprise a plusieurs modèles, et que chaque modèle a un degré d'intelligence différent. Plus elle est intelligente, plus elle est longue à réfléchir et plus elle est chère.
Mistral est l'IA la plus conne du marché... c'est triste mais c'est ainsi.

L'IA c'est pas juste un truc avec qui tu discutes pour le plaisir, ça résoud de vrais problèmes, ça organise des données, ça recherche des infos précises dans des certaines de pages de texte, ça crée des tableaux de calcul, ça crée des présentations powerpoint, ça génère et édite des images, des vidéos, de la musique, ça crée des voix-off sans besoin d'acteur, ça automatise des systèmes qui jusque là n'étaient absolument pas automatisables, ça extrait des informations et les formatte, ça programme, et désormais ça modifie même des fichiers directement au sein de ton ordi. Comment, en voyant cette liste non exhaustive, on peut se dire "pourquoi c'est légal et je fais mieux qu'elle tout seul" ?
 
Je pose ça là parce que ce site est essentiel pour comprendre ce que sont les modèles d'IA :

C'est un site qui classe tous les modèles (ils ne sont pas tous affichés d'emblée, on peut les ajouter ou retirer des graphiques dans les options, il y en a 269 différents), en fonction de leur prix, de leur intelligence, leur vitesse, etc.

1757600792882.png
 
Un autre exemple pour comprendre la différence au sein d'une même entreprise, comme OpenAI.

Donc le tout dernier "GPT-5" est une suite de 4 modèles en fait : minimal, low, medium et high. Qui eux remplacent tous les anciens modèles dont leur meilleur précédent o3 qui lui aussi était une suite de 3 modèles, low, medium et high.

chart (1).png

Mistral est encore plus nul que le plus nul des modèles de GPT-5. Et avant GPT-5, on avait accès au modèle 4o-mini en gratuit sur chatgpt.com, qui est encore plus nul que Mistral.

1757601297389.png

j'avais testé miaougpt, puis mistral.AI, supposée fierté française.
Donc toute ton expérience de l'IA est basée sur les pires IA du marché.