ChatGPT, Character.AI, et autres intelligences artificielles

Jean7 · 22 Juil 2025

Ha oui.
Mais je ne comprend toujours pas.
Un titre alors ?
Enfin, un truc pour que le commun des mortels puisse comprendre.

Mathieu · 22 Juil 2025

Jean7 a dit:
Ha oui.
Mais je ne comprend toujours pas.
Un titre alors ?
Enfin, un truc pour que le commun des mortels puisse comprendre.

Ce sont juste les resultats des modèles indiqués en légende aux différents bench indiqués en dessous, tu mets la photos dans ton LLM et tu lui demande de t'expliquer ?

Ce qu'on regarde :
C'est une comparaison des performances de 5 modèles d'IA de pointe sur des benchmarks standardisés. En gros, des tests qui mesurent à quel point ces IA sont "intelligentes" sur différentes tâches.

Les challengers dans l'arène

Qwen3-235B (Instruct) : Le monstre d'Alibaba Cloud, version "qui réfléchit"
Qwen3-235B (Non-thinking) : Sa petite sœur "instinctive"
Kimi K2 : La pépite de Moonshot AI (la boîte qui cartonne à Pékin)
Claude Opus 4 : L'américain d'Anthropic
Deepseek-V3 : Un autre challenger chinois

Les leçons à tirer

1. La Chine n'est plus à la traîne
Qwen3 (la barre rouge) domine littéralement sur 4 tests sur 5.
On parle de scores entre 70% et 79%, là où les concurrents plafonnent souvent sous les 50%.

2. La "réflexion" fait toute la différence
Regardez l'écart énorme entre Qwen3 "Instruct" (rouge) et "Non-thinking" (bleu) : on passe de 77.5% à 62.9% sur GPQA.
Pour les devs parmi nous, ça veut dire que les techniques de chain-of-thought sont cruciales.

3. Les use-cases qui comptent

Benchmark	Ce que ça teste	Intérêt pour nous
GPQA	Questions niveau PhD	R&D, analyses complexes
AIME25	Maths avancées	Finance, ingénierie
LiveCodeBench	Programmation	Dev, automation

GPQA = Graduate-level Physics
QAAIME = American Invitational Mathematics Examination
Arena-Hard = Benchmark de conversation complexe
BFCL = Berkeley Function Calling Leaderboard

Impact pour la communauté tech en Chine

Pour nous qui bossons dans la tech ici :

Accès local : Qwen et Kimi sont directement accessibles sans VPN, avec des API en yuan
Conformité : Pas de souci de data sovereignty pour vos projets sensibles
Prix : Les modèles chinois sont souvent 3-5x moins chers que GPT-4 ou Claude
Spécialisation : Meilleure compréhension du contexte chinois (réglementations, marché local...)

Attention quand même : ces benchmarks ne racontent pas toute l'histoire.
Il arrive d'une part que les modèles surperforment des benchmarks car entrainés spécifiquement pour bien ranker dessus.
Pour du contenu créatif ou des tâches très spécifiques en anglais et à fortiori en français, Claude et GPT gardent souvent l'avantage.

Chris-Strasbourg · 22 Juil 2025

Mathieu a dit:
elle est juste au dessus du graph !?

Ce que @Jean7 ne sait peut-être pas, c’est que GPQA, AIME25, LiveCodeBench v6, … sont des benchmarks pour IA, des tests normalisés permettant d’évaluer, mesurer, comparer les performances des différentes IA.

Chris-Strasbourg · 22 Juil 2025

Mathieu a dit:
Ce sont juste les resultats des modèles indiqués en légende aux différents bench indiqués en dessous, tu mets la photos dans ton LLM et tu lui demande de t'expliquer ?

Ce qu'on regarde :
C'est une comparaison des performances de 5 modèles d'IA de pointe sur des benchmarks standardisés. En gros, des tests qui mesurent à quel point ces IA sont "intelligentes" sur différentes tâches.

Les challengers dans l'arène

Qwen3-235B (Instruct) : Le monstre d'Alibaba Cloud, version "qui réfléchit"

Qwen3-235B (Non-thinking) : Sa petite sœur "instinctive"

Kimi K2 : La pépite de Moonshot AI (la boîte qui cartonne à Pékin)

Claude Opus 4 : L'américain d'Anthropic

Deepseek-V3 : Un autre challenger chinois

Les leçons à tirer
1. La Chine n'est plus à la traîne
Qwen3 (la barre rouge) domine littéralement sur 4 tests sur 5.
On parle de scores entre 70% et 79%, là où les concurrents plafonnent souvent sous les 50%.

2. La "réflexion" fait toute la différence
Regardez l'écart énorme entre Qwen3 "Instruct" (rouge) et "Non-thinking" (bleu) : on passe de 77.5% à 62.9% sur GPQA.
Pour les devs parmi nous, ça veut dire que les techniques de chain-of-thought sont cruciales.

3. Les use-cases qui comptent

Benchmark Ce que ça teste Intérêt pour nous
GPQA Questions niveau PhD R&D, analyses complexes
AIME25 Maths avancées Finance, ingénierie
LiveCodeBench Programmation Dev, automation

GPQA = Graduate-level Physics
QAAIME = American Invitational Mathematics Examination
Arena-Hard = Benchmark de conversation complexe
BFCL = Berkeley Function Calling Leaderboard

Impact pour la communauté tech en Chine
Pour nous qui bossons dans la tech ici :

Accès local : Qwen et Kimi sont directement accessibles sans VPN, avec des API en yuan

Conformité : Pas de souci de data sovereignty pour vos projets sensibles

Prix : Les modèles chinois sont souvent 3-5x moins chers que GPT-4 ou Claude

Spécialisation : Meilleure compréhension du contexte chinois (réglementations, marché local...)

Attention quand même : ces benchmarks ne racontent pas toute l'histoire.
Il arrive d'une part que les modèles surperforment des benchmarks car entrainés spécifiquement pour bien ranker dessus.
Pour du contenu créatif ou des tâches très spécifiques en anglais et à fortiori en français, Claude et GPT gardent souvent l'avantage.

Tu as été plus rapide …

Jean7 · 22 Juil 2025

En effet.
Je ne dirais pas que maintenant c'est clair, mais au moins, je vois l'idée et peut lire le graphe.

Jean7 · 23 Juil 2025

chwpaul a dit:
Une AI, C'est bien, mais cela ne vous aide pas à vraiment maîtriser une langue étrangère, à l'intégrer dans votre sang et votre esprit, à prendre les bonnes choses de cette culture, à rejeter les mauvaises, et à contribuer au développement de votre propre culture.

Accéder à des super-pouvoir ne peut pas faire de nous des super-héros.
Juste des singes dotés de super-pouvoir.

Cela étant.
J'étais de ton avis il y a 10 ans.
Mais mon humble expérience (j'ai utilisé deepseek2 pour aborder 3 problèmes dans des domaines très variés) m'incite à penser que même ton intervention que je cite n'est plus évidente.
L'aide de l'AI ? Je laisse aux spécialistes évoquer les limites propres aux AI.

Ce que je crois aujourd'hui concernant l'aide de l'AI :
Pour un néophyte, c'est un outil tellement efficace pour accéder aux connaissances par son propre langage que la seule chose qui empêche vraiment un utilisateur de l'utiliser pour maitriser quelque chose est sa propre volonté, sa propre disponibilité, sa propre énergie disponible, les limites de sa mémoire et de sa structure cérébrale, et bien entendu la nature du problème qu'il aborde.
En quelque sorte, elle ne serait limitée que par la capacité de l'humain à en bénéficier.

Ce qui doit nous inquiéter, ce sont les capacités d'accès pour chacun à une AI du niveau de qualité actuel (on entend dire que les conséquences matérielles seraient insoutenables).
D'autre part, dans cette perspective et dans une démarche "black mirror" :
- le devenir des relations inter-humaines (pourquoi échanger avec des humains qui peuvent subitement perdre toute fiabilité (rationalité, bonne foi, intelligence...) ou qui ont leur propre intérêt à préserver).
- le devenir de la science elle-même (le risque de faire entrer du fake et de développer une croyance robuste, le risque de déclasser les chercheurs humains qui ont besoin de temps... )

chwpaul · 21 Août 2025

En Chine, les robots humanoïdes ont leur propre Jeux mondiaux

Ils sprintent, boxent ou dribblent : la Chine a accueilli de vendredi à dimanche, à Pékin, les tous premiers Jeux mondiaux de robots humanoïdes. Plus de 500 androïdes issus de 16 pays se sont affrontés…

www.france24.com

五毛哥 · Jeudi à 10:14

Alors pour ceux qui l'auraient loupé, Google a sorti il y a une dizaine de jours un nouveau type d'IA spécialisé dans l'édition d'image. Il s'appelle Nano Banana et peut s'utiliser directement sur gemini.google.com en sélectionnant "Créer des images" dans le menu d'outils. Cette IA permet de concurrencer directement des outils comme Photoshop, elle peut par exemple changer les vêtements de quelqu'un ou changer la couleur du ciel, mais sait aussi recréer des personnes sous différents angles, et donc générer des photos/images aussi.

Et là Bytedance, créateurs de Tiktok, vient de balancer Seedream 4.0 qui concurrence directement Nano Banana. Voilà la page de présentation : https://seed.bytedance.com/en/seedream4_0

Bref si déjà en 2025 on en est là j'ai très hâte pour 2026.

h9d · Jeudi à 12:48

Pour moi, l'IA reste un peu comme un gros produit ménager : à ne pas mettre entre toutes les mains, et efficace seulement dans des conditions très spécifiques.

j'avais testé miaougpt, puis mistral.AI, supposée fierté française.

Sur une dizaine de films dont j'ai jamais retrouvé les noms, aucun des deux n'a été en mesure de me les retrouver.
J'ai voulu tester avec un autre film, dont j'avais oublié le nom aussi, en me souvenant d'une scène très étonnante (avec un gros acteur américain qui n'apparait que dans une seule scène), j'ai donc interrogé les deux : aucun résultat. Petite recherche classique sur internet, avec des mots clés spécifiques. Je tombe sur un forum dont un commentateur, surpris, observe que sens-critique (un équivalent d'allocine) n'évoque meme pas la dite scène, assez "marquante". Je tombe par cette recherche, sur le nom du film. En dix minutes de "zapping", je retrouve l'instant précis. Ni miaou-chose ni mistral, n'ont été foutus de retrouver ce titre, sachant qu'il est sorti après 2010.

ça plus les photomontages et vidéosmontages générés par IA : je me demande comment ce truc, qui fait plus de ravages que la beuh, fait pour être encore légal. Comme la crypto. Si c'est le "progrès" revendiqué par les uns, je comprends lar-ge-ment que les autres deviennent réticents, voire se convainquent de retourner à l'amish.

L'IA et consors, plus jamais... on est jamais mieux servis etc...

五毛哥 · Jeudi à 16:23

h9d a dit:
Pour moi, l'IA reste un peu comme un gros produit ménager : à ne pas mettre entre toutes les mains, et efficace seulement dans des conditions très spécifiques.

j'avais testé miaougpt, puis mistral.AI, supposée fierté française.

Sur une dizaine de films dont j'ai jamais retrouvé les noms, aucun des deux n'a été en mesure de me les retrouver.
J'ai voulu tester avec un autre film, dont j'avais oublié le nom aussi, en me souvenant d'une scène très étonnante (avec un gros acteur américain qui n'apparait que dans une seule scène), j'ai donc interrogé les deux : aucun résultat. Petite recherche classique sur internet, avec des mots clés spécifiques. Je tombe sur un forum dont un commentateur, surpris, observe que sens-critique (un équivalent d'allocine) n'évoque meme pas la dite scène, assez "marquante". Je tombe par cette recherche, sur le nom du film. En dix minutes de "zapping", je retrouve l'instant précis. Ni miaou-chose ni mistral, n'ont été foutus de retrouver ce titre, sachant qu'il est sorti après 2010.

ça plus les photomontages et vidéosmontages générés par IA : je me demande comment ce truc, qui fait plus de ravages que la beuh, fait pour être encore légal. Comme la crypto. Si c'est le "progrès" revendiqué par les uns, je comprends lar-ge-ment que les autres deviennent réticents, voire se convainquent de retourner à l'amish.

L'IA et consors, plus jamais... on est jamais mieux servis etc...

Une fois j'ai loué une Lamborghini pour déménager mes meubles, alors déjà je l'ai rayée sur l'avant en passant les dos d'âne du parking, et puis au moment de mettre le canapé dedans, cette merde n'avait même pas de coffre ! Donc j'ai ramené tout ça chez le concessionaire et j'ai pris un pickup JAC en tôle bleue qui a très bien fait l'affaire finalement.

Bref c'est dommage de rejeter en bloc une technologie révolutionnaire parce qu'on ne la comprend pas et qu'on l'a mal utilisée une fois.
Ce qu'il faut comprendre déjà est que chaque entreprise a plusieurs modèles, et que chaque modèle a un degré d'intelligence différent. Plus elle est intelligente, plus elle est longue à réfléchir et plus elle est chère.
Mistral est l'IA la plus conne du marché... c'est triste mais c'est ainsi.

L'IA c'est pas juste un truc avec qui tu discutes pour le plaisir, ça résoud de vrais problèmes, ça organise des données, ça recherche des infos précises dans des certaines de pages de texte, ça crée des tableaux de calcul, ça crée des présentations powerpoint, ça génère et édite des images, des vidéos, de la musique, ça crée des voix-off sans besoin d'acteur, ça automatise des systèmes qui jusque là n'étaient absolument pas automatisables, ça extrait des informations et les formatte, ça programme, et désormais ça modifie même des fichiers directement au sein de ton ordi. Comment, en voyant cette liste non exhaustive, on peut se dire "pourquoi c'est légal et je fais mieux qu'elle tout seul" ?

五毛哥 · Jeudi à 16:26

Je pose ça là parce que ce site est essentiel pour comprendre ce que sont les modèles d'IA :

https://artificialanalysis.ai/models

C'est un site qui classe tous les modèles (ils ne sont pas tous affichés d'emblée, on peut les ajouter ou retirer des graphiques dans les options, il y en a 269 différents), en fonction de leur prix, de leur intelligence, leur vitesse, etc.

五毛哥 · Jeudi à 16:35

Un autre exemple pour comprendre la différence au sein d'une même entreprise, comme OpenAI.

https://openai.com/index/introducing-gpt-5/

Donc le tout dernier "GPT-5" est une suite de 4 modèles en fait : minimal, low, medium et high. Qui eux remplacent tous les anciens modèles dont leur meilleur précédent o3 qui lui aussi était une suite de 3 modèles, low, medium et high.

Mistral est encore plus nul que le plus nul des modèles de GPT-5. Et avant GPT-5, on avait accès au modèle 4o-mini en gratuit sur chatgpt.com, qui est encore plus nul que Mistral.

h9d a dit:
j'avais testé miaougpt, puis mistral.AI, supposée fierté française.

Donc toute ton expérience de l'IA est basée sur les pires IA du marché.

Alplob · Vendredi à 04:25

五毛哥 a dit:
Je pose ça là parce que ce site est essentiel pour comprendre ce que sont les modèles d'IA :

https://artificialanalysis.ai/models

C'est un site qui classe tous les modèles (ils ne sont pas tous affichés d'emblée, on peut les ajouter ou retirer des graphiques dans les options, il y en a 269 différents), en fonction de leur prix, de leur intelligence, leur vitesse, etc.

Voir la pièce jointe 140125

J'utilise Claude Code dans le terminal, c'est vraiment bien (même si évidement il faut relire derrière pour s'assurer que ce soit maintenable dans la durée au risque de se retrouver avec une big ball of mud)

五毛哥 · Vendredi à 06:45

Alplob a dit:
J'utilise Claude Code dans le terminal, c'est vraiment bien (même si évidement il faut relire derrière pour s'assurer que ce soit maintenable dans la durée au risque de se retrouver avec une big ball of mud)

Pas encore essayé celui là.

Qwen CLI : 2000 requêtes / jour, 100% gratuit
Gemini CLI : 1000 requêtes / jour (une vingtaine avec 2.5 pro et le reste avec 2.5 flash) 100% gratuit
Codex (OpenAI) : 30 requêtes / 5 heures et environ 2.5 jours non-stop de travail par semaine avant les rate limites de la semaine, 20$ / mois

Et puis quand vraiment il galère trop, je passe sur Gemini 2.5 Pro sur le web et je continue là vu que j'ai un abonnement (décorrelé de la CLI malheureusement).

Boost de productivité x100.

Chris-Strasbourg · Vendredi à 06:59

五毛哥 a dit:
Je pose ça là ....

Tout est dit !

Malyn · Vendredi à 08:08

Loin d'être anto-technologie, je vais laisser l'IA que je n'ai jamais utilisé via des applications comme celles nommées précédemment ainsi que Wechat à ceux que cela interesse. Je m'en passe très bien dans la vie de tous les jours.

Jean7 · Samedi à 01:03

L'avantage de dialoguer avec une IA, c'est qu'on ne se fait ni censurer ni bannir, qu'on peut s'expliquer et avoir l'impression d'être compris.

On retrouve le plaisir qu'on avait à discuter entre gens qui considèrent les faits plus que leurs préjugés.
C'est pour ça que je ne discute généralement pas avec les IA et que je n'y ait plus recours que face à des problèmes précis et importants.
Comme je consultais un dictionnaire quand j'en avais le temps, pour éviter des erreurs trop grossières.

ChatGPT, Character.AI, et autres intelligences artificielles

Alpha & Oméga

Alpha & Oméga

Les challengers dans l'arène​

Les leçons à tirer​

Impact pour la communauté tech en Chine​

Alpha & Oméga

Alpha & Oméga

Les challengers dans l'arène​

Les leçons à tirer​

Impact pour la communauté tech en Chine​

Alpha & Oméga

Alpha & Oméga

Alpha & Oméga

Alpha & Oméga

Apprenti

Alpha & Oméga

Alpha & Oméga

Alpha & Oméga

Alpha & Oméga

Alpha & Oméga

Alpha & Oméga

Alpha & Oméga

Alpha & Oméga

Les challengers dans l'arène

Les leçons à tirer

Impact pour la communauté tech en Chine

Les challengers dans l'arène

Les leçons à tirer

Impact pour la communauté tech en Chine