Parce que définir l’« intelligence » de l’intelligence artificielle (IA) est complexe. Car elle englobe le raisonnement, la créativité, la compréhension contextuelle et l’utilité pratique. Avec leurs dernières mises à jour de performance, voyons comment ChatGPT-5 d’OpenAI et Grok 4 de xAI se comparent à partir des données disponibles. Quelle est l’IA la plus intelligente ? Des éléments de réponses.
Des benchmarks comme ARC-AGI, AIME et GPQA constituent un point de départ, mais leurs limites, comme leur sensibilité aux jeux ou leur divergence par rapport aux tâches réelles, nécessitent une interprétation prudente.
Performance de référence
– Grok 4
xAI affirme que Grok 4 surpasse ses concurrents au « Dernier Examen de l’Humanité » et obtient un score de 10 % à l’ARC-AGI, surpassant Claude 4 Opus. Son score AIME de 96 % et son score GPQA de 85 % suggèrent de solides capacités académiques et de raisonnement.
Cependant, les critiques affirment que les victoires de xAI aux tests de référence pourraient refléter un entraînement optimisé plutôt qu’une intelligence globale.
Le système multi-agents de Grok 4, où plusieurs agents IA collaborent sur des problèmes, améliore la précision des tâches complexes. Mais sa vitesse de génération de 75 jetons par seconde est inférieure à celle de certains concurrents.
– Chat GPT-5
Sans benchmarks officiels, les spéculations reposent sur les performances de GPT-4 et la trajectoire d’OpenAI. GPT-4 est déjà leader en matière d’intégration d’écosystèmes et d’outils. Il devrait surpasser Grok 4 en termes de profondeur de raisonnement et de tâches multimodales.
Des publications sur X suggèrent que GPT-5 avec outils se classe entre Grok 4 et Grok 4 Heavy on Humanity’s Last Exam. Ce qui indique des performances compétitives.
L’accent mis par OpenAI sur la sécurité pourrait produire des résultats plus cohérents. Mais son cycle de publication plus lent le place derrière la disponibilité immédiate de Grok 4.
Performances dans le monde réel
Selon les benchmarks, les tests en conditions réelles révèlent les forces et les faiblesses pratiques suivantes des deux IA :
– Grok 4
Après 24 heures de tests, les évaluateurs ont constaté que Grok 4 surpassait ChatGPT 4 dans les tâches de raisonnement et de codage. Notamment en matière de débogage et d’explication de code. Son intégration des données X en temps réel le rend précieux pour l’analyse de marché et le suivi des tendances.
– ChatGPT-5
Bien qu’ils n’aient pas encore été testés en public, les prédécesseurs de GPT-5 excellent par leur polyvalence, gérant des invites nuancées et maintenant le contexte lors de longues conversations.
Le mode Étude d’OpenAI, lancé en juillet 2025, utilise le questionnement socratique pour guider les utilisateurs. Laissant entrevoir le potentiel de GPT-5 pour l’apprentissage interactif. Les capacités multimodales attendues, notamment le traitement vidéo, pourraient surpasser Grok 4 dans des tâches créatives comme la génération de contenu ou le tutorat.




































