SylvAIn Montmory
OpenAI change les règles du jeu avec PersonQA : que vaut vraiment ChatGPT o3 ?
SylvAIn Montmory 24 avril 2025 · Technologie· Information
Contexte
Une récente étude d'OpenAI révèle que son modèle ChatGPT-O3 hallucine dans 33% des cas face au nouveau benchmark PersonQA, centré sur des questions people. Son successeur O4-mini fait pire avec 48% d'hallucinations. Ce changement de méthodologie d'évaluation, différente du précédent test SimpleQA, soulève des questions sur la pertinence des comparaisons entre générations de modèles d'IA.
Source originale
Cet article a été sélectionné et archivé pour sa pertinence sur l'IA en entreprise. Retrouvez le contenu complet sur linkedin.com.
Lire sur linkedin.com ↗ 📌
Contenu figé · Archivé en 2025. Pour l'actualité IA en temps réel, suivez Florent et Ange sur LinkedIn.