SylvAIn Montmory

OpenAI change les règles du jeu avec PersonQA : que vaut vraiment ChatGPT o3 ?

SylvAIn Montmory 24 avril 2025 · Technologie· Information

Contexte

Une récente étude d'OpenAI révèle que son modèle ChatGPT-O3 hallucine dans 33% des cas face au nouveau benchmark PersonQA, centré sur des questions people. Son successeur O4-mini fait pire avec 48% d'hallucinations. Ce changement de méthodologie d'évaluation, différente du précédent test SimpleQA, soulève des questions sur la pertinence des comparaisons entre générations de modèles d'IA.

Source originale

Cet article a été sélectionné et archivé pour sa pertinence sur l'IA en entreprise. Retrouvez le contenu complet sur linkedin.com.

Lire sur linkedin.com ↗

📌

Contenu figé · Archivé en 2025. Pour l'actualité IA en temps réel, suivez Florent et Ange sur LinkedIn.

Partager sur LinkedIn