Generative101.club

OpenAI change les règles du jeu avec PersonQA : que vaut vraiment ChatGPT o3 ?

Une récente étude d'OpenAI révèle que son modèle ChatGPT-O3 hallucine dans 33% des cas face au nouveau benchmark PersonQA, centré sur des questions people. Son successeur O4-mini fait pire avec 48% d'hallucinations. Ce changement de méthodologie d'évaluation, différente du précédent test SimpleQA, soulève des questions sur la pertinence des comparaisons entre générations de modèles d'IA.

Informations

Source

SylvAIn Montmory

Publication

24/04/2025

Articles connexes

Contre l’AI Slop, Humans Commons lance les premières licences “human-first

Nataliya Kosmyna, chercheuse au MIT Media Lab et chez Google, lance Humans Commons, une initiative pionnière pour lutter contre l’AI slop. Avec les licences AI0, elle propose un cadre juridique inédit pour valoriser le travail humain face à l’IA. « Nous voulons agir vite, avec votre aide », souligne-t-elle. Un projet ambitieux, inspiré par des modèles comme Creative Commons, pour rééquilibrer pouvoir et éthique dans l’ère numérique.

La Chine déploie l’IA à grande échelle, bien au-delà des labs.

La Chine déploie l’IA à grande échelle, bien au-delà des labs. Comme le révèle Pascaline Bertaux (cofondatrice de 359), des géants comme Ping An Good Doctor (diagnostics à 97 % de précision), JD (entrepôts 100 % autonomes) ou Meituan (livraisons optimisées par algorithmes) transforment déjà la santé, la logistique et l’éducation. « L’IA chinoise ne se code pas, elle agit », résume-t-elle. L’Occident régule, la Chine scale.

ChatGPT sans Wikipédia ni Reddit : le symptôme d’un internet verrouillé par les géants

Mathieu Chapon, fondateur de PEAK ACE, décrypte la guerre invisible entre Google, OpenAI et les médias français. Depuis septembre 2025, Wikipédia et Reddit ont disparu des réponses de ChatGPT, tandis que les médias hexagonaux, en procès contre les géants tech, s’effacent aussi des résultats. « Top 10 SEO ou rien », résume-t-il : hors de cette zone, les contenus deviennent invisibles. Une bataille où l’accès à l’information se joue entre algorithmes et droits d’auteur, et où les stratégies marketing traditionnelles (comme les articles sponsorisés) perdent leur pertinence.

Abonnés en hausse, IA bannie : le pari gagnant de The Economist pour l’après-Google

The Economist mise sur l’innovation pour affronter l’ère post-recherche, dominée par l’IA. Le média renforce ses formats vidéo et audio, comme Insider, une série longue mettant en scène ses éditeurs, et bloque l’accès de ses contenus aux LLMs. "L’IA ne remplacera pas l’interaction humaine", souligne Luke Bradley-Jones, son président. Avec 1,25 million d’abonnés (+3 % sur un an), le groupe mise aussi sur des outils internes pour fidéliser son audience.