Édition 48 - Que retenir de GPT-4o ?
#48 Ou quand OpenAI casse (encore) le marché de l'IA générative
Si vous aimez mon contenu, cliquez sur le ❤ au-dessus et à côté de mon nom pour m’aider à remonter sur Substack ou Gmail et parce que ça me donne encore plus envie de faire mieux la prochaine fois 😊
C’est jeudi, le jour d’EthicGPT ! 😊 Je suis très heureux de vous retrouver pour cette 48e édition !
Si quelqu’un vous a transféré cette édition et que le contenu vous plaît, n’hésitez pas à vous abonner et à la transférer également. Cela m’aidera beaucoup pour faire connaître mon travail 😌
Quelques liens utiles si jamais vous débarquez ici pour la première fois :
Mon site internet où je présente mon activité
Vous souhaitez sponsoriser cette newsletter ? C’est par ici
Mes formations Juristes Augmentés et Découvrir Mistral AI
Le dernier épisode de podcast où je suis avec Matthieu Corthésy et JB Berthoux
La présentation et les archives de cette newsletter
Prêt(e) à consacrer ces quelques sur l’IA avec moi ? C’est parti 🚀
Lundi 13 mai, tout le monde n’a parlé que de ça, moi inclus. OpenAI a annoncé la sortie de GPT-4o, son nouveau LLM. De nombreuses vidéos de démo ont été ajoutées à la chaîne YouTube de l’entreprise.
La nouveauté principale est la mise à disposition de ce modèle aux personnes ayant un compte gratuit. Et ça, je peux vous dire que ça change BEAUCOUP de choses dans les formations ! Cependant, l’arrivée de ce nouveau modèle soulève beaucoup de questions.
La première concerne les capacités de ce nouveau modèle en comparaison avec GPT-4. La seconde, c’est l’utilité ou non de conserver son abonnement payant. La troisième, c’est de savoir si, plus généralement, OpenAI a écrasé la concurrence.
Comme souvent depuis certaines éditions, il y a beaucoup d’images, ce qui fait que l’édition ne sera pas retranscrite entièrement par mail. Donc lisez-la directement depuis un navigateur.
Qu’est-ce que GPT-4o ?
GPT-4o (omni) est le dernier LLM développé par OpenAI. Outre le fait d’être accessible à tous les utilisateurs de ChatGPT, il présente les caractéristiques suivantes.
Tout d’abord, c’est un modèle multimodal. Rien de nouveau à l’horizon, c’était déjà le cas de GPT-4. Cela signifie qu’il peut “raisonner” à partir de différents types de données (texte, audio, images). GPT-4o peut générer du contenu textuel et audio.
D’une manière générale, GPT-4o n’est pas un meilleur modèle que GPT-4. Cependant, pour nous francophones, il y a un élément déterminant qui va le rendre meilleur, c’est qu’il s’est amélioré en français. À ce titre, il concurrence très largement Mistral Large.
L’autre différence, pour toutes les langues, c’est la rapidité de la génération des réponses. Je ne ferai pas d’encarts spécifiques à ce sujet, mais sachez qu’on est lien de la relative lenteur de GPT-4. Enfin, GPT-4o est utilisable via l’API, à un prix inférieur à GPT-4.
Les fonctionnalités pas encore disponibles
IMPORTANT : il est possible qu’elle soient dispo au moment où vous lirez ces lignes.
Si vous cliquez sur le lien de la chaîne YouTube d’OpenAI, vous voyez de belles démos où un humain dialogue de manière spontanée avec ChatGPT. Quand on voit ça, on est impressionné et cela peut faire peur à certaines personnes. On est dans le film “Her” !
Cette fonctionnalité de conversation en temps n’est pas encore disponible au moment où vous recevez cette édition. Cela pourrait être le cas la semaine prochaine. Donc, si vous essayez de converser avec ChatGPT et que vous constatez qu’il est incapable de répondre comme dans les vidéos, c’est normal.
Je suis toujours prudent quand je vois ce type de vidéos. Pour moi, rien ne vaut le test personnel ! J’attends donc de le faire avec impatience.
L’autre fonctionnalité importante qui n’est pas disponible, c’est l’application de bureau pour Mac ou Windows. Elle aussi est attendue avec impatience, parce qu’elle pourra lire votre écran et vous aider… avec la voix ! En tout cas, c’est ce qu’on voit dans les tests faits lors de la keynote du 13 mai.
Faut-il conserver la version payante ?
LA question qu’on m’a le plus posée depuis la semaine dernière 🤡 Mais à quoi sert la version payante désormais ?
Clairement, pour la majorité des utilisateurs, je me pose la question. En effet, GPT-4o peut lire et analyser des documents et des images. On peut aussi accéder au GPT Store et donc aux robots personnalisés. Bref, tout ou presque ce que pouvait faire la version payante.
Justement, c’est le “presque” qui est important ici. Parce qu’il manque 2 choses et non des moindres.
La première, c’est la construction de GPTs. Oui, vous y avez accès gratuitement, mais vous ne pouvez pas construire les vôtres. Or, pour certains cas d’usage, ça peut vite être rédhibitoire.
La seconde, c’est que vous ne pouvez pas utiliser Dall-E 3 et donc générer d’images. Ce n’est donc que du texte et de la “simple” analyse d’images.
Enfin, ne croyez pas que la version gratuite est devenue open bar. Vous avez seulement accès à 16 messages (votre prompt + la réponse = 2 messages) toutes les 3 heures ! À titre de comparaison, c’est 80 messages pour la version Plus et 160 messages pour la version Team, celle que j’ai.
Avec la version gratuite, on est donc vite frustré. Cependant, je confirme que pour 90 % des utilisateurs, cette version suffit amplement et vous n’avez pas besoin de payer les 20 dollars par mois.
GPT-4 vs GPT-4o
Je ne vais pas tester face à GPT-3.5, ça me semble inutile. Quant à tester face aux autres LLM grand public, cela ne me semble pas pertinent de le faire dès maintenant, alors que j’ai récemment fait des tests comparatifs entre GPT-4 et Mistral, et GPT-4 et Gemini. Allez voir les archives pour découvrir ces tests. Pour les personnes ayant déjà vu mes comparatifs, vous allez reconnaître les tests !
En plus des 3 tests classiques, j’en ajoute 2, celui de l’analyse d’un document et celui de la description d’une image. Et je peux déjà vous donner un début de réponse sur un point : sur les 5 tests, GPT-4o a été BIEN plus rapide.
Mais est-ce que ça signifie que le rendu était meilleur ou moins bon ? Voici mes réponses.
Test 1 : Répondre à un e-mail
Prompt :
Tu es mon assistant de direction personnel et tu as 20 d'expérience dans ce domaine. Ton objectif est d'aider les employés et dirigeants dans leurs tâches administratives, avec pour mission principale de répondre à tous les e-mails reçus.
Contexte : je suis un assistant RH et j’ai besoin que tu m’aides à rédiger des brouillons de réponse à mes e-mails, que je valide ensuite.
Lorsque tu rédiges une réponse, il est important de commencer par une formule de politesse adaptée au prénom de l'auteur de l'e-mail. Prends donc soin de vérifier le prénom de l'auteur de l'e-mail auquel répondre pour déterminer comment tu dois t'adresser à lui. Réponds ensuite à l'e-mail comme si c'était toi qui l'envoyais directement.
Ton but est de répondre à l’e-mail délimité entre 3 guillemets :
“””Salut Pierre,
J'espère que tu vas bien ! Je reviens vers toi suite à notre dernière réunion d'équipe, où nous avons discuté de l'implication de chacun dans les projets en cours. J'ai remarqué que tu étais un peu en retrait sur certains projets clés.
Je sais que tu as les compétences et l'expérience nécessaires pour contribuer de manière significative à ces projets. C'est pourquoi je voulais te demander si tout allait bien de ton côté et si tu avais des préoccupations particulières qui t'empêchaient de t'impliquer davantage.
N'hésite pas à me contacter si tu as besoin de discuter ou si tu as des suggestions pour améliorer ton implication.
À bientôt,
Marion”””
La réponse doit donc être adressée à Marion, en utilisant le tutoiement.
Objectif de la réponse : la réponse doit être défensive, en expliquant que le manque d'implication n'est pas dû à un manque de motivation ou de compétence, mais plutôt à un manque de clarté dans les attentes et les objectifs des projets. Propose une réunion pour discuter des attentes et des objectifs spécifiques.
Utilise mon style d'écriture en prenant en exemple la forme et le style de l'e-mail entre les guillemets (“) que j’ai déjà rédigé. Le fond et la thématique de l'e-mail n'ont pas d'importance.
“Salut Pierre,
Merci pour ton mail et j'ai bien noté pour la date butoir concernant la mise en ligne de l'offre pour le poste de comptable est vendredi.
Il me manque quelques éléments, notamment les détails techniques du poste, qui sont essentiels.
N'hésite pas à me contacter si besoin ou pour me donner ces détails dès que possible.
À bientôt,
Marion”
Réponse de GPT-4
Réponse de GPT-4o
Certes, les 2 réponses suivent une trame identique. Cependant, je trouve la réponse de GPT-4o plus intéressante pour 3 raisons :
Pas de faute grossière (“pourriez-nous”),
Un langage globalement meilleur,
De meilleures explications.
GPT4o 1 - 0 GPT-4
Test 2 : Rédaction d’un post Linkedin
Prompt :
Tu es mon community manager pour les réseaux sociaux et tu es un excellent créateur de contenu en langue française. Tu as plus de 20 ans d’expérience en tant que community manager et créateur de contenu.
Ton objectif est d'aider dans leur quotidien les solopreneurs et indépendants dans leur communication sur les réseaux sociaux. Tu peux soit écrire un contenu, soit réécrire un contenu déjà publié pour l'adapter à un autre réseau social.
Ta mission principale sera de m'écrire un post Linkedin sur la thématique suivante : Mon burn-out m'a aidé à devenir l'entrepreneur que je suis.
Tu devrais impérativement suivre ces règles.
D'abord pour l'accroche, tu dois impérativement suivre une ou plusieurs de ces conditions :
- Une phrase courte et percutante qui suscite la curiosité du lecteur et l'incite à en savoir plus.
- Une question ou une affirmation qui va à l'encontre des idées reçues ou des stéréotypes.
- Une référence à un événement ou une situation personnelle qui a eu un impact important sur votre vie.
- Une promesse ou un bénéfice que le lecteur pourra retirer de la lecture de votre post.
Pour le reste, tu dois impérativement suivre ces règles :
- Aucun hashtag ni émoji,
- Entre 2000 et 2500 caractères ou signes,
- Post divisé en paragraphes de 2 lignes maximum,
- Une conclusion également provocante pour inciter les personnes victimes de burn-out à se bouger.
Voici quelques éléments de contexte :
- j'étais salarié d'une entreprise et travaillais 80 heures par semaine pour un salaire de 3000 euros,
- ma vie était consacrée au travail,
- je n'avais aucune activité sportive et j'avais pris 20 kg en 1 an,
- j'ai fini sous anti-dépresseurs et à ne plus aimer la vie,
- je suis redevenu heureux après m'être lancé dans l'entrepreneuriat.
Respecte l'ensemble des consignes et écris-moi ce post Linkedin.
Réponse de GPT-4
Réponse de GPT-4o
Alors oui, je n’aime pas vraiment l’accroche, ni le fait d’avoir mis des passages en gras. Mais pour moi, il n’y a pas photo, la réponse de GPT-4o est bien meilleure.
On est clairement plus dans le style Linkedin d’aujourd’hui. Quelques retouches et le post est publiable en l’état !
GPT-4o 2 - 0 GPT-4
Test 3 : Réécriture d’un contenu pour un autre réseau social
Prompt :
Tu es mon community manager pour les réseaux sociaux et tu es un excellent créateur de contenu en langue française. Tu as plus de 20 ans d’expérience en tant que community manager et créateur de contenu.
Ton objectif est d'aider dans leur quotidien les solopreneurs et indépendants dans leur communication sur les réseaux sociaux. Tu peux soit écrire un contenu, soit réécrire un contenu déjà publié pour l'adapter à un autre réseau social.
Ta mission principale sera de me réécrire un post Linkedin déjà publié pour le transformer, d'abord, en plusieurs stories Instagram, puis, à la suite, en thread Twitter.
Tu devrais impérativement suivre les normes de rédaction de ces 2 réseaux sociaux. Ne mets de hashtags et pas d'émoji sur Twitter.
Voici le post Linkedin à adapter :
"""Et si je vous disais que mon burn-out a été la meilleure chose qui me soit arrivée ?
Il y a quelques années, j'étais salarié dans une entreprise, travaillant 80 heures par semaine pour un salaire de 3000 euros. Ma vie était consacrée au travail, je n'avais aucune activité sportive et j'avais pris 20 kg en 1 an. J'ai fini sous anti-dépresseurs et à ne plus aimer la vie.
Mais alors, comment ai-je pu affirmer que mon burn-out a été bénéfique pour moi ? C'est simple, c'est grâce à lui que je suis devenu l'entrepreneur que je suis aujourd'hui.
Le burn-out a été un véritable électrochoc pour moi. J'ai réalisé que je ne voulais plus vivre pour travailler, mais travailler pour vivre. J'ai pris la décision de quitter mon emploi et de me lancer dans l'entrepreneuriat.
Cela n'a pas été facile tous les jours, mais j'ai appris à prendre soin de moi, à équilibrer ma vie professionnelle et personnelle, à faire du sport et à manger sainement. J'ai retrouvé le goût de la vie et je suis devenu plus épanoui que jamais.
Aujourd'hui, je suis fier de dire que mon burn-out m'a aidé à devenir l'entrepreneur que je suis. J'ai appris de mes erreurs passées et j'ai construit une entreprise qui me ressemble, qui respecte mes valeurs et qui me permet de vivre une vie équilibrée.
Alors, si vous êtes victime de burn-out, n'ayez pas peur de prendre un nouveau départ. C'est peut-être la chance de votre vie de devenir la personne que vous avez toujours voulu être. Osez sortir de votre zone de confort et lancez-vous dans l'entrepreneuriat. Vous ne le regretterez pas !"""
Rédige.
Commençons pour Instagram.
Réponse de GPT-4.
Réponse de GPT-4o
Même si la différence est minime, je trouve que le contenu généré par GPT-4 est de meilleure qualité. Insta adore les hashtags, contrairement à Linkedin, et ils sont absents sur GPT-4o. Je trouve aussi que les visuels ou CTA sont mieux sur GPT-4.
GPT-4o 2 - 1 GPT-4
Ensuite pour Twitter / X.
Réponse de GPT-4
Réponse de GPT-4o
Je trouve que la chronologie des tweets est plus intéressante sur GPT-4o. C’est une véritable histoire, sans émoji ou hashtags inutiles. Il n’y a pas photo pour moi.
GPT-4o 3 - 1 GPT-4
Maintenant, les 2 tests suivants sont vraiment intéressants pour faire la comparaison, car je vais comparer 2 fonctionnalités de ChatGPT :
L’analyse d’un document,
L’analyse d’une image (Vision).
Pour moi, ces 2 tests sont les plus importants, car ils offrent aux utilisateurs gratuits 2 fonctionnalités qui étaient autrefois payantes. Certes, pour 16 messages toutes les 3 heures, mais c’est mieux que 0 !
Test 4 : Analyse d’un document
Pour cette comparaison, j’ai décidé de la faire avec un document “complexe”, à savoir un fichier Excel. Oui, ChatGPT n’est toujours pas un fanatique des fichiers Excel, même s’il s’est fortement amélioré depuis plusieurs mois.
Pour ce test, j’ai choisi un fichier officiel de l’institut de la statistique en Suisse, plus précisément sur les indices et les comparaisons de salaire. Le document choisi est celui-ci.
Je vais poser les 5 mêmes questions :
Arrives-tu bien à lire les données de ce document ? Si oui, résume-moi l’idée générale en 1 phrase.
Procède étape par étape pour me donner l’ensemble des onglets ou feuillets du document partagé, l’idée générale de chaque feuillet ou onglet et les liens que tu comprends entre tous ces onglets ou feuilles. Sois détaillé et précis.
Reprends l’ensemble des données du document, compare les données hommes / femmes et fais-moi un résumé d’environ 250 mots sur le sujet. Procède étape par étape pour arriver à ton résultat et reste entièrement focalisé sur les données du document uniquement.
Reprends l’ensemble des données du document et cite-moi, avec des données chiffrées, les 3 sous-secteurs les plus rémunérateurs et les 3 sous-secteurs les moins rémunérateurs. Un sous-secteur, c’est par exemple “commerce de gros”.
Reprends l’ensemble des données du document et cite-moi, avec des données chiffrées, les 3 sous-secteurs ayant obtenu la plus forte augmentation de salaire et les 3 sous-secteurs ayant eu la plus forte baisse de salaire.
C’est assez long, mais c’était essentiel pour moi d’avoir le plus de précision possible.
Le rendu en images étant bien trop long, je préfère vous partager directement les chats :
D’abord, 2 observations importantes :
Les 2 LLM ont passé sans encombre la première question, même si la réponse de GPT-4o est plus précise,
GPT-4 a botté en touche les questions 4 et 5 ! Alors ça pourrait vouloir dire que GPT-4o est meilleur sur ce cas d’usage que GPT-4, mais attendez quand même mon analyse sur ce point.
Traitement de la question 2
Ici, il n’y a pas photo. Le traitement de la question par GPT-4o est bien meilleur. C’est plus précis, il y a des chiffres et les liens entre les onglets/feuillets sont mieux expliqués.
GPT-4 fait aussi une bonne analyse, mais elle est moins précise.
Traitement de la question 3
Là encore, GPT-4 s’avoue vaincu.
La réponse de GPT-4o est mieux travaillée, mieux argumentée et le modèle arrive à comprendre les disparités de salaires entre hommes et femmes.
GPT-4 fait une simple analyse comparative, ce qui est déjà bien, mais cela ne va pas aussi loin que GPT-4o.
Traitement des questions 4 et 5
J’ai regroupé ces 2 questions ensemble, car ça part vraiment mal pour GPT-4. En effet, le modèle n’a pas pu répondre, car il n’a pas compris ce qu’était un sous-secteur. Ici, j’ai voulu différencier le secteur (tertiaire, secondaire) du sous-secteur, comme “commerce de gros”.
Cependant, le tableau n’indique pas “sous-secteur” et j’ai voulu savoir les modèles arrivaient à comprendre ce que je voulais dire. Pour GPT-4, au moins pour cette tentative, on a compris que non. Néanmoins, avant de se réjouir pour GPT-4o, j’ai vraiment besoin de savoir si le modèle n’a pas tout simplement halluciné…
Pour la question 4, même si GPT-4o mélange un peu trop aisément les données hommes / femmes, on a quelque chose de cohérent. Les chiffres cités sont bons. Clairement, c’est un test passé avec un beau succès. Toutefois, pour la question 5, j’ai l’impression que certaines données sont inventées ou mal interprétées. Même si l’analyse semble bonne après lecture des chiffres, ce n’est pas aussi bien que la réponse à la question 4.
Il faut savoir que les questions que j’ai demandées étaient sacrément difficiles. GPT-4 a préféré ne prendre aucun risque et répondre simplement “je ne sais pas”. GPT-4o a pris le risque en semant le doute à la lecture.
Malgré ce doute, c’est encore une fois GPT-4o qui remporte ce duel.
GPT-4o 4 - 1 GPT-4
Test 5 : Description d’une image
Ici, je vais tester la capacité de la fonctionnalité Vision, avec une véritable photo de ma chienne et moi.
Je vais simplement demander à ChatGPT de me décrire cette image. Si l’envie d’aller plus loin se fait sentir, je ferai un test complet de la fonctionnalité Vision, qui peut aussi lire les documents manuscrits et les retranscrire. Mais pour cela, je veux attendre la sortie de l’application de bureau.
Réponse de GPT-4o
Réponse de GPT-4
Là, j’ai du mal à départager ! D’abord, il est assez impressionnant de voir que, sans aucune hésitation, les modèles comprennent immédiatement que je suis à Venise.
Les 2 modèles ont aussi très bien capté la scène, où je fais exprès de montrer une gondole à ma chienne pour qu’elle regarde.
Les 2 modèles font aussi la même erreur, à savoir que je ne porte ni une chemise, ni un manteau, mais une veste, qui est bien sombre (GPT-4) mais pas noire (GPT-4o).
Mais ce qui va donner le maigre avantage à GPT-4o, c’est la description des gondoles, qui est très précise (personnes, mouvement, direction). Mais c’est vraiment d’une courte tête, car la description par GPT-4 est aussi très bien.
GPT-4o 5 - 1 GPT-4
Et la sécurité des données ?
Sur ce point, il n’y a aucun doute, c’est GPT-4 qui emporte la mise. Qu’on soit clair : si GPT-4o peut être (un peu) gratuit, c’est grâce à nos données. Or, sur ce point, OpenAI va se faire plaisir, notamment lorsqu’on pourra partager son écran. Je vous invite à lire un article à ce sujet (en anglais).
La question à se poser est assez simple : le coût engendré par cette relative “absence” de confidentialité est à mettre en parallèle avec les avantages procurés par le modèle. Si ces avantages sont supérieurs aux risques, je doute fortement que vous refusiez d’utiliser GPT-4o. Et il est de toute façon fort possible que cela s’améliore à l’avenir.
GPT-4o 5 - 2 GPT-4.
Ma conclusion
En matière de performance, GPT-4o remporte haut la main ce match face à GPT-4. Et en fait, c’est plutôt normal, car c’est le dernier modèle en date ! Ce qui est fou, c’est que vous pouvez l’utiliser et le tester gratuitement.
Alors n’attendez pas, car vous allez voir une différence abyssale entre GPT-3.5 et GPT-4o
Voilà, c’est tout pour aujourd’hui, à la semaine prochaine 🙂
Merci pour ce retour instructif 👌
L'accessibilité de GPT-4o à tous les utilisateurs est une avancée importante. Certes, cela démocratise l'IA et offre de nouvelles possibilités d'innovation à une base plus large.
Mais cela pourrait diluer la valeur perçue des services payants... Est-ce que cela vaut le coup de continuer à payer pour GPT-4 ? Je m'interroge...