Édition 64 - GPT-o1 : révolution ou grosse connerie ?
#64 Mes premiers tests et avis sur le modèle "révolutionnaire" d'OpenAI
Si vous aimez mon contenu, cliquez sur le ❤ au-dessus et à côté de mon nom pour m’aider à remonter sur Substack ou Gmail et parce que ça me donne encore plus envie de faire mieux la prochaine fois 😊
C’est samedi, le jour d’EthicGPT ! 😊 Je suis très heureux de vous retrouver pour cette 64e édition !
Si quelqu’un vous a transféré cette édition et que le contenu vous plaît, n’hésitez pas à vous abonner et à la transférer également. Cela m’aidera beaucoup pour faire connaître mon travail 😌
Quelques liens utiles si jamais vous débarquez ici pour la première fois :
Mon site internet où je présente mon activité
Vous souhaitez sponsoriser cette newsletter ? C’est par ici
Mes formations Juristes Augmentés et Découvrir Mistral AI
La présentation et les archives de cette newsletter
Prêt(e) à consacrer ces quelques sur l’IA avec moi ? C’est parti 🚀
Jeudi 12 septembre 2024, fin d’aprem ou début de soirée, réception d’un e-mail d’OpenAI. Grosse annonce inattendue : un nouveau modèle est disponible sur ChatGPT ! Même pas 4 mois après GPT-4o, cela semble étonnant.
Mais ce modèle n’est pas comme les autres. Baptisé o1, ce LLM ne répond plus “au hasard” et faisant un calcul de probabilité. Non, o1 raisonne. Dès le lendemain, Linkedin est inondé de posts dithyrambiques. “Révolution”, “fascination”, “un pas de plus vers l’AGI”, “le projet Strawberry enfin sorti”.
Puis d’autres posts arrivent, moins enthousiastes. En résumé, o1 ne sert à rien pour le commun des mortels, mais excelle pour une minorité. Alors qui croire ?
Comme toujours, j’ai laissé le temps de la hype passer (et aussi parce que j’ai 12 formations à donner en 28 jours !) pour faire mes premiers tests et vous en faire un retour honnête. Et vous allez vite comprendre qu’on est en train de voir une séparation entre 2 camps. Vous allez devoir choisir un de ces 2 camps lorsque, si vous êtes dirigeant(e) d’entreprise, vous allez faire appel à un formateur pour vos équipes.
C’est quoi GPT-o1 ?
Présentation de o1
OpenAI présente sur modèle o1 sur cette page. Pour l’entreprise, c’est un modèle qui prend plus de temps à réfléchir avant de répondre. Dit autrement, il fait du raisonnement. Ce point est essentiel car, jusqu’à présent, on ne pouvait pas dire qu’un LLM pouvait raisonner.
Autant étonnant que cela puisse paraître à certains, un LLM comme GPT-4o répond “au hasard”, en faisant un calcul de probabilité et en prédisant la suite de mots la plus logique et cohérente à votre prompt. GPT-o1, c’est différent : il réfléchit.
D’ailleurs, on voit la différence quand on lui demande quelque chose : c’est plus long et on observe son cheminement. Bien entendu, OpenAI nous sort des comparatifs sans intérêt de type “the next model update performs similarly to PhD students on challenging benchmark tasks in physics, chemistry, and biology.” Je n’arrive toujours pas à comprendre cette volonté de comparer IA et intelligence humaine, qui puis est en mettant dans un panier LES doctorants, qui si cela formait un ensemble homogène. Bref, fin de la parenthèse.
OpenAI évoque également une amélioration de la sécurité, typiquement la quasi-impossibilité de “jailbreaker” (passer outre) les systèmes de sécurité. Par exemple, malgré nos précautions, des petits malins peuvent toujours obtenir les instructions d’un GPT. Avec o1, c’est supposé être impossible… quand on pourra construire des GPTs avec (On peut utiliser l’API pour créer un assistant en dehors de ChatGPT).
Pour qui est o1 ?
OpenAI a été très clair dans la présentation du modèle :
These enhanced reasoning capabilities may be particularly useful if you’re tackling complex problems in science, coding, math, and similar fields.
Problèmes complexes en science, code, mathématiques et “disciplines similaires”. On a donc là les cas d’usage pour lesquels o1 serait intéressant. Ces cas d’usage sont très spécifiques, réservés à une minorité de personnes. Ce sont les exemples qu’on voit tourner sur YouTube et ailleurs.
Pour les autres cas d’usage, soit 90 à 95 % des cas d’usage en entreprise, o1 n’est pas utile selon OpenAI.
Les limites de o1-preview
Rien que le nom, vous voyez d’emblée que le LLM n’est pas abouti. Il est en “preview”, donc en “aperçu”. C’est un peu une version bêta.
Dans cette version, oubliez le partage de documents et l’accès à internet : il n’y en a pas. Le non-partage de documents est un gros souci pour de nombreux cas d’usage. Mais ça devrait évoluer à terme.
En outre, vous n’avez droit qu’à 50 requêtes par semaine. Oui, par semaine. On peut donc être vite très limité. Mais, là aussi, cela devrait augmenter avec le temps et on est passé de 30 à 50 le 17 septembre.
On a donc plutôt un outil en développement et pas un outil opérationnel.
Maintenant, place aux tests. Je vais reprendre certains de mes tests habituels que je vais mettre en vidéo.
Mes premiers tests de GPT-o1
Test 1 : Répondre à un e-mail
Oui, quand on voit pour la première fois la réflexion de GPT-o1, c’est assez impressionnant. Le résultat est plutôt intéressant. Mais, si vous allez voir mon édition sur les tests de GPT-4o, vous allez vite constater que ce n’est pas mieux.
Et c’est normal : OpenAI avait prévenu que cela n’était pas fait pour cela.
Test 2 : Ecriture d’un post Linkedin
Petit conseil : prenez le temps de bien lire et de faire des pauses ! Vous allez comprendre pourquoi.
Je suis très agréablement surpris et interloqué par la qualité du post en question, SANS avoir de modèle d’inspiration. Là, clairement, je l’avoue : o1 surpasse complètement les modèles précédents, et même Claude 3.5 Sonnet qui restait imbattable pour ce type de demandes.
Le post est parfait, il n’y a rien à changer. Chapeau bas o1-preview !
Test 3 : Réécriture d’un post pour un autre réseau social
Bon là, c’est loin d’être dingue. Il ne fait que reprendre le post Linkedin déjà écrit, celui généré juste au-dessus.
Rien de plus, rien de moi que les modèles précédents.
Test 4 : Création de problème complexe de mathématiques + résolution
Alors, tout le souci, c’est que je suis vraiment très loin de comprendre tout ça ! S’il y a des matheux ici, qu’ils/elles me disent en commentaire si, d’une part, l’exercice et les réponses sont cohérents et si, d’autre part, c’est bien d’un niveau Maths Sup !
Test 5 : Création d’une application mobile sur iOS reproduisant un jeu ressemblant à Angry Birds
Dans la réflexion, il y a des choses très bizarres comme la référence aux messages racistes ! En revanche, il a bien fait attention aux droits d’auteur, ce que je voulais voir. N’étant pas développeur, je suis incapable de dire si le code généré est utilisable ou non. Malheureusement, pas de test en live.
En tout cas, si tant est que le code généré est bon, c’était du très bon travail !
Mon avis sur GPT-o1
Un modèle avec des capacités impressionnantes pour certains usages…
Avec ces premiers tests, d’autres que j’ai fait et que je n’ai pas mis ici, ainsi que quelques vidéos que j’ai regardées, GPT-o1 est objectivement un modèle innovant pour des cas d’usage ciblés.
Typiquement, GPT-o1 sait désormais compter et les mathématiques vont devenir quelque chose à intégrer pour les prochains LLMs. Aussi GPT-o1 va être d’une aide immense pour les développeurs, les codeurs ou tout simplement des bleus comme moi souhaitant créer une extension ou une application ! Car oui, o1 peut vous aider à créer du code, de manière bien plus simple que le fait GPT-4o aujourd’hui.
Bref, GPT-o1 est une très grande avancée pour les cas d’usage très complexes, sur lesquels GPT-4o butte encore. D’ailleurs, la fenêtre contextuelle (“mémoire”) est aussi bien augmentée avec o1. Lorsqu’on pourra partager un document, ce sera un game changer.
… mais inutile pour la grande majorité des usages professionnels
Le modèle o1 ne vous sert strictement à rien pour vos usages actuels en entreprise. Lors de mes formations cette semaine, je n’ai fait que l’évoquer et j’ai fait un test en live. Et tout le monde a vite vu que c’était strictement inutile pour les TPE/PME.
Mais pour le coup, OpenAI avait déjà prévenu, en présentant les usages de ce modèle, qui excluent 90 % des cas d’usage en entreprise. Si vous êtes dirigeant(e) de TPE/PME, ce modèle est actuellement plus un jeu qu’autre chose. Vous pouvez l’essayer si vous avez la version payante.
Au jour où j’écris ces lignes (19 septembre 2024), la valeur ajoutée de o1 par rapport à 4o est nulle pour les usages professionnels. Cela changera à l’avenir, mais pas encore.
Pourquoi je suis dans le camp du pragmatisme
Le problème avec o1 n’est, pour une fois, par à cause d’OpenAI. L’entreprise nous a habitués à des annonces de révolution pour accoucher d’une souris (Sora, Voice Mode, etc). Avec la sortie de GPT-o1, OpenAI a été très prudente, n’a fait aucune annonce mise à part du teasing et a même présenté son modèle dans un article que j’ai cité plus haut.
La présentation est sobre et est très claire sur les cas d’usage pour lesquels il est utile. Bref, pour une fois, merci OpenAI ! Non, le problème est venu plus d’ailleurs et c’est là que je vois une séparation en deux dans le monde de “ceux qui parlent d’IA au sens large”.
Les technocentristes
Le camp auquel je n’appartiens pas, je l’appelle celui du technocentrisme. Sur le papier, ce camp n’est pas un camp auquel je m’oppose. J’aime tout autant la technologie et je ne vois que du positif.
Le problème avec les technocentristes, c’est que ces personnes vont d’abord être en fascination avec la technologie et discuter des évolutions de celle-ci, sans voir le concret et le terrain. L’un des fers de lance de ce camp est le professeur américain Ethan Mollick, qui abreuve de chiffres, de références, d’usages extraordinaires, mais tellement restreints.
Mollick fait beaucoup de théorie et est très éloigné du monde réel, celui des entreprises. Quand il parle de o1, il va d’abord donner les chiffres du modèle, qu’il a passé les tests bidules, qu’il est 45 % (j’invente le chiffre) que GPT-4o pour faire X, etc.
Pardon, mais tout ça, les dirigeants des TPE/PME s’en foutent complètement. Ces personnes veulent du concret et Mollick est l’archétype du professeur : théoricien hors pair, connaisseur du sujet de génie, mais sans aucun pragmatisme.
Les pragmatiques
Je suis un pragmatique dans le sens où ma passion pour la technologie doit d’abord servir le quotidien. Ce quotidien, ce sont d’abord les TPE/PME qui font tourner 90/95 % de l’économie d’un pays, que ce soit la Suisse, la France ou ailleurs dans des pays “normaux”.
Quand je forme les collaborateurs d’entreprises à l’intégration des outils, je ne cite aucun autre chiffre que celui du nombre d’utilisateurs de ChatGPT pour une raison simple : les gens s’en foutent des chiffres. Les apprenants ne veulent pas savoir si GPT-o1 peut rentrer au MIT, mais si GPT-o1 va les aider à travailler plus efficacement.
Mon obsession n’est pas celle des évolutions de la technologie, de l’AGI ou de je ne sais quelle autre théorie d’avenir. Mon obsession, c’est que l’IA générative aide les collaborateurs d’une organisation à retrouver l’efficacité parfois perdue à cause de tâches rébarbatives que l’on peut désormais en grande partie déléguer à un assistant personnel, peu cher et accessible.
Pour moi, la différence la plus importante entre un technocentriste et un pragmatique, c’est que le premier vend du rêve et que le second vend la réalité. Malheureusement, on sait tous que vendre du rêve est plus rémunérateur. Mais le rêve se heurte à un moment ou un autre à la réalité. Et puis surtout, je ne sais pas vendre du rêve 👀 Et si c’était peut-être le côté éthique d’EthicGPT qui referrait surface ? 😁
Si vous préférez vous aussi la réalité au rêve pour votre TPE/PME, vous pouvez m’envoyer un e-mail à l’adresse suivante : bonjour@benjaminallouch.com
Voilà, c’est tout pour aujourd’hui, à la semaine prochaine 😁
Je te trouve bien dur avec Ethan Mollick qui est prof de business a Wharton et justement vraiment focalisé sur les applications pratiques de l’IA et son impact sur la productivité des collaborateurs notamment.
Pour moi, c’est l’opposé d’un mec qui vend du rêve . Son dernier bouquin regorge de conseils pratiques pour mettre en œuvre l’IA générative en entreprise.
Après sur O1, je suis aussi circonspect que toi. Mais je pense que même dans des petites entreprises, une IA qui sait manipuler des chiffres et écrire des programmes, ça peut être vachement utile.