Avec GPT-4, l’IA conversationnelle d’OpenAI s'ouvre au traitement des images

OpenAI est resté relativement modeste en dévoilant le 14 mars son très attendu nouveau modèle de langage GPT-4. Si la start-up le présente comme « plus créatif et collaboratif que jamais » et affirme qu’il « peut résoudre des problèmes difficiles avec une plus grande précision », elle met aussi en avant les limites du système. Les problèmes observés antérieurement comme la tendance à inventer des informations (ou « halluciner ») sont loin d’avoir été résolus, même s’ils deviennent heureusement plus rares.

“Dans une conversation informelle, la distinction entre GPT-3.5 et GPT-4 peut être subtile”, a aussi souligné Sam Altman, le PDG d’OpenAI, histoire de calmer les attentes autour de cette nouvelle itération. Microsoft en a indirectement apporté la preuve en révélant que Bing fonctionnait déjà depuis plusieurs semaines avec GPT-4, ce qui est passé inaperçu alors que le moteur de recherche est au cœur de toutes les attentions.

Parmi ses limitations, « GPT-4 manque généralement de connaissances sur les événements qui se sont produits après la coupure de la grande majorité de ses données (septembre 2021) et n’apprend pas de son expérience« , précise encore la start-up.

Reste que la présentation faite par OpenAI montre le chemin parcouru depuis le lancement de la première version de ChatGPT il y a seulement 5 mois. Le changement le plus notable est que GPT-4 devient multimodal, c’est-à-dire qu’il peut analyser en entrée aussi bien du texte que des images. En plus de lire, le robot peut maintenant voir. En sortie, les réponses restent toutefois uniquement textuelles.

Greg Brockman, le co-fondateur d’OpenAI a fait une démonstration en prenant en photo une page de son carnet avec des instructions pour créer un site de blagues. Il a demandé ensuite à l’IA de convertir le mock-up en un site web coloré, dont le code a été généré en quelques secondes pour donner forme à un site fonctionnel. De la même manière, l’IA peut identifier des ingrédients sur une photo et trouver des recettes adaptées. Ou encore analyser une scène et prédire ce qui va résulter de la chute d’un objet.

GPT-4 est devenu aussi bien meilleur élève pour les travaux académiques. OpenAI lui a fait passer une batterie d’examens dans plus d’une vingtaine de disciplines montrant le plus souvent des progrès notables par rapport à GPT 3.5. Dans un examen juridique pour le barreau, ses résultats le classe désormais dans la tranche des 10% des meilleurs candidats humains quand son prédécesseur se situait autour des 10% les plus faibles.

Lors de la formation du modèle, OpenAI a aussi revu les mesures d’atténuation des risques. GPT-4 aurait ainsi 82% moins de chances que son prédécesseur de répondre à des requêtes liées à du contenu non autorisé ou dangereux.

Le nouveau modèle est disponible pour le grand public via ChatGPT Plus, l’abonnement à 20 $ par mois d’OpenAI, ainsi qu’avec Microsoft Bing pour les utilisateurs inscrits. Les capacités multimodales sont dans un premier temps réservées à des partenaires. Enfin l’API de GPT4 a été ouverte mais reste soumise à une liste d’attente.

Nos lecteurs ont lu ensuite