OpenAI continue d’insuffler de nouvelles capacités à son IA conversationnelle qui a fait entrer l’humanité dans une nouvelle ère, celle de la véritable collaboration entre l’homme et la machine. Connexion au Web, analyse et génération d’images, analyse et synthèse vocale sont désormais accessibles au chatbot dans sa version payante.

ChatGPTest depuis le début de l’année animé par le modèle LLM « GPT-4 » que l’on sait multimodal mais dont les capacités visuelles et audios avaient jusqu’ici été bridées et bloquées.

Ces derniers jours, OpenAI a décidé de libérer un peu plus le potentiel de son IA générative et conversationnelle. Même si ces nouveautés sont pour l’instant limitées aux utilisateurs payants des versions ChatGPT Plus et ChatGPT Entreprise. Pour rappel, ceux qui veulent rester sur du gratuit, Bing Chat de Microsoft offre la plupart de ces fonctionnalités.

Le retour de la connexion WEB

Cela a d’abord commencé par la réintégration d’une fonction brièvement apparue cet été9, mais rapidement retirée (après que des petits malins aient découvert qu’ils pouvaient grâce à elle accéder gratuitement à des sites payants via ChatGPT) : la connectivité de l’IA au WEB ! Le modèle GPT-4 sous-jacent à ChatGPT a été entraîné avec des documents antérieurs à fin 2021. Sans connectivité Internet, non seulement l’IA ne pouvait réellement analyser des documents Web mais ne pouvait non plus enrichir ses réponses d’informations récentes. Désormais, l’activation dans « Paramètres et Bêta / Fonctionnalités Beta » du paramètre « Naviguer avec Bing », permet à l’IA conversationnelle de répondre aux questions sur les sujets et évènements récents et de se connecter au Web pour affiner ses analyses.

De la compréhension à la génération d’images

Autre nouveauté clé, ça y est, OpenAI a enfin décidé de libérer le potentiel multimodal de GPT-4. Désormais, ChatGPT s’appuie sur la toute nouvelle itération GPT-4V de son modèle fondation et officialise ainsi l’accès à l’analyse d’images. Les utilisateurs de ChatGPT Plus pourront bientôt (ils le peuvent dès maintenant sur les versions mobiles iOS et Android) soumettre des images ou des questions illustrées à l’aide d’images et demander à l’IA de les analyser et les commenter. L’IA peut ainsi traduire des manuscrits écrits à la main, transformer l’ébauche dessinée d’un algorithme ou d’un écran en code informatique, analyser et décrire une photo ou une peinture, analyser des Captchas et bien d’autres choses.
Par ailleurs, OpenAI va également très prochainement intégrer son spectaculaire générateur d’image « Dall-E 3 »dans ChatGPT (il est déjà disponible sur Bing Image Creator et les rendus sont vraiment bien plus impressionnants que Dall-E 2) et concurrence sérieusement Midjourney tout en offrant plus de variété de styles.

La voix, pour étendre les interactions

L’une des grandes forces des IA génératives, c’est qu’elle révolutionne les interactions homme-machine en faisant du langage naturel le support de ces interactions. Désormais l’idée est d’arriver à mener de telles interactions avec la voix plutôt que l’écrit. Il faudra encore attendre un peu pour mener une discussion comme avec un être humain en raison des temps actuels d’analyse et de compréhension de la parole humaine. Mais on s’en approche.
Bing Chat dans sa version mobile permet de poser vocalement des questions et l’IA d’y répondre également vocalement. L’IA s’appuie sur les modèles développés par Microsoft pour cela.
OpenAI va bientôt intégrer son modèle de transformation de la voix en texte « Whisper » à ChatGPT Plus. Le chatbot pourra également parler grâce à un nouveau modèle « TTS – Text to Speech » proposant 5 voix différentes.

Dit autrement, ChatGPT peut donc maintenant se connecter, voir, parler et entendre. Autant de nouvelles capacités que de petits utilisateurs malins ne vont pas manquer d’exploiter à des fins imprévues en s’amusant à contourner les limitations qu’OpenAI a essayé de mettre en place pour éviter des usages malveillants ou inappropriés de leur IA.