Mistral AI a dévoilé mercredi Pixtral 12B, le premier de ses modèles d’IA intégrant à la fois des capacités de traitement du langage et de la vision. Ce modèle multimodal est construit sur Mistral Nemo, un modèle de base avec 12 milliards de paramètres. Construit en collaboration avec Nvidia, Nemo est sorti en juillet dernier. Mistral le présente comme son meilleur « petit modèle ».

La startup française lui a adjoint un encodeur de vision supplémentaire de 400 millions de paramètres. Les utilisateurs peuvent ainsi soumettre des images à analyser et obtenir des réponses à des questions basées sur des données visuelles. Le modèle peut aussi effectuer des tâches comme l’identification ou le comptage d’objets, ou encore le sous titrage d’images.

Pixtral 12 B est publié sous licence Apache2. D’une taille de 24 Go, le modèle peut être téléchargé depuis GitHub et Hugging Face pour ceux qui veulent être les premiers à l’expérimenter. La startup a indiqué qu’elle le rendrait prochainement disponible via « La Plateforme » Mistral et son interface conversationnelle « Le Chat ».

Reste maintenant à attendre les premiers tests pour voir comment Pixtral 12 B se comporte face aux puissants modèles multimodaux déjà présentés par OpenAI, Google ou Anthropic.