Mistral Ai étend son portfolio de « petits » modèles à moins de 10 milliards de paramètres. Un an après le lancement de Mistral 7B, le développeur français de LMM introduit Ministral 3B et Ministral 8B. Ces deux nouveaux modèles visent à répondre à la demande croissante pour l’inférence locale, sur des ordinateurs, smartphones ou systèmes embarqués.
Bien que non multimodaux, ils peuvent répondrent à un large cas d’utilisation tels que les assistants intelligents, la traduction sur appareil, l’analyse locale ou la robotique autonome. Ils s’utilisent aussi conjointement avec les grands modèles dans le cloud.
« Les Ministraux sont des intermédiaires efficaces pour l’appel de fonctions dans des workflows agentiques multi-étapes. Ils peuvent être configurés pour gérer l’analyse des entrées, le routage des tâches et l’appel d’API en fonction de l’intention de l’utilisateur dans plusieurs contextes, avec une latence et un coût extrêmement faibles », détaille Mistral AI.
Les deux modèles prennent en charge des fenêtres contextuelles de 128 000 tokens, fenêtre ramenée à 32.000 tokens dans le cas d’une utilisation locale avec la librairie vLLM.
Coté performances, Ministral 3B surpasse largement Mistral 7B dans la plupart des tests de référence, ce qui montre les progrès réalisés en un an. Il devance aussi Gemma 2 2B de Google et Llama 3.2 3B de Meta dans des tests de chat, code et math. Ministral 8B se montre également bon compétiteur face à Gemma 2 9B et Llama 3.1 8B.
Alors qu’avec Mistral 7B, Mistral AI prônait une approche open source et proposait une licence Apache 2, les Ministraux sont disponibles sous une licence commerciale. Ministral 8B bénéficie en plus d’une licence à des fins de recherche (Mistral Non Production Licence, MNPL).
Les tarifs de Ministral 3B et 8B sont respectivement 0,04 et 0,09 euros par millions de jetons en entrée et en sortie. Bien qu’attractifs, ils n’empêcheront par certains utilisateurs de privilégier des modèles open source.