Que reste-t-il encore aux grands modèles ? Sur certains tests mathématiques et arithmétiques, le nouveau SLM « Phi-4 » de Microsoft se montre plus pertinent que les grands modèles frontières GPT-4o, Claude 3.5 ou Gemini Pro 1.5 !

Longtemps dominé par des architectures gigantesques cumulant des centaines de milliards de paramètres, l’écosystème IA s’enthousiasme désormais pour les avantages stratégiques des modèles plus compacts. Rapides à entraîner, plus économes en ressources de calcul et plus faciles à déployer, ces « petits » modèles s’imposaient jusqu’ici dans des environnements contraints, qu’il s’agisse d’applications industrielles, d’outils dédiés à la recherche ou de services hybrides. Mais aujourd’hui, ils s’imposent partout, dans les laboratoires de recherche comme dans les entreprises et même  dans les IA du cloud comme en témoigne l’énorme potentiel de « Gemini 2.0 Flash« , désormais modèle multimodal de référence pour l’assistant Gemini AI.

En 2024, les petits modèles se sont multipliés comme des petits pains approchant et parfois dépassant les capacités des grands modèles tout en nécessitant bien moins de ressources informatiques et énergétiques pour les inférer, voire tout en étant capables d’exécuter en local des IA aussi douées que les grands modèles du cloud pour peu qu’on les exploite à bon escient.

Parmi ces petits modèles, la gamme Phi de Microsoft a beaucoup fait parler d’elle cette année. Les premières versions de Phi ont ainsi été adoptées par des équipes de recherche, des développeurs indépendants et des entreprises technologiques soucieuses de trouver un compromis optimal entre performance, rapidité et coût. Les itérations antérieures, comme Phi-3, ont démontré la capacité à maintenir une qualité de réponse satisfaisante tout en limitant la taille du réseau de neurones. Les utilisateurs y ont vu une opportunité d’intégrer plus facilement l’IA dans leurs produits et services, sans l’infrastructure lourde et les dépenses énergétiques associées aux géants du domaine.

Phi-4, un petit modèle qui raisonne

C’est dans ce contexte que Microsoft vient d’annoncer Phi-4, une nouvelle génération qui se distingue par des avancées significatives, notamment dans le domaine des mathématiques. Les grands LLM frontières comme « Open AI o1 » ou « Anthropic Sonnet 3.5 » ont à peine introduit des capacités de raisonnement que de telles capacités commencent déjà à débouler dans l’univers des petits modèles !

Avec 14 milliards de paramètres, Phi-4 demeure un modèle de taille « modeste » par rapport aux standards du marché, mais il se hisse à un niveau de performance remarquable sur des évaluations exigeantes, surpassant même des modèles plus vastes – y compris Gemini 1.5 ou Claude 3.5 Sonnet – en résolution de problèmes mathématiques !

Cette réussite repose sur la qualité de l’ensemble d’entraînement soigneusement choisi, la mise en place d’un nettoyage de données plus strict, un processus de post-entraînement soigné (par exemple, via des techniques d’échantillonnage par rejet, d’auto-révision, d’inversion d’instructions), le tout afin de garantir la crédibilité des évaluations et la pertinence des résultats. En outre, un effort particulier a été mené pour écarter le risque de contamination des tests de performance par des données déjà vues lors de la phase d’apprentissage. Cette précaution s’avère cruciale pour authentifier l’amélioration réelle des capacités du modèle, confirmée par des épreuves mathématiques récentes et inédites.

Le résultat se concrétise par un modèle Phi-4 mieux entraîné, plus affûté, et apte à aborder des problèmes arithmétiques et algébriques de manière plus sûre et plus cohérente.

Bien évidemment, la taille modeste de Phi-4 demeure un frein à certaines formes de raisonnement approfondi ou de compréhension contextuelle, et le modèle n’échappe pas au phénomène bien connu des « hallucinations » lorsque le domaine abordé est trop spécifique ou insuffisamment représenté dans le corpus d’entraînement.

Pour l’heure, Phi-4 est disponible via la plateforme Azure AI Foundry, sous licence de recherche, et devrait bientôt rejoindre d’autres canaux de diffusion, dont Hugging Face. Sa mise à disposition s’inscrit dans la continuité d’un effort visant à démocratiser des modèles plus raisonnables en taille, plus simples à personnaliser et mieux adaptés à des contextes opérationnels variés. Pas de doute, on va encore beaucoup entendre parler des petits modèles en 2025…

Source : Introducing Phi-4: Microsoft’s Newest Small Language Model Specializing in Complex Reasoning