Quantification = réduire la taille d’un modèle en utilisant moins de bits pour les poids.
Dans l’intelligence artificielle, un modèle de données (comme ChatGPT, Qwen, LLaMA, etc.) est un programme qui a appris à prédire ou générer du texte, des images, du son, etc.
Ces modèles utilisent énormément de chiffres appelés « poids » pour effectuer leurs calculs. Ces poids sont normalement stockés en précision flottante 16 ou 32 bits (FP16/FP32). Cela prend beaucoup d’espace mémoire et de puissance de calcul.
La quantification est une technique qui réduit la taille de ces poids, en les exprimant avec moins de bits (souvent 8 bits ou moins). Par exemple :
- FP16 (16 bits) → 8-bit (INT8)
- Parfois même 4-bit ou 2-bit
But : rendre les modèles plus légers et plus rapides, tout en gardant une bonne précision.
Exemple : le modèle Qwen
C’est quoi Qwen ?
C’est une famille de modèles de langage open source développée par Alibaba. Il est similaire à ChatGPT ou LLaMA, et peut générer du texte, comprendre des consignes, faire du raisonnement, du code, etc.
Il existe plusieurs variantes :
Les versions quantifiées de Qwen
Pour faciliter l’utilisation locale, les modèles Qwen sont souvent proposés dans des versions quantifiées, par exemple :
- Qwen2.5-7B Q8_0 : version 8 bits
- Qwen2.5-7B Q4_K_M : version 4 bits avec méthode de quantification optimisée
- etc
7B correspond au nombre de paramètres (7 Billions = 7 Milliards). Comprendre : plus il y a de paramètres et plus le modèle est puissant mais plus il est grand et consommateur en ressources.
Ces versions utilisent des formats comme GGUF, qui sont spécialement faits pour être chargés dans des outils légers, parfois même sans GPU (sans carte graphique puissante ni processeur doté de GPU).
Voici une estimation des besoins techniques pour faire tourner différentes versions de Qwen (ou autres modèles similaires) sur une machine personnelle :
| Version du modèle | Taille approx. | RAM minimale (CPU) | GPU recommandé | Format |
|---|---|---|---|---|
| Qwen2.5-7B Q4_K_M | ~4.5 Go | 10-12 Go | 6GB GPU min | GGUF |
| Qwen2.5-14B Q4_K_M | ~9 Go | 16-20 Go | 12GB GPU | GGUF |
| Qwen2.5-72B | +40 Go (non quantifié) | 128 Go+ (RAM/GPU) | A100 / H100 requise | RAW |
En résumé
- Quantification = réduire la taille d’un modèle en utilisant moins de bits pour les poids.
- Cela permet des déploiements plus légers et rapides, souvent sans perte de qualité notable.
- Le modèle Qwen d’Alibaba propose de très bonnes performances et est accessible en versions quantifiées via des formats comme GGUF.
- Il est possible de l’exécuter localement, même sur des PC moyens (8-16 Go RAM), en utilisant les versions 4-bit ou 8-bit.