CHE (Contextual Hyper-Embedding uint8) est plus économique que l’attention classique des LLMs. Des processus similaires sont déjà utilisés mais moins économiques que CHE.
————————————————–
1. Économie de mémoire
•Attention standard : matrices float16/float32 → 700 à 4000 bits par token
• CHE
En poursuivant votre navigation sur ce site, vous acceptez l’utilisation de cookies permettant de conserver vos préférences, d'établir des statistiques et d'afficher des contenus tiers (par exemple, des vidéos YouTube).