CHE (Contextual Hyper-Embedding uint8) est plus économique que l’attention classique des LLMs. Des processus similaires sont déjà utilisés mais moins économiques que CHE.
————————————————–
1. Économie de mémoire
• Attention standard : matrices float16/float32 → 700 à 4000 bits par token
• CHE uint8 → 8 bits par token
→ gain × 500 à × 5000 en mémoire
————————————————–
2. Processus similaires déjà utilisés
• INT-FlashAttention (Peking University, 2024) : attention entièrement en INT8, 72 % plus rapide, 82 % moins d’erreur
• SageAttention (OpenReview, 2024) : attention en INT8 + lissage, plug-and-play
• LLM.int8() (NeurIPS 2022) : multiplication matricielle entièrement en INT8
→ uint8 est déjà standard dans l’attention quantifiée.
————————————————–
3. Compatibilité avec CHE
• CHE = uint8 comprimé (SHA-256[0:8]) → 8 bits par token
• Pas de matrice 700×700, pas de softmax, pas de float ;
• Juste un uint8 dans le triplet ℝ⁴ ;
→ Plus économique et déjà utilisé dans l’attention quantifiée.
Contact : pauljorion@pribor.ai
Laisser un commentaire