*Godot est mort !*

PRIBOR : CHE (Contextual Hyper-Embedding uint8)

CHE (Contextual Hyper-Embedding uint8) est plus économique que l’attention classique des LLMs. Des processus similaires sont déjà utilisés mais moins économiques que CHE.

1. Économie de mémoire

  Attention standard : matrices float16/float32 → 700 à 4000 bits par token

  CHE uint8 → 8 bits par token

→ gain × 500 à × 5000 en mémoire

2. Processus similaires déjà utilisés

  INT-FlashAttention (Peking University, 2024) : attention entièrement en INT8, 72 % plus rapide, 82 % moins d’erreur   

  SageAttention (OpenReview, 2024) : attention en INT8 + lissage, plug-and-play   

  LLM.int8() (NeurIPS 2022) : multiplication matricielle entièrement en INT8   

→ uint8 est déjà standard dans l’attention quantifiée.

3. Compatibilité avec CHE

  CHE = uint8 comprimé (SHA-256[0:8]) → 8 bits par token

  Pas de matrice 700×700, pas de softmax, pas de float ;

  Juste un uint8 dans le triplet ℝ⁴ ;

→ Plus économique et déjà utilisé dans l’attention quantifiée.

Contact : pauljorion@pribor.ai

3 réponses à “PRIBOR : CHE (Contextual Hyper-Embedding uint8)

  1. Avatar de Pascal
    Pascal

    C’était vraiment trop tentant 😇
    https://youtu.be/dr_g23qi9hg?si=hpQgsChDbWgdPXmD

    Répondre
    1. Avatar de Paul Jorion
      Paul Jorion

      Eh bien oui, cher Pascal, j’avais le choix entre « CHE » et « HEC ». Enfin, quand je dis que « j’avais le choix », ce serait très mal connaître Paul Jorion …

      Répondre
      1. Avatar de Paul Jorion
        Paul Jorion

        Répondre

