Représentation flottante |

GPTQ signifie «Quantification générative du transformateur pré-entraîné». Il s’agit d’une technique de quantification post-formation qui permet de remplir de grands systèmes linguistiques pour qu’ils soient plus efficaces sans affecter de manière significative leurs performances.

Les principales caractéristiques du

Dans l’ensemble, les scores suggèrent que le modèle a bien fonctionné en termes de exactitude et similarité du contextemais pas très bien en termes de pertinence et fidélité.

Analysons en détail les métriques qui ont bien fonctionné :

  1. score_correction_moyenne:
  1. moyenne_relevancy_score:

Sur la base de ces scores, les observations et conclusions suivantes peuvent être tirées.

  1. Effet de quantification: le processus de quantification, même à des niveaux aussi extrêmes que 2 bits, ne dégrade pas de manière significative la précision ou l’exactitude des sorties du modèle, comme l’indique le Mean_correctness_score correct pour toutes les versions
  2. Problème de pertinence: Toutes les versions du modèle (quantifié et de base) semblent avoir du mal à récupérer et à utiliser les informations pertinentes des nœuds sources pour résoudre la requête, comme en témoignent les faibles moyennes_relevancy_scores.
  3. Causes potentielles: Les faibles scores de pertinence pourraient être attribués à divers facteurs, tels que :

La cause la plus probable semble être l’ensemble de données p2b ou l’utilisation d’un Judge LLM supérieur comme GPT-4. À l’avenir, nous essaierons sur ces 2 domaines

Les cahiers Jupyter pour la quantification et l’inférence peuvent être trouvés ci-dessous

Je vous souhaite de joyeux efforts en matière de codage et d’apprentissage continu !

Comments are closed.