
Vous souhaitez améliorer votre évaluation LLM en 2025 ? Chez AIMOJO, nous avons constaté que trop d'équipes rataient le lancement de leurs modèles en négligeant les indicateurs qui comptent vraiment.
Si vous voulez votre AI Pour avoir la confiance des utilisateurs, des clients ou des régulateurs, vous avez besoin de plus qu’un simple « test d’ambiance ».
Vous avez besoin de chiffres précis, de formules claires et d’une solide compréhension de la signification de ces chiffres.
Ce guide détaille les Les 12 principaux indicateurs d'évaluation du LLM avec des formules pratiques, extraits de code, et des conseils d'experts, pour que vous puissiez évaluer, déboguer et déployer vos modèles en toute confiance.
Pourquoi les critères d'évaluation du LLM ne sont pas négociables
Les grands modèles de langage (LLM) exécutent tout, des chatbots aux assistants de programmation, mais leurs résultats peuvent être imprévisibles. C'est pourquoi une évaluation rigoureuse est essentielle. Des indicateurs pertinents vous aident à :

Les 12 principaux indicateurs d'évaluation du LLM (avec formules et exemples)
Voici votre liste de référence pour 2025, couvrant les métriques PNL classiques, les scores sémantiques modernes et les dernières nouveautés en matière d'IA responsable.
1. Perplexité
️️ Définition: Mesure la capacité du modèle à prédire le mot suivant dans une séquence. Plus la valeur est basse, mieux c'est.
Formule:

Où N est le nombre de mots, P(wi∣w<i) est la probabilité prédite de i-ème mot étant donné les mots précédents.
???? Cas d'utilisation: Pré-formation, mise au point et contrôles de fluidité modèles de langage.
Exemple Python :
import torch
import torch.nn.functional as F
def calculate_perplexity(logits, targets):
loss = F.cross_entropy(logits, targets)
return torch.exp(loss)
Interprétation: Une perplexité moindre signifie que le modèle est plus confiant et précis dans ses prédictions.
2. Perte d'entropie croisée
️️ Définition: Mesure la différence entre la distribution de probabilité prédite et la distribution réelle.
Formule:

Où p(x) est la vraie distribution et q(x) est la distribution prédite.
???? Cas d'utilisation: Fonction de perte de noyau pendant Formation LLM et évaluation.
3. BLEU (Étudiant en évaluation bilingue)
️️ Définition: Métrique basée sur la précision pour le chevauchement n-gramme entre les textes générés et de référence.
Formule:

Où? :
- BP=exp(1−c/r) si c
- wn: poids pour chaque n-gramme (généralement uniforme)
- pn: précision n-gramme modifiée
Exemple de calcul :
- Référence : « Le chat est sur le tapis »
- Sortie : « Le chat sur le tapis »
- BLEU ≈ 0.709
Exemple Python :
from nltk.translate.bleu_score import sentence_bleu
reference = ["The cat is on the mat".split()]
candidate = "The cat on the mat".split()
bleu_score = sentence_bleu(reference, candidate, weights=(0.5, 0.5))
Interprétation: Les scores varient de 0 à 1 ; plus la note est élevée, mieux c'est pour la traduction, le résumé et génération de code.
4. ROUGE (Étude orientée vers le rappel pour l'évaluation de la mémoire)
️️ Définition: Métrique axée sur le rappel mesurant le chevauchement des n-grammes, la plus longue sous-séquence commune et les bigrammes sautés.
Variantes et formules clés :
\( \text{ROUGE-N} = \frac{\text{\# n-grammes superposés}}{\text{\# n-grammes en référence}} \)
- ROUGE-L (LCS):Basé sur la longueur de la sous-séquence commune la plus longue.
- ROUGE-W: LCS pondéré, avec pondération quadratique pour des matchs consécutifs.
- ROUGE-S: Chevauchement de bigrammes sautés.
Exemple Python :
from rouge_score import rouge_scorer
scorer = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rougeL'], use_stemmer=True)
scores = scorer.score("The cat is on the mat", "The cat on the mat")
Interprétation: ROUGE > 0.4 est généralement bon pour les tâches de résumé.
5. METEOR (métrique d'évaluation de la traduction avec ordonnancement explicite)
️️ Définition: Combine précision, rappel, synonymie et ordre des mots pour une comparaison nuancée.
Formule:

Où? :
- Fsignifier est la moyenne harmonique de la précision et du rappel (avec un rappel pondéré plus haut)
- La pénalité est basée sur le nombre de morceaux et de correspondances.
Calcul de la pénalité :

Où C est le nombre de morceaux, M est le nombre de correspondances, γ et δ sont des hyperparamètres.
Exemple Python :
from nltk.translate.meteor_score import meteor_score
meteor_score(["The cat is on the mat".split()], "The cat on the mat".split())
Interprétation: METEOR > 0.4 est solide, en particulier pour les tâches de traduction et de création.
6. BERTScore
️️ Définition: Utilise des intégrations contextuelles à partir de BERT pour mesurer la similarité sémantique entre les textes générés et les textes de référence.
Formule: (Simplifié)

Où ei et ej sont des incorporations du candidat et de la référence, respectivement.
???? Cas d'utilisation: Détection de paraphrases, résumé abstrait, génération créative.
7. MoverScore
️️ Définition: Mesure la distance sémantique entre les ensembles d'intégrations de mots, inspirée de la distance du terrassement.
Formule:

Où γ est une matrice de flux, d est la distance (par exemple, le cosinus) et eietj sont des incorporations.
???? Cas d'utilisation: Évalue la préservation du sens même avec des changements de formulation.
8. Correspondance exacte (EM)
️️ Définition: Vérifie si la réponse générée correspond exactement à la référence.
Formule:
\( \text{EM} = \frac{\text{\# correspondances exactes}}{\text{\# échantillons totaux}} \)
???? Cas d'utilisation: Assurance qualité extractive, conformité, vérification des faits.
9. Score F1
️️ Définition: Moyenne harmonique de précision et de rappel pour le chevauchement des jetons.
Formule:
\( F_1 = 2 \cdot \frac{\text{Précision} \cdot \text{Rappel}}{\text{Précision} + \text{Rappel}} \)
Où? :
\( \text{Précision} = \frac{\text{Vrais positifs}}{\text{Vrais positifs} + \text{Faux positifs}} \)
\( \text{Rappel} = \frac{\text{Vrais positifs}}{\text{Vrais positifs} + \text{Faux négatifs}} \)
???? Cas d'utilisation: AQ, classification, extraction d'entités.
10. Mesures de biais et d'équité
️️ Définition: Quantifie les disparités dans les résultats des modèles entre les groupes démographiques.
Mesures communes :
- Parité démographique : Taux de prédiction positive égaux dans tous les groupes.
- L'égalité des chances: Taux de vrais positifs égaux.
- Ratio d'impact disparate : Rapport des résultats positifs entre les groupes.
Formule pour un impact disparate :
\( \text{Impact disparate} = \frac{\text{Pr}(\text{Résultat} \mid \text{Groupe A})}{\text{Pr}(\text{Résultat} \mid \text{Groupe B})} \)
???? Cas d'utilisation: Embauche, prêt, la médecine , plateformes sociales.
11. Détection de toxicité
️️ Définition: Mesure la présence de contenu nuisible, offensant ou inapproprié.
Outils communs : Perspective API, Détoxifier.
Métrique: Pourcentage de sorties signalées comme toxiques.
Formule:
\( \text{Taux de toxicité} = \frac{\# \text{sorties toxiques}}{\# \text{sorties totales}} \)
???? Cas d'utilisation: Chatbots, modération, support client.
12. Latence et efficacité de calcul
️️ Définition: Suivi du temps de réponse et de l'utilisation des ressources.
Métrique:
- Latence: Temps par réponse (en ms ou s).
- Débit: Nombre de sorties par seconde.
- L'utilisation des ressources: Consommation CPU/GPU/mémoire.
Formule pour la latence :
\( \text{Latence} = \frac{\text{Temps total}}{\# \text{Sorties}} \)
???? Cas d'utilisation: Systèmes en temps réel, SaaS, IA embarquée.
Métriques spécialisées pour les LLM RAG et Agentic
Avec l’essor de la génération augmentée de récupération (RAG) et des flux de travail LLM agentiques, de nouvelles mesures ont émergé :
1. Fidélité (RAG)
Définition: Mesure la cohérence factuelle entre la réponse générée et le contexte récupéré.
Formule:
\( \text{Fidélité} = \frac{\# \text{déclarations appuyées par le contexte}}{\# \text{total des déclarations}} \)
Plage : 0 (pire) à 1 (meilleur).
2. Pertinence de la réponse
Définition: Degré dans lequel une réponse répond à l’invite ou au contexte.
Formule:
\( \text{Pertinence de la réponse} = \frac{\# \text{ réponses pertinentes}}{\# \text{ nombre total de réponses}} \)
3. Pertinence du contexte (RAG)
Définition: Mesure la pertinence du contexte récupéré par rapport à la question.
Formule:
\( \text{Pertinence du contexte} = \frac{\# \text{éléments de contexte pertinents}}{\# \text{nombre total d'éléments de contexte}} \)
4. Taux d'hallucinations
Définition: Proportion de sorties contenant des informations inventées ou non étayées.
Formule:
\( \text{Taux d'hallucinations} = \frac{\# \text{ sorties hallucinées}}{\# \text{ sorties totales}} \)
Meilleures pratiques pour l'évaluation des LLM en 2025

Exemple concret : évaluation d'un chatbot RAG
Supposons que vous construisiez un établissement de santé Chatbot RAGVoici un exemple de pile de métriques :
| Métrique | Formule/Méthode | Objectif |
|---|---|---|
| Perplexité | Voir au dessus | <15 |
| ROUGE-L | chevauchement basé sur LCS | > 0.4 |
| BERTcore | Intégration de la similarité | > 0.85 |
| Fidélité | Déclarations/contexte pris en charge | > 0.95 |
| Hallucination | Voir au dessus | <% 5 |
| Taux de toxicité | Voir au dessus | <% 1 |
| Latence | Temps par réponse | <1 s |
| Biais/Équité | Ratio d'impact disparate | 0.8-1.25 |
Réflexions finales
Ne risquez pas la catastrophe AI Échecs ! Les indicateurs que vous venez de découvrir ne sont pas que des chiffres : ils sont votre arme secrète pour dominer le marché. AI paysage en 2025. Pendant que vos concurrents se débattent avec des modèles hallucinants et des utilisateurs en colère, vous déploierez des LLM sans faille qui tiennent réellement leurs promesses.
Pourquoi la plupart des équipes échouent AI Évaluation (et comment vous ne le ferez pas)
N'oubliez pas : sans analyse comparative appropriée, votre modèle de pointe n'est qu'une machine à hallucinations coûteuse. Appliquez ces 12 indicateurs dès maintenant :
✅ Augmentez la confiance des utilisateurs
✅ Réduire le temps de développement
✅ Éliminer les coûts AI gaffes
✅ Surpasser les concurrents plus gros
Restez à l'écoute AIMOJO pour plus de guides d'experts, de hacks de flux de travail et les dernières nouveautés sur LLMops, l'ingénierie rapide et AI nouvelles des agents.

