
2025년 LLM 평가에서 좋은 성적을 거두고 싶으신가요? AIMOJO에서는 너무나 많은 팀이 실제로 중요한 지표를 간과하여 모델 출시를 망쳐버리는 것을 보았습니다.
네가 원한다면 AI 사용자, 고객 또는 규제 기관의 신뢰를 받으려면 단순한 "분위기 확인"만으로는 충분하지 않습니다.
구체적인 숫자, 명확한 공식, 그리고 숫자가 무엇을 의미하는지에 대한 확실한 이해가 필요합니다.
이 가이드에서는 상위 12개 LLM 평가 지표 실용적인 공식을 사용하여 코드 스 니펫, 전문가 팁을 활용하여 자신감을 가지고 모델을 벤치마킹하고 디버깅하고 배포할 수 있습니다.
LLM 평가 지표가 협상 불가능한 이유
대규모 언어 모델(LLM)은 챗봇부터 코드 어시스턴트까지 모든 것을 실행하지만, 그 결과는 예측 불가능할 수 있습니다. 그렇기 때문에 견고한 평가가 필수적입니다. 적절한 지표는 다음과 같은 이점을 제공합니다.

LLM 평가 지표 상위 12개 (공식 및 예시 포함)
2025년을 위한 필수 목록은 다음과 같습니다. 고전적인 NLP 지표, 현대적인 의미 점수, 책임 있는 AI의 최신 소식을 다룹니다.
1. 당혹감
ℹ️ 정의: 모델이 시퀀스의 다음 단어를 얼마나 잘 예측하는지 측정합니다. 낮을수록 좋습니다.
수식 :

어디에 N 단어의 개수입니다 P(wi∣w<i)는 예측 확률입니다. i이전 단어에 대해 -번째 단어가 주어짐.
💡 사용 사례 : 사전 훈련, 미세 조정 및 유창성 확인 언어 모델.
파이썬 예제:
import torch
import torch.nn.functional as F
def calculate_perplexity(logits, targets):
loss = F.cross_entropy(logits, targets)
return torch.exp(loss)
해석 : 복잡도가 낮다는 것은 모델이 예측에 더 확신을 갖고 더 정확하다는 것을 의미합니다.
2. 교차 엔트로피 손실
ℹ️ 정의: 예측된 확률 분포와 실제 분포의 차이를 측정합니다.
수식 :

어디에 p(x)는 실제 분포이고 q(x)는 예측 분포입니다.
💡 사용 사례 : 코어 손실 함수 LLM 교육 그리고 평가.
3. BLEU(이중언어 평가 예비과정)
ℹ️ 정의: 생성된 텍스트와 참조 텍스트 간 n-gram 중복에 대한 정밀도 기반 측정법입니다.
수식 :

어디에:
- BP=exp(1−c/r)이면 c
- wn: 각 n-gram의 가중치(일반적으로 균일함)
- pn: 수정된 n-gram 정밀도
계산 예:
- 참고: “고양이가 매트 위에 있어요”
- 출력: “매트 위의 고양이”
- 블루 ≈ 0.709
파이썬 예제:
from nltk.translate.bleu_score import sentence_bleu
reference = ["The cat is on the mat".split()]
candidate = "The cat on the mat".split()
bleu_score = sentence_bleu(reference, candidate, weights=(0.5, 0.5))
해석 : 점수 범위는 0~1이며, 점수가 높을수록 번역, 요약에 더 적합합니다. 코드 생성.
4. ROUGE (기억 중심의 평가를 위한 연습생)
ℹ️ 정의: n-gram 중복, 최장 공통 부분 수열, 건너뛰기 빅램을 측정하는 회수 중심 지표입니다.
주요 변형 및 공식:
\( \text{ROUGE-N} = \frac{\text{\# 중복 n-그램}}{\text{\# 참조의 n-그램}} \)
- 루즈-L (LCS): 가장 긴 공통 부분 수열의 길이를 기준으로 합니다.
- 루즈-W: 가중 LCS, 이차 가중치 연속된 경기에 대해서.
- 루즈-S: 건너뛰기-빅그램 중복.
파이썬 예제:
from rouge_score import rouge_scorer
scorer = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rougeL'], use_stemmer=True)
scores = scorer.score("The cat is on the mat", "The cat on the mat")
해석 : ROUGE > 0.4는 일반적으로 요약 작업에 적합합니다.
5. METEOR (명시적 순서를 사용한 번역 평가 지표)
ℹ️ 정의: 정밀성, 재현율, 동의어, 어순을 결합하여 섬세한 비교를 가능하게 합니다.
수식 :

어디에:
- F평균 정밀도와 재현율의 조화 평균입니다(재현율이 더 높게 가중됨)
- 페널티는 청크 수와 일치 항목 수에 따라 결정됩니다.
벌금 계산:

어디에 C 청크의 개수입니다. M 는 일치 항목의 수이고, γ와 δ는 하이퍼매개변수입니다.
파이썬 예제:
from nltk.translate.meteor_score import meteor_score
meteor_score(["The cat is on the mat".split()], "The cat on the mat".split())
해석 : METEOR > 0.4는 특히 번역과 창작 작업에 적합합니다.
6. BERTScore
ℹ️ 정의: 컨텍스트 임베딩을 사용합니다. BERT 생성된 텍스트와 참조 텍스트 간의 의미적 유사성을 측정합니다.
수식 : (쉽게 한)

어디에 ei ej 각각 후보와 참조의 임베딩입니다.
💡 사용 사례 : 의역 감지, 추상적 요약, 창의적인 생성.
7. 무버스코어
ℹ️ 정의: Earth mover's distance에서 영감을 받아 단어 임베딩 세트 간의 의미적 거리를 측정합니다.
수식 :

여기서 γ는 흐름 행렬이고 d는 거리(예: 코사인)이며 e는i, 그리고j 임베딩입니다.
💡 사용 사례 : 단어가 바뀌어도 의미가 보존되는지 평가합니다.
8. 정확한 일치(EM)
ℹ️ 정의: 생성된 답변이 참조와 정확히 일치하는지 확인합니다.
수식 :
\( \text{EM} = \frac{\text{\# 정확한 일치}}{\text{\# 총 샘플}} \)
💡 사용 사례 : 추출형 QA, 규정 준수, 사실 확인.
9. F1 점수
ℹ️ 정의: 토큰 오버랩에 대한 정밀도와 재현율의 조화 평균입니다.
수식 :
\( F_1 = 2 \cdot \frac{\text{정밀도} \cdot \text{회수율}}{\text{정밀도} + \text{회수율}} \)
어디에:
\( \text{정밀도} = \frac{\text{진양성}}{\text{진양성} + \text{거짓양성}} \)
\( \text{회수} = \frac{\text{진정한 양성}}{\text{진정한 양성} + \text{거짓 부정}} \)
💡 사용 사례 : QA, 분류, 엔터티 추출.
10. 편향 및 공정성 지표
ℹ️ 정의: 인구 통계 그룹 간 모델 출력의 차이를 정량화합니다.
일반적인 지표:
- 인구 통계적 평등: 그룹 전체에서 긍정적인 예측율이 동일합니다.
- 평등한 기회: 진정한 양성률이 동일합니다.
- 불균등한 영향 비율: 집단 간 긍정적 결과의 비율.
다양한 영향에 대한 공식:
\( \text{차이가 있는 영향} = \frac{\text{Pr}(\text{결과} \mid \text{그룹 A})}{\text{Pr}(\text{결과} \mid \text{그룹 B})} \)
💡 사용 사례 : 고용, 대출, 건강 관리, 소셜 플랫폼.
11. 독성 검출
ℹ️ 정의: 유해하고 불쾌하거나 부적절한 콘텐츠의 존재 여부를 측정합니다.
일반 도구: 관점 API, 해독.
측정 항목 : 독성으로 표시된 출력의 비율입니다.
수식 :
\( \text{독성률} = \frac{\# \text{독성 출력}}{\# \text{총 출력}} \)
💡 사용 사례 : 챗봇, 검토, 고객 지원.
12. 지연 시간과 계산 효율성
ℹ️ 정의: 응답 시간과 리소스 사용량을 추적합니다.
측정 항목 :
- 대기 시간 : 응답당 시간(ms 또는 s)
- 처리량 : 초당 출력 수.
- 자원 사용: CPU/GPU/메모리 소비.
지연 시간 공식:
\( \text{지연 시간} = \frac{\text{총 시간}}{\# \text{출력}} \)
💡 사용 사례 : 실시간 시스템, SaaS는, 내장형 AI.
RAG 및 Agentic LLM을 위한 특수 지표
검색 증강 생성(RAG)과 에이전트 LLM 워크플로의 증가로 새로운 지표가 등장했습니다.
1. 충실함(RAG)
정의: 생성된 답변과 검색된 컨텍스트 간의 사실적 일관성을 측정합니다.
수식 :
\( \text{충실도} = \frac{\# \text{문맥에 의해 뒷받침되는 진술}}{\# \text{총 진술}} \)
범위: 0(최악) ~ 1(최고).
2. 답변 관련성
정의: 응답이 프롬프트나 맥락을 얼마나 잘 반영하는지.
수식 :
\( \text{답변 관련성} = \frac{\# \text{관련 응답}}{\# \text{총 응답}} \)
3. 맥락 관련성(RAG)
정의: 검색된 맥락이 질문과 얼마나 관련성이 있는지 측정합니다.
수식 :
\( \text{컨텍스트 관련성} = \frac{\# \text{관련 컨텍스트 항목}}{\# \text{총 컨텍스트 항목}} \)
4. 환각률
정의: 조작된 정보나 뒷받침되지 않는 정보가 포함된 출력의 비율입니다.
수식 :
\( \text{환각률} = \frac{\# \text{환각 출력}}{\# \text{총 출력}} \)
2025년 LLM 평가를 위한 모범 사례

실제 사례: RAG 챗봇 평가
당신이 의료 시스템을 구축하고 있다고 가정해 보세요. RAG 챗봇다음은 샘플 메트릭 스택입니다.
| 메트릭 | 공식/방법 | 목표 |
|---|---|---|
| 당황 | 위 참조 | <15 |
| 루즈-L | LCS 기반 오버랩 | > 0.4 |
| BERTS점수 | 유사성 임베딩 | > 0.85 |
| 충실 | 지원되는 진술/맥락 | > 0.95 |
| 환각 | 위 참조 | <5의 % |
| 독성률 | 위 참조 | <1의 % |
| 숨어 있음 | 응답당 시간 | 1 초 미만 |
| 편견/공정성 | 불균등한 영향 비율 | 0.8-1.25 |
최종 생각
재앙의 위험을 감수하지 마십시오 AI 실패! 방금 발견한 지표는 단순한 숫자가 아닙니다. AI 2025년의 풍경입니다. 경쟁사들이 환각적인 모델과 화난 사용자들로 인해 어려움을 겪는 동안, 당신은 실제로 효과가 있는 완벽한 LLM을 배포할 것입니다.
대부분의 팀이 실패하는 이유 AI 평가(그리고 평가하지 않을 방법)
기억하세요: 적절한 벤치마킹 없이는 최첨단 모델은 값비싼 환각 기계일 뿐입니다. 지금 바로 이 12가지 지표를 적용하여 다음을 달성하세요.
✅ 사용자 신뢰도 급상승
✅ 개발 시간 단축
✅ 비용이 많이 드는 것을 제거하세요 AI 실책
✅ 더 큰 경쟁자보다 더 나은 성과를 거두세요
계속 지켜봐주십시오. 아이모조 보다 전문적인 가이드, 워크플로우 해킹 및 LLMops, 신속한 엔지니어링에 대한 최신 정보를 얻으십시오. AI 에이전트 뉴스.

