NLP | LLM

[Paper Review] Evaluation of Retrieval-Augmented Generation: A Survey (Hao Yu et ak., 2024)

삐롱K 2025. 7. 16. 17:47
728x90
반응형

 

RAG 시스템 평가의 주요 목표

1. 전반적인 성능 이해
RAG는 정보 검색 기술과 생성형 언어 모델을 통합하여 사실에 기반하지 않은 응답과 hallucination을 줄이고 콘텐츠의 신뢰성과 풍부함을 향상시킵니다. 이러한 retrieval과 Generation의 fusion 구조로 인해, 시스템의 performance는 각 구성 요소를 개별적으로 평가하는 것만으로는 완전히 이해될 수 없으며, 검색 정확도와 생성 품질 간의 상호작용을 효과적으로 포착할 수 있는 포괄적인 평가 지표 개발이 필요합니다.
2. 복잡성 및 동적 지식 소스 관리
RAG 시스템은 특정 요구사항과 언어 모델에 복잡하게 얽혀 있으며, 외부 동적 데이터베이스와 다양한 다운스트림 작업으로 인해 복잡성이 더욱 증폭됩니다24. 이러한 환경에서 평가 방법, 지표 및 도구의 다양성을 이해하고 체계화하는 것이 중요합니다.
3. 실제 시나리오 및 사용자 선호도 반영
동적 데이터베이스에서의 검색이 오해의 소지가 있는 결과를 초래하거나 사실과 모순될 수 있으므로, 실제 시나리오를 정확하게 반영하는 다양하고 포괄적인 데이터셋이 중요합니다. 또한, 생성 평가 기준은 인간의 선호도를 포함한 실제적인 고려사항을 포괄해야 합니다.
4. 체계적인 평가 프레임워크 제공
RAG 벤치마크에 대한 심층적인 이해를 돕기 위해, "무엇을 평가할 것인가(Target)? 어떻게 평가할 것인가(Dataset)? 어떻게 측정할 것인가(Metric)?"라는 세 가지 핵심 질문에 중점을 둔 Auepora(A Unified Evaluation Process of RAG)라는 분석 프레임워크가 도입되었습니다. 이는 RAG 시스템의 복잡성과 미묘한 차이를 이해하고 다양한 측면에서 시스템의 효과를 체계적으로 평가하는 방법론을 제공합니다.

 

RAG 시스템 평가의 측정 기준 (Metrics)

RAG 시스템 평가는 주로 검색(Retrieval) 구성 요소, 생성(Generation) 구성 요소, 그리고 추가 요구사항(Additional Requirements)의 세 가지 핵심 영역으로 나뉩니다.

 

1. 검색 구성 요소 평가 목표 및 측정 기준
검색 구성 요소는 생성 과정에 필요한 관련 정보를 가져오는 데 중요합니다.
  • 평가 목표
    • 관련성 (Relevance): 검색된 문서가 쿼리에 명시된 정보와 얼마나 잘 일치하는지 평가합니다. 검색 프로세스의 정확성과 특이성을 측정합니다.
    • 정확성 (Accuracy): 검색된 문서가 후보 문서 세트와 비교하여 얼마나 정확한지 평가합니다. 관련성 있는 문서를 덜 관련 있거나 관련 없는 문서보다 더 높게 식별하고 점수를 매기는 시스템의 능력을 측정합니다.
  • 주요 측정 기준
    • 비순위 기반 지표
      • 정확도(Accuracy): 검토된 전체 사례 중 참 결과(both true positives and true negatives)의 비율
      • 정밀도(Precision): 검색된 인스턴스(instances) 중 관련 인스턴스의 비율
      • 재현율(Recall@k): 관련 사례의 총량 중에서 상위 k개 결과만 고려하여 검색된 관련 인스턴스의 비율
    • 순위 기반 지표
      • MRR(Mean Reciprocal Rank): 쿼리 세트에 대한 첫 번째 정확한 답변의 상호 순위 평균
      • MAP(Mean Average Precision): 각 쿼리에 대한 평균 정밀도 점수의 평균
    • RAG 특화 지표
      • 오해율(Misleading Rate), 실수 재현율(Mistake Reappearance Rate), 오류 감지율(Error Detection Rate) 등
    • LLM을 평가자로 활용
      • RAGAs와 같은 벤치마크에서는 LLM을 평가자로 사용하여 검색 품질을 평가합니다. 이는 검색 평가의 적응성과 다용성을 강조하며, 포괄적이고 맥락을 인지하는 접근 방식을 제공합니다.

 

2. 생성 구성 요소 평가 목표 및 측정 기준
생성 구성 요소는 검색된 콘텐츠를 기반으로 일관되고 맥락에 적합한 응답을 생성합니다.
  • 평가 목표
    • 관련성 (Relevance): 생성된 응답이 초기 쿼리의 의도 및 내용과 얼마나 잘 일치하는지 측정합니다. 응답이 쿼리 주제와 관련이 있고 쿼리의 특정 요구사항을 충족하는지 확인합니다.
    • 충실도 (Faithfulness): 생성된 응답이 관련 문서에 포함된 정보를 정확하게 반영하는지 평가하며, 생성된 콘텐츠와 원본 문서 간의 일관성을 측정합니다.
    • 정확성 (Correctness): 생성된 응답의 정확성을 샘플 응답(Ground Truth)과 비교하여 측정합니다. 응답이 사실 정보 측면에서 정확하고 쿼리 맥락에서 적절한지 확인합니다.
  • 주요 측정 기준
    • 전통적인 지표: BLEU, ROUGE, F1 Score 등이 여전히 중요하게 사용됩니다.
    • 의미론적 유사성 지표: BertScore는 BERT와 같은 사전 학습된 트랜스포머의 문맥 임베딩을 활용하여 생성된 텍스트와 참조 텍스트 간의 의미론적 유사성을 평가합니다.
    • LLM을 평가자로 활용 (LLM as a Judge)
      • 이는 생성된 텍스트의 품질을 평가하는 다재다능하고 자동화된 방법으로, 전통적인 정답(Ground Truth)이 불분명하거나 얻기 어려운 경우에도 유용합니다.
      • LLM은 예측 기반 추론(Prediction-Powered Inference, PPI) 및 맥락 관련성 점수화를 통해 미묘한 텍스트 품질 평가를 제공합니다.
      • 상세한 프롬프트 템플릿을 전략적으로 사용하여 인간의 선호도에 맞춰 평가를 안내하고, 일관성, 관련성, 유창성, 포괄성, 다양성, 세부 사항 등 다양한 콘텐츠 차원에 걸쳐 평가를 효과적으로 표준화할 수 있습니다.
      • 많은 벤치마크(RAGAs, ARES, MultiHop-RAG, DomainRAG, ReEval 등) 및 도구(TruEra RAG Triad, LangChain Bench., Databricks Eval)에서 LLM을 평가자로 사용합니다. 이는 자동화되고 맥락에 반응적인 평가 프레임워크로의 중요한 진전을 의미합니다.

 

3. 추가 요구사항 평가 측정 기준
주요 두 구성 요소 외에도, RAG 시스템의 실제 적용 가능성을 보장하고 인간의 선호도에 맞추기 위한 추가적인 요구사항이 평가됩니다.
  • 지연 시간 (Latency): 시스템이 정보를 찾아 응답하는 데 걸리는 시간을 측정합니다. 사용자 경험에 중요합니다.
    • 단일 쿼리 지연 시간(Single Query Latency): 검색 및 생성 단계를 포함한 단일 쿼리 처리의 평균 시간.
  • 다양성 (Diversity): RAG 시스템이 검색하고 생성하는 정보의 다양성과 폭을 평가합니다. 응답의 중복성을 피하고 광범위한 관점을 제공하는지 확인합니다.
    • 코사인 유사도/거리(Cosine Similarity / Cosine Distance): 검색된 문서 또는 생성된 응답의 임베딩을 계산합니다. 코사인 유사도 점수가 낮을수록 다양성이 높다는 것을 의미합니다.
  • 노이즈 강건성 (Noise Robustness): RAG 시스템이 응답 품질을 저해하지 않고 관련 없거나 오해의 소지가 있는 정보를 처리하는 능력을 측정합니다.
    • 오해율(Misleading Rate) 및 실수 재현율(Mistake Reappearance Rate)
  • 부정 거부 (Negative Rejection): 사용 가능한 정보가 불충분하거나 너무 모호하여 정확한 답변을 제공할 수 없을 때 시스템이 응답을 보류하는 능력을 측정합니다.
    • 거부율(Rejection Rate)
  • 반사실적 강건성 (Counterfactual Robustness): 검색된 문서 내에서 잘못되거나 반사실적인 정보를 식별하고 무시하는 시스템의 능력을 평가합니다.
    • 오류 감지율(Error Detection Rate)
  • 그 외: 가독성(readability), 독성(toxicity), 혼란도(perplexity) 등 인간 선호도를 고려한 추가 요구사항이 있을 수 있습니다.
이러한 측정 기준들은 RAG 시스템의 복잡하고 동적인 특성에 맞춰 정밀도, 재현율뿐만 아니라 검색된 문서의 다양성과 관련성까지 고려합니다.
 

LLM을 활용한 RAG 시스템 평가의 장점

  • 다재다능하고 자동화된 품질 평가 방법: LLM은 생성된 콘텐츠의 품질을 평가하는 데 있어 다재다능하고 자동화된 방식을 제공
  • 접근하기 어려운 Ground Truth에 대한 대처: 전통적인 Ground Truth(정답)가 불분명하거나 얻기 어려운 경우에도 품질 평가를 수행할 수 있습니다.
  • 미묘한 텍스트 품질 평가: LLM의 언어 및 맥락 이해 능력을 활용하여 생성된 텍스트에 대한 더 미묘한 품질 평가를 제공할 수 있습니다. 이는 예측 기반 추론(prediction-powered inference, PPI) 및 맥락 관련성 점수화를 통해 이루어집니다.
  • 인간 선호도에 부합하는 평가 표준화: 상세한 프롬프트 템플릿을 전략적으로 사용하여 인간의 선호도에 맞춰 평가를 안내하고, 다양한 콘텐츠 차원(일관성, 관련성, 유창성, 포괄성, 다양성, 세부 사항)에 걸쳐 평가를 효과적으로 표준화할 수 있습니다.
  • 자동화되고 맥락 반응적인 평가 프레임워크: LLM을 심사관으로 활용하는 것은 자동화되고 맥락 반응적인 평가 프레임워크로의 중요한 진전을 의미하며, 참조 비교에 대한 의존도를 최소화하면서 평가 환경을 풍부하게 합니다.
  • 대규모 추론 능력: LLM을 자동 평가 심사관으로 사용하는 것은 인간 평가와 비교하여 대규모로 추론 능력을 가진 생성 출력의 다재다능함과 깊이를 약속하는 성장하는 추세입니다.
  • 다양한 평가 항목 적용: RAGAs, ARES, TruEra RAG Triad, LangChain Bench, Databricks Eval, MultiHop-RAG, ReEval, DomainRAG 등 다양한 벤치마크에서 LLM을 평가자로 활용합니다.

LLM을 활용한 RAG 시스템 평가의 한계

  • 인간 판단과의 불일치: LLM을 평가자로 사용하는 것은 인간의 판단과 일치시키는 데 어려움이 있습니다.
  • 효과적인 등급 척도 설정의 어려움: 효과적인 등급 척도를 설정하는 데 도전이 따릅니다.
  • 다양한 사용 사례에 걸친 일관된 평가 적용의 어려움: 다양한 사용 사례에 걸쳐 일관된 평가를 적용하기 어렵습니다.
  • 자동 평가와 인간 평가 간의 차이: 정확성, 명확성, 풍부함을 결정하는 데 있어 자동화된 평가와 인간의 평가 사이에 차이가 발생할 수 있습니다.
  • 예시 기반 채점의 가변성: 예시 기반 채점의 효과는 다양할 수 있으며, 보편적으로 적용 가능한 등급 척도와 프롬프트 텍스트가 없어 "LLM as a Judge"의 표준화를 복잡하게 만듭니다.
  • 자원 집약적 특성: 데이터 생성 및 검증에 LLM을 사용하는 것은 자원 집약적이라는 중요한 고려사항이 있습니다. RAG 벤치마크는 철저한 평가의 필요성과 제한된 컴퓨팅 자원이라는 실제적인 제약 사이에서 균형을 맞춰야 합니다.

 

RAG 평가를 위한 데이터셋 구성의 주요 방법론

다양한 벤치마크들은 데이터셋 구성을 위해 기존 자원을 활용하거나 특정 평가 측면에 맞춰 완전히 새로운 데이터를 생성하는 등 다양한 전략을 사용합니다.
  • 기존 자원 활용
    • 일부 벤치마크는 KILT (Knowledge Intensive Language Tasks) 벤치마크의 일부(Natural Questions, HotpotQA, FEVER)와 SuperGLUE (MultiRC, ReCoRD)와 같은 기존의 확립된 데이터셋을 활용합니다.
    • RAGAs는 2022년 이후의 위키백과 페이지를 기반으로 WikiEval과 같은 데이터셋을 구성했습니다.
  • 특정 평가 목표를 위한 새로운 데이터 생성
    • 강력한 LLM(대규모 언어 모델)의 등장은 데이터셋 구성 과정을 혁신했습니다.
    • 프레임워크를 사용하여 특정 평가 목표에 맞는 질의(queries)와 정답(ground truths)을 쉽게 생성할 수 있게 되었습니다.
    • RGB, MultiHop-RAG, CRUD-RAG, CDQA와 같은 벤치마크들은 온라인 뉴스 기사를 사용하여 LLM 학습 데이터를 넘어선 실제 정보 처리 능력을 테스트하기 위해 자체 데이터셋을 구축했습니다.
    • 최근에는 DomainRAG단일 문서, 다중 문서, 단일 턴, 다중 턴 질의 응답 데이터셋을 결합하여 다양한 유형의 QA 데이터셋을 만들었습니다. 이 데이터셋들은 매년 변경되는 대학 입학 및 등록 정보를 바탕으로 생성되어 LLM이 제공된 최신 정보를 사용하도록 강제합니다.
RAG 평가를 위한 데이터셋 구성의 주요 과제
RAG 시스템의 복잡성과 동적인 특성으로 인해 데이터셋 구성에는 여러 가지 과제가 존재합니다.
  • 실제 시나리오 반영의 한계: 기존 데이터셋들은 동적인 실제 시나리오의 과제를 완전히 해결하지 못할 수 있습니다. 동적 데이터베이스 검색은 오해의 소지가 있는 결과를 초래하거나 사실과 모순될 수 있으므로, 실제 시나리오를 정확하게 반영하는 다양하고 포괄적인 데이터셋이 필수적입니다.
  • 타겟별 특성 및 범용성 부족: 각 RAG 벤치마크의 타겟(평가 목표)이 특정적이기 때문에 범용적인 데이터셋을 만드는 것이 어렵습니다. 특정 목표에 맞는 맞춤형 데이터셋이 필요하지만, 이는 더 많은 노력과 자원을 요구합니다.
  • 데이터셋의 다양성과 평가 간소화의 어려움: 뉴스 기사부터 구조화된 데이터베이스에 이르는 데이터셋의 다양성은 RAG 시스템에 요구되는 적응성을 반영하지만, 동시에 평가를 간소화하는 데 장벽이 됩니다.
  • LLM의 "부정행위" 방지 및 강건성 평가: 최첨단 LLM의 성능으로 인해 복잡한 데이터 처리 및 자동 QA 쌍 생성을 자동화하여 데이터가 빠르게 변화하는 환경에서 RAG 시스템의 강건성(robustness)을 평가하고 LLM이 "속이지" 못하게 할 수 있습니다.
  • 자원 집약적인 특성: LLM을 데이터 생성 및 검증에 사용하는 것은 자원 집약적입니다. 따라서 RAG 벤치마크는 철저한 평가의 필요성과 제한된 컴퓨팅 자원이라는 실제적인 제약 사이에서 균형을 찾아야 합니다. 이는 유효성과 신뢰성을 유지하면서도 더 적은 양의 데이터로 RAG 시스템을 효과적으로 평가할 수 있는 방법론 개발의 필요성을 시사합니다.
728x90
반응형