NLP | LLM

[Text Summarization] 1. TextRank

삐롱K 2022. 10. 17. 17:48
728x90
반응형
  • 2004년 제안
  • 키워드 추출 기능 + 핵심 문장 추출 기능

 

1. 키워드 추출 기능

  • 단어 그래프 사용(명사, 동사, 형용사와 같은 단어만 사용)
  • 최소 빈도수 + 문장 + 토크나이저
  • 유사도 → 두 단어의 co-occurrence 계산(두 단어 간격이 window인 횟수(2~8))

 

2. 핵심 문장 추출 기능

  • 문장 간 유사도 측정
    : 두 문장에 공통으로 등장한 단어의 개수를 각 문장의 단어 개수의 log 값의 합으로 나눈 값

  • 문장의 길이가 길수록 높은 유사도
  • 자주 등장하는 단어가 많이 포함될 수록 유사도 증가
  • Cosine similarity 는 길이가 짧은 문장에 민감
  • LexRank (Erkan at al., 2004) 는 TF-IDF + Cosine similarity 이용 (결과 크게 다르지 않음)

 

 

 

*참고 자료

TextRank 를 이용한 키워드 추출과 핵심 문장 추출 (구현과 실험) | LOVIT x DATA SCIENCE

 

TextRank 를 이용한 키워드 추출과 핵심 문장 추출 (구현과 실험)

문서 집합을 요약하는 방법으로 키워드와 핵심 문장을 선택하는 extractive methods 를 이용할 수 있습니다. 이를 위해 가장 널리 이용되는 방법 중 하나는 2004 년에 제안된 TextRank 입니다. TextRank 는 wo

lovit.github.io

11-2: Graph-based Extractive Summarization - YouTube

 

*참고 코드

https://github.com/lovit/textrank

728x90
반응형