728x90
반응형
- 2004년 제안
- 키워드 추출 기능 + 핵심 문장 추출 기능
1. 키워드 추출 기능
- 단어 그래프 사용(명사, 동사, 형용사와 같은 단어만 사용)
- 최소 빈도수 + 문장 + 토크나이저
- 유사도 → 두 단어의 co-occurrence 계산(두 단어 간격이 window인 횟수(2~8))
2. 핵심 문장 추출 기능
- 문장 간 유사도 측정
: 두 문장에 공통으로 등장한 단어의 개수를 각 문장의 단어 개수의 log 값의 합으로 나눈 값
- 문장의 길이가 길수록 높은 유사도
- 자주 등장하는 단어가 많이 포함될 수록 유사도 증가
- Cosine similarity 는 길이가 짧은 문장에 민감
- LexRank (Erkan at al., 2004) 는 TF-IDF + Cosine similarity 이용 (결과 크게 다르지 않음)
*참고 자료
TextRank 를 이용한 키워드 추출과 핵심 문장 추출 (구현과 실험) | LOVIT x DATA SCIENCE
TextRank 를 이용한 키워드 추출과 핵심 문장 추출 (구현과 실험)
문서 집합을 요약하는 방법으로 키워드와 핵심 문장을 선택하는 extractive methods 를 이용할 수 있습니다. 이를 위해 가장 널리 이용되는 방법 중 하나는 2004 년에 제안된 TextRank 입니다. TextRank 는 wo
lovit.github.io
11-2: Graph-based Extractive Summarization - YouTube
*참고 코드
728x90
반응형
'NLP | LLM' 카테고리의 다른 글
로컬 환경에서 필수인 Ollama에 대해 알아보기 (3) | 2025.06.18 |
---|---|
AI Agent의 모든 것 (5) | 2025.06.17 |
[LangChain] 1. LangChain의 모든 것 (3) | 2025.06.17 |
[RAG] 2. Query 추론 및 재생성 (0) | 2025.06.10 |
[RAG] 1. RAG와 LangGraph의 등장과 동작과정 (0) | 2025.06.10 |