AI 세부 실습 12 - 웹 문서 검색, 리랭킹, Wikipedia Agent
웹 문서 검색, 리랭킹, Wikipedia Agent
이 글은 다음 원본 실습 파일을 기준으로 정리합니다.
27.langchain_20250430_01.py
27.langchain_20250430_02_web_doc_summary_retrieval.py
27.langchain_20250430_03_rerank.py
27.langchain_20250430_04_agent_wikipedia.py
27일차풀이김태원.py
27번 실습은 문서가 로컬 PDF에만 있지 않고, 웹 문서나 외부 지식 도구로 확장되는 단계입니다.
웹 문서 로딩
웹 문서를 읽어오면 해당 페이지 내용을 요약하거나 검색할 수 있습니다.
from langchain_community.document_loaders import WebBaseLoader
loader = WebBaseLoader("https://example.com")
documents = loader.load()
가져온 문서는 PDF와 마찬가지로 청크 분할, 임베딩, 검색 과정을 거칠 수 있습니다.
웹 문서 RAG
웹 페이지 읽기
-> 텍스트 추출
-> 청크 분할
-> 임베딩
-> 유사 문서 검색
-> 답변 생성
회사 공지, 기술 문서, 뉴스 페이지 요약 등에 활용할 수 있습니다.
리랭킹
리랭킹은 1차 검색 결과를 다시 정렬하는 과정입니다.
벡터 검색으로 후보 20개 찾기
-> 리랭커가 더 관련 있는 순서로 재정렬
-> 상위 3-5개만 LLM에 전달
문서가 많아질수록 1차 검색만으로는 부족할 수 있습니다. 리랭킹은 답변 품질을 높이는 데 도움이 됩니다.
Wikipedia Agent
Wikipedia Agent는 필요할 때 Wikipedia 같은 외부 지식 도구를 사용합니다.
사용자 질문
-> Agent가 Wikipedia 검색 필요 판단
-> 검색 실행
-> 결과 요약
Agent는 사용자의 질문에 따라 도구를 고르는 방식이므로 단순 체인보다 유연합니다.
정리
27번 실습은 RAG를 웹과 외부 도구로 확장하는 단계입니다. 웹 로더, 리랭킹, Wikipedia Agent를 이해하면 더 실용적인 검색 기반 AI 앱을 만들 수 있습니다.
댓글남기기