AI 세부 실습 12 - 웹 문서 검색, 리랭킹, Wikipedia Agent

최대 1 분 소요

웹 문서 검색, 리랭킹, Wikipedia Agent

이 글은 다음 원본 실습 파일을 기준으로 정리합니다.

langchain_20250430_01.py
langchain_20250430_02_web_doc_summary_retrieval.py
langchain_20250430_03_rerank.py
langchain_20250430_04_agent_wikipedia.py
27일차풀이김태원.py

27번 실습은 문서가 로컬 PDF에만 있지 않고, 웹 문서나 외부 지식 도구로 확장되는 단계입니다.

웹 문서 로딩

웹 문서를 읽어오면 해당 페이지 내용을 요약하거나 검색할 수 있습니다.

from langchain_community.document_loaders import WebBaseLoader

loader = WebBaseLoader("https://example.com")
documents = loader.load()

가져온 문서는 PDF와 마찬가지로 청크 분할, 임베딩, 검색 과정을 거칠 수 있습니다.

웹 문서 RAG

웹 페이지 읽기
-> 텍스트 추출
-> 청크 분할
-> 임베딩
-> 유사 문서 검색
-> 답변 생성

회사 공지, 기술 문서, 뉴스 페이지 요약 등에 활용할 수 있습니다.

리랭킹

리랭킹은 1차 검색 결과를 다시 정렬하는 과정입니다.

벡터 검색으로 후보 20개 찾기
-> 리랭커가 더 관련 있는 순서로 재정렬
-> 상위 3-5개만 LLM에 전달

문서가 많아질수록 1차 검색만으로는 부족할 수 있습니다. 리랭킹은 답변 품질을 높이는 데 도움이 됩니다.

Wikipedia Agent

Wikipedia Agent는 필요할 때 Wikipedia 같은 외부 지식 도구를 사용합니다.

사용자 질문
-> Agent가 Wikipedia 검색 필요 판단
-> 검색 실행
-> 결과 요약

Agent는 사용자의 질문에 따라 도구를 고르는 방식이므로 단순 체인보다 유연합니다.

정리

27번 실습은 RAG를 웹과 외부 도구로 확장하는 단계입니다. 웹 로더, 리랭킹, Wikipedia Agent를 이해하면 더 실용적인 검색 기반 AI 앱을 만들 수 있습니다.

Twitter Facebook LinkedIn

amiro

AI 세부 실습 12 - 웹 문서 검색, 리랭킹, Wikipedia Agent

웹 문서 검색, 리랭킹, Wikipedia Agent

웹 문서 로딩

웹 문서 RAG

리랭킹

Wikipedia Agent

정리

공유하기

댓글남기기

참고

AI 세부 실습 17 - 유튜브, 이메일, OCR, 문서 요약 자동화

AI 세부 실습 16 - 파인튜닝과 LoRA

AI 세부 실습 15 - LM Studio와 로컬 LLM

English Posts

한국어 포스트