AI 세부 실습 14 - Hugging Face 텍스트, 이미지, 음성 모델
Hugging Face 텍스트, 이미지, 음성 모델
이 글은 다음 원본 실습 파일을 기준으로 정리합니다.
43.langchain_huggingface_01_model.py
43.langchain_huggingface_02_korean_sentiment.py
44.huggingface_01_model.py
44.huggingface_02_multi_modal.py
45.huggingface_01_img_object.py
45.huggingface_02_img_object.py
45.huggingface_03_img_object.py
Hugging Face는 다양한 AI 모델을 쉽게 내려받아 사용할 수 있는 생태계입니다.
pipeline
가장 쉬운 시작은 pipeline입니다.
from transformers import pipeline
classifier = pipeline("sentiment-analysis", device=-1)
result = classifier("I love Hugging Face!")
pipeline은 모델 로딩, 입력 전처리, 추론, 결과 후처리를 묶어 줍니다.
한국어 감성 분석
한국어 감성 분석 모델을 사용하면 문장이 긍정인지 부정인지 분류할 수 있습니다.
나는 이 제품이 좋아.
-> 긍정
모델마다 지원 언어와 성능이 다르므로 모델 설명을 확인해야 합니다.
이미지 설명
image_to_text = pipeline(
"image-to-text",
model="Salesforce/blip-image-captioning-base",
)
이미지를 넣으면 설명 문장을 생성합니다.
음성 인식
pipe = pipeline(
"automatic-speech-recognition",
model="openai/whisper-small",
)
음성 파일을 텍스트로 바꾸는 작업입니다. mp3 처리를 위해 FFmpeg가 필요할 수 있습니다.
이미지 분류
pipe = pipeline(
"image-classification",
model="google/vit-base-patch16-224",
)
이미지 전체가 무엇인지 분류합니다.
정리
43-45번 실습은 Hugging Face의 여러 모델을 빠르게 사용해 보는 과정입니다. 텍스트, 이미지, 음성 모델을 모두 경험하면 멀티모달 AI 앱을 더 넓게 설계할 수 있습니다.
댓글남기기