AI 세부 실습 03 - 이미지 설명과 OCR
이미지 설명과 OCR
이 글은 다음 원본 실습 파일을 기준으로 정리합니다.
12_multi_modal_image_description_20250410_01.py
12_multi_modal_image_description_20250410_02.py
12_multi_modal_image_text_extract_20250410_03.py
12번 실습은 AI가 이미지를 보고 텍스트로 설명하거나, 이미지 안의 글자를 추출하는 내용입니다.
이미지 설명 생성
이미지 설명은 사진이나 그림을 모델에 보내고 설명문을 받는 작업입니다.
이미지 파일
-> AI 비전 모델
-> 이미지 설명 텍스트
예를 들어 강아지 사진을 입력하면 다음과 같은 답을 받을 수 있습니다.
사진에는 잔디밭 위에 앉아 있는 갈색 강아지가 보입니다.
어디에 사용할까?
이미지 설명은 다음과 같은 곳에 사용할 수 있습니다.
- 상품 이미지 설명 자동 생성
- 블로그 이미지 대체 텍스트 작성
- 시각 자료 요약
- 사진 분류 전 사전 설명 생성
- 접근성 개선
특히 웹 접근성에서는 이미지를 볼 수 없는 사용자를 위해 대체 텍스트가 중요합니다.
OCR이란?
OCR은 Optical Character Recognition의 약자입니다. 이미지 속 문자를 텍스트로 바꾸는 기술입니다.
영수증 사진
-> OCR
-> 날짜, 금액, 매장명 텍스트 추출
12번 실습의 image_text_extract 파일은 이 흐름과 연결됩니다.
OCR 활용 예시
OCR은 업무 자동화와 잘 맞습니다.
- 영수증 정리
- 신분증 정보 추출
- 스캔 문서 텍스트화
- 칠판 사진 정리
- 계약서 이미지에서 특정 문구 찾기
다만 개인정보가 포함된 이미지는 보관과 전송에 주의해야 합니다.
이미지 입력 처리
이미지를 API에 보낼 때는 보통 다음 과정이 필요합니다.
이미지 파일 읽기
-> base64 등 API가 요구하는 형식으로 변환
-> 프롬프트와 함께 모델에 전달
프롬프트 예시는 다음과 같습니다.
이 이미지에 무엇이 있는지 한국어로 설명해줘.
OCR 프롬프트는 더 구체적으로 작성합니다.
이 이미지에 있는 모든 문자를 줄바꿈을 유지해서 추출해줘.
금액, 날짜, 상호명이 있으면 따로 정리해줘.
결과 검증
비전 AI와 OCR 결과는 항상 맞지는 않습니다.
특히 다음 상황에서 오류가 늘어납니다.
- 글자가 작음
- 이미지가 흐림
- 기울어진 사진
- 손글씨
- 배경과 글자 색 대비가 낮음
- 여러 언어가 섞임
중요한 문서라면 사람이 한 번 검토해야 합니다.
정리
12번 실습은 이미지 데이터를 텍스트로 바꾸는 과정입니다. 이미지 설명은 “무엇이 보이는가”를 정리하고, OCR은 “어떤 글자가 있는가”를 추출합니다. 이 두 기능은 문서 자동화, 이미지 검색, 접근성 개선의 기초가 됩니다.
댓글남기기