AI 세부 실습 03 - 이미지 설명과 OCR

1 분 소요

이미지 설명과 OCR

이 글은 다음 원본 실습 파일을 기준으로 정리합니다.

12_multi_modal_image_description_20250410_01.py
12_multi_modal_image_description_20250410_02.py
12_multi_modal_image_text_extract_20250410_03.py

12번 실습은 AI가 이미지를 보고 텍스트로 설명하거나, 이미지 안의 글자를 추출하는 내용입니다.

이미지 설명 생성

이미지 설명은 사진이나 그림을 모델에 보내고 설명문을 받는 작업입니다.

이미지 파일
-> AI 비전 모델
-> 이미지 설명 텍스트

예를 들어 강아지 사진을 입력하면 다음과 같은 답을 받을 수 있습니다.

사진에는 잔디밭 위에 앉아 있는 갈색 강아지가 보입니다.

어디에 사용할까?

이미지 설명은 다음과 같은 곳에 사용할 수 있습니다.

  • 상품 이미지 설명 자동 생성
  • 블로그 이미지 대체 텍스트 작성
  • 시각 자료 요약
  • 사진 분류 전 사전 설명 생성
  • 접근성 개선

특히 웹 접근성에서는 이미지를 볼 수 없는 사용자를 위해 대체 텍스트가 중요합니다.

OCR이란?

OCR은 Optical Character Recognition의 약자입니다. 이미지 속 문자를 텍스트로 바꾸는 기술입니다.

영수증 사진
-> OCR
-> 날짜, 금액, 매장명 텍스트 추출

12번 실습의 image_text_extract 파일은 이 흐름과 연결됩니다.

OCR 활용 예시

OCR은 업무 자동화와 잘 맞습니다.

  • 영수증 정리
  • 신분증 정보 추출
  • 스캔 문서 텍스트화
  • 칠판 사진 정리
  • 계약서 이미지에서 특정 문구 찾기

다만 개인정보가 포함된 이미지는 보관과 전송에 주의해야 합니다.

이미지 입력 처리

이미지를 API에 보낼 때는 보통 다음 과정이 필요합니다.

이미지 파일 읽기
-> base64 등 API가 요구하는 형식으로 변환
-> 프롬프트와 함께 모델에 전달

프롬프트 예시는 다음과 같습니다.

이 이미지에 무엇이 있는지 한국어로 설명해줘.

OCR 프롬프트는 더 구체적으로 작성합니다.

이 이미지에 있는 모든 문자를 줄바꿈을 유지해서 추출해줘.
금액, 날짜, 상호명이 있으면 따로 정리해줘.

결과 검증

비전 AI와 OCR 결과는 항상 맞지는 않습니다.

특히 다음 상황에서 오류가 늘어납니다.

  • 글자가 작음
  • 이미지가 흐림
  • 기울어진 사진
  • 손글씨
  • 배경과 글자 색 대비가 낮음
  • 여러 언어가 섞임

중요한 문서라면 사람이 한 번 검토해야 합니다.

정리

12번 실습은 이미지 데이터를 텍스트로 바꾸는 과정입니다. 이미지 설명은 “무엇이 보이는가”를 정리하고, OCR은 “어떤 글자가 있는가”를 추출합니다. 이 두 기능은 문서 자동화, 이미지 검색, 접근성 개선의 기초가 됩니다.

댓글남기기