AI 세부 실습 03 - 이미지 설명과 OCR

1 분 소요

이미지 설명과 OCR

이 글은 다음 원본 실습 파일을 기준으로 정리합니다.

12_multi_modal_image_description_20250410_01.py
12_multi_modal_image_description_20250410_02.py
12_multi_modal_image_text_extract_20250410_03.py

12번 실습은 AI가 이미지를 보고 텍스트로 설명하거나, 이미지 안의 글자를 추출하는 내용입니다.

이미지 설명은 사진이나 그림을 모델에 보내고 설명문을 받는 작업입니다.

이미지 파일
-> AI 비전 모델
-> 이미지 설명 텍스트

예를 들어 강아지 사진을 입력하면 다음과 같은 답을 받을 수 있습니다.

사진에는 잔디밭 위에 앉아 있는 갈색 강아지가 보입니다.

이미지 설명은 다음과 같은 곳에 사용할 수 있습니다.

특히 웹 접근성에서는 이미지를 볼 수 없는 사용자를 위해 대체 텍스트가 중요합니다.

OCR은 Optical Character Recognition의 약자입니다. 이미지 속 문자를 텍스트로 바꾸는 기술입니다.

영수증 사진
-> OCR
-> 날짜, 금액, 매장명 텍스트 추출

12번 실습의 image_text_extract 파일은 이 흐름과 연결됩니다.

OCR은 업무 자동화와 잘 맞습니다.

다만 개인정보가 포함된 이미지는 보관과 전송에 주의해야 합니다.

이미지를 API에 보낼 때는 보통 다음 과정이 필요합니다.

이미지 파일 읽기
-> base64 등 API가 요구하는 형식으로 변환
-> 프롬프트와 함께 모델에 전달

프롬프트 예시는 다음과 같습니다.

이 이미지에 무엇이 있는지 한국어로 설명해줘.

OCR 프롬프트는 더 구체적으로 작성합니다.

이 이미지에 있는 모든 문자를 줄바꿈을 유지해서 추출해줘.
금액, 날짜, 상호명이 있으면 따로 정리해줘.

비전 AI와 OCR 결과는 항상 맞지는 않습니다.

특히 다음 상황에서 오류가 늘어납니다.

중요한 문서라면 사람이 한 번 검토해야 합니다.

12번 실습은 이미지 데이터를 텍스트로 바꾸는 과정입니다. 이미지 설명은 “무엇이 보이는가”를 정리하고, OCR은 “어떤 글자가 있는가”를 추출합니다. 이 두 기능은 문서 자동화, 이미지 검색, 접근성 개선의 기초가 됩니다.