AI 세부 실습 02 - 이미지 편집과 음성 녹음
이미지 편집과 음성 녹음
이 글은 다음 원본 실습 파일을 기준으로 정리합니다.
10_multi_modal_edit_image.py
10_multi_modal_record.py
10번 실습은 새 결과물을 만드는 것에서 한 단계 더 나아가, 기존 데이터를 수정하거나 직접 입력 데이터를 만드는 실습입니다.
이미지 생성과 이미지 편집의 차이
이미지 생성은 텍스트만으로 새 이미지를 만듭니다.
프롬프트 -> 새 이미지
이미지 편집은 기존 이미지가 있습니다.
원본 이미지 + 수정 지시문 -> 편집된 이미지
예를 들어 다음과 같은 작업입니다.
배경을 바다로 바꿔줘.
옷 색상을 파란색으로 바꿔줘.
사진 속 책상 위에 노트북을 추가해줘.
이미지 편집에서 중요한 것
이미지 편집에서는 프롬프트만큼 원본 이미지가 중요합니다.
좋은 입력은 다음 조건을 만족합니다.
- 수정할 대상이 명확하게 보임
- 해상도가 너무 낮지 않음
- 배경과 대상이 심하게 겹치지 않음
- 수정 요청이 구체적임
나쁜 요청:
예쁘게 바꿔줘
좋은 요청:
배경은 유지하고, 고양이 목에 빨간 리본을 추가해줘
음성 녹음 실습
음성 녹음은 AI 음성 처리의 입력 데이터를 만드는 과정입니다.
마이크 입력
-> wav 또는 mp3 파일 저장
-> STT 또는 음성 분석 모델에 전달
음성 녹음 파일은 이후 다음 작업에 사용할 수 있습니다.
- 음성 텍스트 변환
- 회의록 생성
- 발음 평가
- 자동 자막 생성
- 음성 명령 인식
파일 형식
음성 파일에서 자주 보는 형식은 다음과 같습니다.
| 형식 | 특징 |
|---|---|
| wav | 압축이 적어 품질이 좋지만 용량이 큼 |
| mp3 | 용량이 작고 널리 쓰임 |
| m4a | 모바일 환경에서 자주 사용 |
AI 음성 모델마다 지원하는 파일 형식이 다를 수 있으므로 문서를 확인해야 합니다.
녹음 품질 체크
음성 AI는 입력 품질에 민감합니다.
다음 조건을 맞추면 인식률이 좋아집니다.
- 주변 소음 줄이기
- 마이크와 입 거리 일정하게 유지
- 너무 작거나 큰 음량 피하기
- 여러 사람이 동시에 말하지 않기
- 녹음 후 실제로 재생해 확인하기
이후 실습과의 연결
10번에서 만든 음성 파일은 이후 자동화 실습과 연결됩니다.
음성 녹음
-> STT로 텍스트 변환
-> AI 요약
-> 파일 저장
-> 이메일 전송
이미지 편집도 OCR, 이미지 설명, 이미지 분류 실습과 연결됩니다.
정리
10번 실습의 핵심은 AI에게 보낼 입력을 직접 준비하는 것입니다. 원본 이미지와 음성 파일의 품질이 좋아야 AI 결과도 좋아집니다.
댓글남기기