인공지능 - 음성 인식 이해하기 - 소리란?

2 분 소요

음성 인식 이해하기

음성 인식 기술을 이해하기 위해서는 먼저 소리와 관련된 기본 개념들을 이해하는 것이 중요합니다. 소리는 진동에 의해 발생한 공기의 압축으로, 이러한 압축이 파동 형태로 전달됩니다. 아래는 소리의 물리적 특성과 음향적 특성에 대한 설명입니다.


소리의 기본 원리

소리의 기본 원리를 이해하기 위해 다음과 같은 내용을 알아야 합니다:

  • 소리진동에 의해 발생한 공기의 압축입니다.
  • 압축이 얼마나 됐나 = Wave(파동)
    • 파동은 진동하면서 공간이나 매질을 통해 전파되는 현상입니다.
    • 파동은 에너지와 운동량을 전달하지만, 질량 자체는 이동하지 않습니다.

파동의 설명

  1. 스피커: 진동을 만들어내는 장치로, 공기를 진동시켜 소리를 발생시킵니다.
  2. 압축된 공기: 공기가 밀집된 부분으로, 소리가 생성됩니다.
  3. 희박한 공기: 공기 밀도가 낮은 부분으로, 압축된 공기와 번갈아 나타납니다.
  4. 파동의 주기: 파동은 압축된 공기와 희박한 공기가 번갈아 나타나며, 이를 한 주기라고 합니다.
  5. 그래프: 공기 압력의 변화를 거리와 함께 나타냅니다.

소리에서 얻을 수 있는 물리량

  • Amplitude (진폭, Intensity): 소리의 세기입니다. 진폭이 클수록 소리가 더 큽니다.
  • Frequency (주파수): 소리의 떨림 속도입니다. 주파수가 높을수록 소리가 높게 들립니다.
  • Phase (위상): 파동의 변위 정도를 나타내며, 파동의 특정 시점에서의 위치를 의미합니다.

물리 음향과 심리 음향

  • 물리 음향
    • Intensity: 소리 진폭의 세기
    • Frequency: 소리 떨림의 빠르기
    • Tone-Color: 소리 파동의 모양
  • 심리 음향
    • Loudness: 소리 크기
    • Pitch: 음정, 소리의 높낮이/진동수
    • Timbre: 음색, 소리 감각

주파수(Frequency)

주파수는 소리의 중요한 특성 중 하나로, 단위는 Hertz(Hz)를 사용합니다. 1 Hertz는 1초에 한 번의 진동을 의미합니다.

  • 주기(Period): 파동이 한 번 진동하는 데 걸리는 시간 또는 그 길이. 일반적으로 sin 함수의 주기는 $ \frac{2\pi}{\omega} $ 입니다.
  • 주파수(Frequency): 1초 동안의 진동 횟수입니다.

주파수와 소리의 높낮이

  • 저주파 (Low frequency): 주파수가 낮아 소리가 낮게 들립니다.
  • 고주파 (High frequency): 주파수가 높아 소리가 높게 들립니다.
  • 주기와 진폭 (Period and Amplitude): 주기는 파동의 한 주기를 나타내며, 진폭은 파동의 세기를 나타냅니다.

소리의 높낮이는 음원의 주파수에 의해 결정됩니다. 주파수가 높으면 높은 소리가 나고, 주파수가 낮으면 낮은 소리가 납니다.


주요 음계와 옥타브별 주파수

  • 도 (C): 옥타브 1 (32.70 Hz)부터 옥타브 8 (4186.01 Hz)까지 주파수가 증가합니다.
  • 레 (D): 옥타브 1 (36.71 Hz)부터 옥타브 8 (4698.64 Hz)까지 주파수가 증가합니다.
  • 미 (E): 옥타브 1 (41.20 Hz)부터 옥타브 8 (5274.04 Hz)까지 주파수가 증가합니다.
  • 파 (F): 옥타브 1 (43.65 Hz)부터 옥타브 8 (5587.65 Hz)까지 주파수가 증가합니다.
  • 솔 (G): 옥타브 1 (49.00 Hz)부터 옥타브 8 (6271.93 Hz)까지 주파수가 증가합니다.
  • 라 (A): 옥타브 1 (55.00 Hz)부터 옥타브 8 (7040.00 Hz)까지 주파수가 증가합니다.
  • 시 (B): 옥타브 1 (61.74 Hz)부터 옥타브 8 (7902.13 Hz)까지 주파수가 증가합니다.

각 음계의 주파수는 옥타브가 증가함에 따라 2배씩 증가합니다. 예를 들어, 라(A) 음은 220 Hz, 440 Hz, 880 Hz 등으로 증가합니다.


음계와 옥타브

  • 음계란 음악에서 사용되는 특정한 음의 순서를 의미합니다. 도, 레, 미, 파, 솔, 라, 시의 순서로 구성되며, 이는 한 옥타브를 구성합니다.
  • 옥타브는 동일 음의 주파수가 두 배로 증가하는 음계의 구간을 의미합니다. 예를 들어, 220 Hz의 라(A) 음이 다음 옥타브에서는 440 Hz, 그 다음 옥타브에서는 880 Hz로 증가합니다.

음계와 옥타브의 관계는 음악 이론과 음성 인식 기술에서 매우 중요한 개념입니다. 옥타브가 증가할수록 음의 주파수는 기하급수적으로 증가하며, 이는 음의 높낮이에 직접적인 영향을 미칩니다.


결론

소리의 물리적 특성과 음향적 특성을 이해하는 것은 음성 인식 기술을 이해하는 데 중요한 기초가 됩니다. 음성 인식 시스템은 이러한 소리의 특성을 분석하여 인간의 음성을 인식하고 이해할 수 있게 합니다.


태그: ,

카테고리:

업데이트:

댓글남기기