소개
OpenAI Whisper 는 오디오 및 비디오를 포함한 다양한 미디어 파일의 음성을 텍스트로 변환하는 데 뛰어납니다. 이 튜토리얼은 고정밀 전사를 용이하게 하는 Whisper 명령의 필수적이고 더 정교한 사용법을 안내합니다.

미디어 전사를 위한 Whisper 마스터하기
/home/labex/project에 labex.mp3 오디오 파일이 있습니다. 환경에서 터미널 (그림의 ① 또는 ②) 을 열고 다음 명령을 입력합니다.
whisper labex.mp3 --language English --model tiny.en
이 명령에서 whisper는 미디어 파일 labex.mp3를 전사하도록 지시합니다.
--language매개변수는 English 로 설정되어 미디어에서 사용되는 언어를 나타냅니다.--model옵션은 사용할 Whisper 모델을 선택하며,tiny.en은 영어에 최적화된 작고 빠른 모델로, 빠른 작업이나 성능이 낮은 하드웨어에 적합합니다.

미디어 콘텐츠를 전사하기 위해 Whisper 명령을 실행한 후, /home/labex/project에 여러 파일이 생성될 수 있으며, 각 파일은 전사된 텍스트에 대해 고유한 목적과 형식을 제공합니다. 각 파일 유형에 대한 개요는 다음과 같습니다.
- output.json: 이 파일은 JSON 형식으로 자세한 전사 결과를 포함합니다. JSON 은 사람이 읽고 쓰기 쉽고 기계가 파싱하고 생성하기 쉬운 가벼운 데이터 교환 형식입니다. JSON 파일에는 전사된 텍스트뿐만 아니라 타임스탬프, 신뢰도 점수 및 스피커 식별과 같은 추가 메타데이터도 포함됩니다. 이 형식은 정확한 타이밍으로 자막을 생성하거나 음성 패턴을 분석하는 등 전사 결과의 자세한 처리 또는 분석이 필요한 애플리케이션에 특히 유용합니다.
- output.srt: SRT (SubRip Subtitle) 파일 형식은 자막 또는 캡션을 나타내는 데 사용됩니다. SRT 파일의 각 항목은 시퀀스 번호, 텍스트가 표시되어야 하는 시간 범위 및 텍스트 자체로 구성됩니다. SRT 파일은 비디오 재생 소프트웨어 및 플랫폼에서 널리 지원되므로 이 형식은 비디오에 자막을 추가하는 데 이상적입니다.
- output.tsv: TSV 는 Tab-Separated Values 의 약자입니다. 이 형식은 CSV (Comma-Separated Values) 와 유사하지만 데이터 필드 간에 탭을 구분 기호로 사용합니다. Whisper 의 output.tsv 파일에는 탭으로 구분된 타이밍 정보 및 신뢰도 점수와 함께 전사된 텍스트가 포함될 수 있습니다. 이 형식은 데이터 분석 작업이나 전사 결과를 데이터베이스 또는 스프레드시트로 가져오는 데 유용할 수 있습니다.
- output.txt: 이것은 타임스탬프나 메타데이터 없이 전사된 텍스트만 포함하는 일반 텍스트 파일입니다. 이 형식의 단순함은 텍스트의 내용이 타이밍보다 더 중요하거나 텍스트를 사람이 읽거나 기본 텍스트 처리 소프트웨어로 처리해야 하는 애플리케이션에 적합합니다.
- output.vtt: VTT (Web Video Text Tracks) 는 SRT 와 유사하지만 더 많은 기능을 가진 또 다른 자막 파일 형식입니다. HTML5 비디오 태그 캡션의 표준 형식이며 자막의 스타일 지정 및 위치 지정을 지원합니다. VTT 형식은 사용자 정의 가능한 자막으로 더 풍부한 시청 경험을 제공하므로 웹 비디오 콘텐츠에 특히 유용합니다.
이러한 각 파일은 단순한 텍스트 문서에서 자세한 분석 또는 비디오 자막에 이르기까지 다양한 사용 사례에 사용되며, 전사 결과를 활용하는 방법에 대한 유연성을 제공합니다.
요약
이 튜토리얼에서는 미디어 파일의 콘텐츠를 텍스트로 전사하기 위해 OpenAI Whisper 를 사용하는 방법을 안내했습니다. 기본 사항부터 시작하여 간단한 영어 미디어 파일을 전사하는 방법을 배웠습니다. 그런 다음 다양한 모델 선택 및 일괄 처리와 같은 전사 프로세스를 최적화하기 위한 추가 기능을 탐색했습니다. Whisper 는 다양한 미디어 파일을 쉽게 전사할 수 있는 다재다능한 도구로 돋보입니다.



