Whisper 로 미디어 파일 텍스트 변환하기

LinuxBeginner
지금 연습하기

소개

OpenAI Whisper 는 오디오 및 비디오를 포함한 다양한 미디어 파일의 음성을 텍스트로 변환하는 데 뛰어납니다. 이 튜토리얼은 고정밀 전사를 용이하게 하는 Whisper 명령의 필수적이고 더 정교한 사용법을 안내합니다.

Whisper transcription interface
이것은 가이드 실험입니다. 학습과 실습을 돕기 위한 단계별 지침을 제공합니다.각 단계를 완료하고 실무 경험을 쌓기 위해 지침을 주의 깊게 따르세요. 과거 데이터에 따르면, 이것은 초급 레벨의 실험이며 완료율은 93%입니다.학습자들로부터 97%의 긍정적인 리뷰율을 받았습니다.

미디어 전사를 위한 Whisper 마스터하기

/home/labex/projectlabex.mp3 오디오 파일이 있습니다. 환경에서 터미널 (그림의 ① 또는 ②) 을 열고 다음 명령을 입력합니다.

whisper labex.mp3 --language English --model tiny.en

이 명령에서 whisper는 미디어 파일 labex.mp3를 전사하도록 지시합니다.

  • --language 매개변수는 English 로 설정되어 미디어에서 사용되는 언어를 나타냅니다.
  • --model 옵션은 사용할 Whisper 모델을 선택하며, tiny.en은 영어에 최적화된 작고 빠른 모델로, 빠른 작업이나 성능이 낮은 하드웨어에 적합합니다.
Whisper command terminal example

미디어 콘텐츠를 전사하기 위해 Whisper 명령을 실행한 후, /home/labex/project에 여러 파일이 생성될 수 있으며, 각 파일은 전사된 텍스트에 대해 고유한 목적과 형식을 제공합니다. 각 파일 유형에 대한 개요는 다음과 같습니다.

  1. output.json: 이 파일은 JSON 형식으로 자세한 전사 결과를 포함합니다. JSON 은 사람이 읽고 쓰기 쉽고 기계가 파싱하고 생성하기 쉬운 가벼운 데이터 교환 형식입니다. JSON 파일에는 전사된 텍스트뿐만 아니라 타임스탬프, 신뢰도 점수 및 스피커 식별과 같은 추가 메타데이터도 포함됩니다. 이 형식은 정확한 타이밍으로 자막을 생성하거나 음성 패턴을 분석하는 등 전사 결과의 자세한 처리 또는 분석이 필요한 애플리케이션에 특히 유용합니다.
  2. output.srt: SRT (SubRip Subtitle) 파일 형식은 자막 또는 캡션을 나타내는 데 사용됩니다. SRT 파일의 각 항목은 시퀀스 번호, 텍스트가 표시되어야 하는 시간 범위 및 텍스트 자체로 구성됩니다. SRT 파일은 비디오 재생 소프트웨어 및 플랫폼에서 널리 지원되므로 이 형식은 비디오에 자막을 추가하는 데 이상적입니다.
  3. output.tsv: TSV 는 Tab-Separated Values 의 약자입니다. 이 형식은 CSV (Comma-Separated Values) 와 유사하지만 데이터 필드 간에 탭을 구분 기호로 사용합니다. Whisper 의 output.tsv 파일에는 탭으로 구분된 타이밍 정보 및 신뢰도 점수와 함께 전사된 텍스트가 포함될 수 있습니다. 이 형식은 데이터 분석 작업이나 전사 결과를 데이터베이스 또는 스프레드시트로 가져오는 데 유용할 수 있습니다.
  4. output.txt: 이것은 타임스탬프나 메타데이터 없이 전사된 텍스트만 포함하는 일반 텍스트 파일입니다. 이 형식의 단순함은 텍스트의 내용이 타이밍보다 더 중요하거나 텍스트를 사람이 읽거나 기본 텍스트 처리 소프트웨어로 처리해야 하는 애플리케이션에 적합합니다.
  5. output.vtt: VTT (Web Video Text Tracks) 는 SRT 와 유사하지만 더 많은 기능을 가진 또 다른 자막 파일 형식입니다. HTML5 비디오 태그 캡션의 표준 형식이며 자막의 스타일 지정 및 위치 지정을 지원합니다. VTT 형식은 사용자 정의 가능한 자막으로 더 풍부한 시청 경험을 제공하므로 웹 비디오 콘텐츠에 특히 유용합니다.

이러한 각 파일은 단순한 텍스트 문서에서 자세한 분석 또는 비디오 자막에 이르기까지 다양한 사용 사례에 사용되며, 전사 결과를 활용하는 방법에 대한 유연성을 제공합니다.

✨ 솔루션 확인 및 연습

요약

이 튜토리얼에서는 미디어 파일의 콘텐츠를 텍스트로 전사하기 위해 OpenAI Whisper 를 사용하는 방법을 안내했습니다. 기본 사항부터 시작하여 간단한 영어 미디어 파일을 전사하는 방법을 배웠습니다. 그런 다음 다양한 모델 선택 및 일괄 처리와 같은 전사 프로세스를 최적화하기 위한 추가 기능을 탐색했습니다. Whisper 는 다양한 미디어 파일을 쉽게 전사할 수 있는 다재다능한 도구로 돋보입니다.