Транскрибируйте медиа в текст с помощью Whisper

LinuxLinuxBeginner
Практиковаться сейчас

💡 Этот учебник переведен с английского с помощью ИИ. Чтобы просмотреть оригинал, вы можете перейти на английский оригинал

Введение

OpenAI Whisper отлично справляется с преобразованием речи из различных медиафайлов, включая как аудио, так и видео, в письменный текст. В этом руководстве вы узнаете об основных и более сложных способах использования команды Whisper для создания транскрипций с высокой точностью.

Интерфейс транскрипции Whisper

Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL linux(("Linux")) -.-> linux/BasicFileOperationsGroup(["Basic File Operations"]) linux/BasicFileOperationsGroup -.-> linux/ls("Content Listing") linux/BasicFileOperationsGroup -.-> linux/cat("File Concatenating") subgraph Lab Skills linux/ls -.-> lab-289658{{"Транскрибируйте медиа в текст с помощью Whisper"}} linux/cat -.-> lab-289658{{"Транскрибируйте медиа в текст с помощью Whisper"}} end

Мастерство в использовании Whisper для транскрипции медиафайлов

В директории /home/labex/project находится аудиофайл labex.mp3. Откройте терминал (① или ② на рисунке) в среде и введите следующую команду:

whisper labex.mp3 --language English --model tiny.en

В этой команде whisper используется для транскрипции медиафайла labex.mp3.

  • Параметр --language установлен на English, что указывает на язык, на котором произносится речь в медиафайле.
  • Опция --model позволяет выбрать модель Whisper для использования. В данном случае tiny.en - это более маленькая и быстрая модель, оптимизированная для английского языка, которая подходит для быстрых задач или менее мощного оборудования.
Пример терминала с командой Whisper

После выполнения команды Whisper для транскрипции медиа-контента в директории /home/labex/project могут быть сгенерированы несколько файлов, каждый из которых имеет свою уникальную цель и формат для транскрибированного текста. Вот обзор каждого типа файла:

  1. output.json: Этот файл содержит детальные результаты транскрипции в формате JSON, который представляет собой легковесный формат обмена данными, легко читаемый и записываемый человеком и простой для разбора и генерации машинами. Файл JSON включает не только транскрибированный текст, но и дополнительную метаданные, такие как временные метки, оценки уверенности и, возможно, идентификацию говорящего. Этот формат особенно полезен для приложений, которые требуют детальной обработки или анализа результатов транскрипции, например, для создания субтитров с точным временем или для анализа речевых паттернов.
  2. output.srt: Формат файла SRT (SubRip Subtitle) используется для представления субтитров или титров. Каждая запись в файле SRT состоит из порядкового номера, временного диапазона, в течение которого текст должен быть отображен, и самого текста. Файлы SRT широко поддерживаются программой и платформами для воспроизведения видео, что делает этот формат идеальным для добавления субтитров к видео.
  3. output.tsv: TSV означает "Значения, разделенные табуляцией". Этот формат похож на CSV (Значения, разделенные запятыми), но использует табуляции в качестве разделителей между полями данных. Файл output.tsv от Whisper может содержать транскрибированный текст вместе с информацией о времени и оценками уверенности, разделенными табуляциями. Этот формат может быть полезен для задач анализа данных или для импорта результатов транскрипции в базы данных или электронные таблицы.
  4. output.txt: Это обычный текстовый файл, содержащий только транскрибированный текст без каких-либо временных меток или метаданных. Простота этого формата делает его подходящим для приложений, где важнее содержание текста, чем время, или где текст должен быть прочитан или обработан человеком или простой программой для обработки текста.
  5. output.vtt: VTT (Web Video Text Tracks) - это еще один формат файла субтитров, похожий на SRT, но с большим количеством функций. Это стандартный формат для титров тега HTML5 video и поддерживает стилизацию и позиционирование субтитров. Формат VTT особенно полезен для веб-видео-контента, так как позволяет создать более богатый просмотровый опыт с настраиваемыми субтитрами.

Каждый из этих файлов предназначен для различных сценариев использования, от простых текстовых документов до детального анализа или создания субтитров для видео, обеспечивая гибкость в использовании результатов транскрипции.

Резюме

В этом руководстве вы узнали, как использовать OpenAI Whisper для транскрипции содержимого медиафайлов в текст. Начав с основ, мы научились транскрибировать простой английский медиафайл. Затем мы перешли к изучению дополнительных функций для оптимизации процесса транскрипции, таких как выбор различных моделей и пакетная обработка. Whisper выделяется как универсальный инструмент для простой транскрипции широкого спектра медиафайлов.