介绍
OpenAI Whisper 擅长将各种媒体文件(包括音频和视频)中的语音转换为书面文本。本教程将引导你了解 Whisper 命令的基本和更高级的用法,帮助你实现高精度的转录。

这是一个实验(Guided Lab),提供逐步指导来帮助你学习和实践。请仔细按照说明完成每个步骤,获得实际操作经验。根据历史数据,这是一个 初级 级别的实验,完成率为 93%。获得了学习者 97% 的好评率。
OpenAI Whisper 擅长将各种媒体文件(包括音频和视频)中的语音转换为书面文本。本教程将引导你了解 Whisper 命令的基本和更高级的用法,帮助你实现高精度的转录。

在 /home/labex/project 目录下有一个音频文件 labex.mp3,在环境中打开终端(图中的 ① 或 ②)并输入以下命令:
whisper labex.mp3 --language English --model tiny.en
在这个命令中,whisper 被指示转录媒体文件 labex.mp3。
--language 参数设置为 English,表示媒体中的语言为英语。--model 选项选择要使用的 Whisper 模型,tiny.en 是一个更小、更快的模型,专为英语优化,适合快速任务或性能较低的硬件。
执行 Whisper 命令转录媒体内容后,会在 /home/labex/project 目录下生成多个文件,每个文件以不同的格式和用途保存转录文本。以下是每种文件类型的概述:
output.tsv 文件可能包含转录文本以及时间信息和置信度分数,字段之间用制表符分隔。这种格式适用于数据分析任务或将转录结果导入数据库或电子表格。这些文件各自服务于不同的用例,从简单的文本文档到详细的分析或视频字幕,提供了转录结果利用的灵活性。
本教程引导你使用 OpenAI Whisper 将媒体文件中的内容转录为文本。从基础开始,我们学习了如何转录一个简单的英语媒体文件。随后,我们进一步探索了优化转录过程的其他功能,例如选择不同的模型和批量处理。Whisper 作为一个多功能工具,能够轻松转录各种媒体文件,表现出色。