Transcrire des médias en texte avec Whisper

LinuxLinuxBeginner
Pratiquer maintenant

💡 Ce tutoriel est traduit par l'IA à partir de la version anglaise. Pour voir la version originale, vous pouvez cliquer ici

Introduction

OpenAI Whisper est particulièrement performant pour convertir la parole contenue dans divers fichiers multimédias, qu'il s'agisse de fichiers audio ou vidéo, en texte écrit. Ce tutoriel vous guidera à travers les utilisations essentielles et les plus sophistiquées de la commande Whisper, vous permettant d'obtenir des transcriptions de haute précision.

Interface de transcription Whisper

Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL linux(("Linux")) -.-> linux/BasicFileOperationsGroup(["Basic File Operations"]) linux/BasicFileOperationsGroup -.-> linux/ls("Content Listing") linux/BasicFileOperationsGroup -.-> linux/cat("File Concatenating") subgraph Lab Skills linux/ls -.-> lab-289658{{"Transcrire des médias en texte avec Whisper"}} linux/cat -.-> lab-289658{{"Transcrire des médias en texte avec Whisper"}} end

Maîtriser Whisper pour la transcription multimédia

Il y a un fichier audio labex.mp3 dans /home/labex/project. Ouvrez le terminal (① ou ② dans la figure) dans l'environnement et entrez la commande suivante :

whisper labex.mp3 --language English --model tiny.en

Dans cette commande, whisper est chargé de transcrire le fichier multimédia labex.mp3.

  • Le paramètre --language est défini sur English, indiquant la langue parlée dans le média.
  • L'option --model permet de sélectionner le modèle Whisper à utiliser. tiny.en est un modèle plus petit et plus rapide, optimisé pour l'anglais, qui convient aux tâches rapides ou aux matériels moins puissants.
Exemple de terminal avec la commande Whisper

Après avoir exécuté la commande Whisper pour transcrire le contenu multimédia, plusieurs fichiers peuvent être générés dans /home/labex/project, chacun ayant un objectif et un format distincts pour le texte transcrit. Voici un aperçu de chaque type de fichier :

  1. output.json : Ce fichier contient les résultats de transcription détaillés au format JSON, qui est un format d'échange de données léger, facile à lire et à écrire pour les humains et facile à analyser et à générer pour les machines. Le fichier JSON inclut non seulement le texte transcrit, mais également des métadonnées supplémentaires telles que les horodatages, les scores de confiance et éventuellement l'identification de l'orateur. Ce format est particulièrement utile pour les applications qui nécessitent un traitement ou une analyse détaillée des résultats de transcription, comme la génération de sous-titres avec un timing précis ou l'analyse des modèles de parole.
  2. output.srt : Le format de fichier SRT (SubRip Subtitle) est utilisé pour représenter les sous-titres ou les légendes. Chaque entrée dans un fichier SRT se compose d'un numéro de séquence, de la plage de temps pendant laquelle le texte doit être affiché et du texte lui-même. Les fichiers SRT sont largement pris en charge par les logiciels et les plateformes de lecture vidéo, ce qui en fait le format idéal pour ajouter des sous-titres aux vidéos.
  3. output.tsv : TSV signifie Tab-Separated Values (Valeurs séparées par des tabulations). Ce format est similaire au CSV (Comma-Separated Values, Valeurs séparées par des virgules), mais utilise des tabulations comme délimiteurs entre les champs de données. Un fichier output.tsv généré par Whisper peut contenir le texte transcrit ainsi que des informations de timing et des scores de confiance, séparés par des tabulations. Ce format peut être utile pour les tâches d'analyse de données ou pour importer les résultats de transcription dans des bases de données ou des tableurs.
  4. output.txt : Il s'agit d'un fichier texte brut contenant uniquement le texte transcrit, sans horodatages ni métadonnées. La simplicité de ce format le rend adapté aux applications où le contenu du texte est plus important que le timing, ou où le texte doit être lu ou traité par des humains ou des logiciels de traitement de texte de base.
  5. output.vtt : VTT (Web Video Text Tracks) est un autre format de fichier de sous-titres similaire au SRT, mais avec plus de fonctionnalités. C'est le format standard pour les légendes de la balise vidéo HTML5 et il prend en charge le style et le positionnement des sous-titres. Le format VTT est particulièrement utile pour le contenu vidéo web, car il permet une expérience de visionnage plus riche avec des sous-titres personnalisables.

Chacun de ces fichiers répond à différents cas d'utilisation, allant des documents texte simples aux analyses détaillées ou à la sous-titrage vidéo, offrant ainsi une grande flexibilité dans l'utilisation des résultats de transcription.

Résumé

Ce tutoriel vous a guidé à travers l'utilisation d'OpenAI Whisper pour transcrire le contenu de fichiers multimédias en texte. En commençant par les bases, nous avons appris à transcrire un simple fichier multimédia en anglais. Nous avons ensuite progressé pour explorer des fonctionnalités supplémentaires permettant d'optimiser le processus de transcription, comme le choix de différents modèles et le traitement par lots. Whisper se distingue comme un outil polyvalent permettant de transcrire facilement une grande variété de fichiers multimédias.