Extraction d'informations à partir de texte

LinuxLinuxBeginner
Pratiquer maintenant

💡 Ce tutoriel est traduit par l'IA à partir de la version anglaise. Pour voir la version originale, vous pouvez cliquer ici

Introduction

Dans ce projet, vous allez apprendre à extraire les URL d'images à partir de fichiers Markdown à l'aide d'un script Bash. C'est une tâche courante lorsqu'on travaille avec des documents techniques, car cela vous permet d'identifier rapidement et de récupérer les images utilisées dans un document.

👀 Aperçu

$./getimage.sh labex_lab1.md
https://doc.shiyanlou.com/document-uid13labid292timestamp14677222211211.png
https://doc.shiyanlou.com/document-uid13labid292timestamp14672311234511.png
https://doc.shiyanlou.com/document-uid13labid292timestamp14677029556772.png

🎯 Tâches

Dans ce projet, vous allez apprendre :

  • Comment créer un script Bash pour extraire les URL d'images à partir d'un fichier Markdown
  • Comment rendre le script exécutable et le lancer à partir de la ligne de commande
  • Comment personnaliser le script pour enregistrer les URL extraites dans un fichier

🏆 Réalisations

Après avoir terminé ce projet, vous serez capable de :

  • Automatiquer le processus d'extraction des URL d'images à partir de fichiers Markdown
  • Intégrer ce script dans votre flux de travail lorsqu'on travaille avec des documents techniques
  • Personnaliser le script pour répondre à vos besoins et exigences spécifiques

Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL linux(("Linux")) -.-> linux/BasicSystemCommandsGroup(["Basic System Commands"]) linux(("Linux")) -.-> linux/FileandDirectoryManagementGroup(["File and Directory Management"]) linux(("Linux")) -.-> linux/TextProcessingGroup(["Text Processing"]) linux/BasicSystemCommandsGroup -.-> linux/echo("Text Display") linux/FileandDirectoryManagementGroup -.-> linux/cd("Directory Changing") linux/TextProcessingGroup -.-> linux/grep("Pattern Searching") linux/TextProcessingGroup -.-> linux/sed("Stream Editing") subgraph Lab Skills linux/echo -.-> lab-301469{{"Extraction d'informations à partir de texte"}} linux/cd -.-> lab-301469{{"Extraction d'informations à partir de texte"}} linux/grep -.-> lab-301469{{"Extraction d'informations à partir de texte"}} linux/sed -.-> lab-301469{{"Extraction d'informations à partir de texte"}} end

Extraire les URL d'images à partir d'un fichier Markdown

Dans cette étape, vous allez apprendre à extraire toutes les URL d'images à partir d'un fichier Markdown à l'aide d'un script Bash.

  1. Ouvrez un éditeur de texte et créez un nouveau fichier nommé getimage.sh.
  2. Ajoutez le code suivant au fichier :
#!/bin/bash

## Extract image URL
image_urls=$(grep -o "\!\[.*]\(.*\)" "$1" | sed -E "s/(\!\[.*]\()(.+)(.*\))/\2/g")

## Print image URL
echo "$image_urls"

Ce script utilise la commande grep pour trouver toutes les lignes dans le fichier Markdown qui contiennent des liens d'images, puis utilise la commande sed pour extraire l'URL de chaque ligne.

Exécuter le script

Maintenant que vous avez créé le script getimage.sh, vous pouvez l'exécuter pour extraire les URL d'images à partir d'un fichier Markdown.

  1. Ouvrez un terminal et accédez au répertoire où vous avez enregistré le script getimage.sh.
  2. Exécutez le script avec le chemin vers le fichier Markdown en tant qu'argument :
./getimage.sh /home/labex/project/labex_lab1.md

Cela affichera toutes les URL d'images trouvées dans le fichier labex_lab1.md, une par ligne.

Par exemple, la sortie pourrait ressembler à ceci :

https://doc.shiyanlou.com/document-uid13labid292timestamp14677222211211.png
https://doc.shiyanlou.com/document-uid13labid292timestamp14672311234511.png
https://doc.shiyanlou.com/document-uid13labid292timestamp14677029556772.png
✨ Vérifier la solution et pratiquer

Sommaire

Félicitations ! Vous avez terminé ce projet. Vous pouvez pratiquer d'autres laboratoires dans LabEx pour améliorer vos compétences.