Information aus Text extrahieren

LinuxLinuxBeginner
Jetzt üben

💡 Dieser Artikel wurde von AI-Assistenten übersetzt. Um die englische Version anzuzeigen, können Sie hier klicken

Einführung

In diesem Projekt lernst du, wie du mithilfe eines Bash-Skripts die Bild-URLs aus Markdown-Dateien extrahierst. Dies ist eine häufige Aufgabe bei der Arbeit mit technischen Dokumentationen, da es dir ermöglicht, die in einem Dokument verwendeten Bilder schnell zu identifizieren und abzurufen.

👀 Vorschau

$./getimage.sh labex_lab1.md
https://doc.shiyanlou.com/document-uid13labid292timestamp14677222211211.png
https://doc.shiyanlou.com/document-uid13labid292timestamp14672311234511.png
https://doc.shiyanlou.com/document-uid13labid292timestamp14677029556772.png

🎯 Aufgaben

In diesem Projekt wirst du lernen:

  • Wie du ein Bash-Skript erstellst, um die Bild-URLs aus einer Markdown-Datei zu extrahieren
  • Wie du das Skript ausführbar machst und es von der Befehlszeile aus ausführst
  • Wie du das Skript anpassst, um die extrahierten URLs in eine Datei zu speichern

🏆 Errungenschaften

Nach Abschluss dieses Projekts wirst du in der Lage sein:

  • Den Prozess der Extraktion von Bild-URLs aus Markdown-Dateien zu automatisieren
  • Dieses Skript in deine Arbeitsweise bei der Arbeit mit technischen Dokumentationen aufzunehmen
  • Das Skript an deine spezifischen Bedürfnisse und Anforderungen anzupassen

Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL linux(("Linux")) -.-> linux/TextProcessingGroup(["Text Processing"]) linux(("Linux")) -.-> linux/BasicSystemCommandsGroup(["Basic System Commands"]) linux(("Linux")) -.-> linux/FileandDirectoryManagementGroup(["File and Directory Management"]) linux/BasicSystemCommandsGroup -.-> linux/echo("Text Display") linux/FileandDirectoryManagementGroup -.-> linux/cd("Directory Changing") linux/TextProcessingGroup -.-> linux/grep("Pattern Searching") linux/TextProcessingGroup -.-> linux/sed("Stream Editing") subgraph Lab Skills linux/echo -.-> lab-301469{{"Information aus Text extrahieren"}} linux/cd -.-> lab-301469{{"Information aus Text extrahieren"}} linux/grep -.-> lab-301469{{"Information aus Text extrahieren"}} linux/sed -.-> lab-301469{{"Information aus Text extrahieren"}} end

Bilder-URLs aus einer Markdown-Datei extrahieren

In diesem Schritt lernst du, wie du alle Bilder-URLs aus einer Markdown-Datei mithilfe eines Bash-Skripts extrahierst.

  1. Öffne einen Texteditor und erstelle eine neue Datei namens getimage.sh.
  2. Füge den folgenden Code zur Datei hinzu:
#!/bin/bash

## Extrahiere die Bild-URL
image_urls=$(grep -o "\!\[.*]\(.*\)" "$1" | sed -E "s/(\!\[.*]\()(.+)(.*\))/\2/g")

## Drucke die Bild-URL
echo "$image_urls"

Dieses Skript verwendet den Befehl grep, um alle Zeilen in der Markdown-Datei zu finden, die Bildverweise enthalten, und verwendet dann den Befehl sed, um die URL aus jeder Zeile zu extrahieren.

Führe das Skript aus

Jetzt, nachdem du das Skript getimage.sh erstellt hast, kannst du es ausführen, um die Bild-URLs aus einer Markdown-Datei zu extrahieren.

  1. Öffne ein Terminal und navigiere zum Verzeichnis, in dem du das Skript getimage.sh gespeichert hast.
  2. Führe das Skript mit dem Pfad zur Markdown-Datei als Argument aus:
./getimage.sh /home/labex/project/labex_lab1.md

Dies wird alle gefundenen Bild-URLs in der Datei labex_lab1.md ausgeben, eine pro Zeile.

Zum Beispiel könnte die Ausgabe so aussehen:

https://doc.shiyanlou.com/document-uid13labid292timestamp14677222211211.png
https://doc.shiyanlou.com/document-uid13labid292timestamp14672311234511.png
https://doc.shiyanlou.com/document-uid13labid292timestamp14677029556772.png
✨ Lösung prüfen und üben

Zusammenfassung

Herzlichen Glückwunsch! Du hast dieses Projekt abgeschlossen. Du kannst in LabEx weitere Labs absolvieren, um deine Fähigkeiten zu verbessern.