テキストからの情報抽出

LinuxBeginner
オンラインで実践に進む

はじめに

このプロジェクトでは、Bash スクリプトを使って Markdown ファイルから画像の URL を抽出する方法を学びます。これは、技術文書を扱う際の一般的なタスクであり、文書に使用されている画像を迅速に識別して取得することができます。

👀 プレビュー

$./getimage.sh labex_lab1.md
https://doc.shiyanlou.com/document-uid13labid292timestamp14677222211211.png
https://doc.shiyanlou.com/document-uid13labid292timestamp14672311234511.png
https://doc.shiyanlou.com/document-uid13labid292timestamp14677029556772.png

🎯 タスク

このプロジェクトでは、以下のことを学びます。

  • Markdown ファイルから画像の URL を抽出するための Bash スクリプトを作成する方法
  • スクリプトを実行可能にしてコマンドラインから実行する方法
  • 抽出した URL をファイルに保存するようにスクリプトをカスタマイズする方法

🏆 成果

このプロジェクトを完了すると、以下のことができるようになります。

  • Markdown ファイルから画像の URL を抽出するプロセスを自動化する
  • 技術文書を扱う際にこのスクリプトをワークフローに組み込む
  • 独自のニーズや要件に合わせてスクリプトをカスタマイズする

Markdown ファイルから画像 URL を抽出する

このステップでは、Bash スクリプトを使って Markdown ファイルからすべての画像 URL を抽出する方法を学びます。

  1. テキストエディタを開き、getimage.sh という名前の新しいファイルを作成します。
  2. 次のコードをファイルに追加します。
#!/bin/bash

## Extract image URL
image_urls=$(grep -o "\!\[.*]\(.*\)" "$1" | sed -E "s/(\!\[.*]\()(.+)(.*\))/\2/g")

## Print image URL
echo "$image_urls"

このスクリプトは、grep コマンドを使って Markdown ファイル内の画像リンクを含むすべての行を見つけ、その後 sed コマンドを使って各行から URL を抽出します。

スクリプトを実行する

これで getimage.sh スクリプトを作成したので、Markdown ファイルから画像 URL を抽出するためにそれを実行できます。

  1. ターミナルを開き、getimage.sh スクリプトを保存したディレクトリに移動します。
  2. Markdown ファイルのパスを引数としてスクリプトを実行します。
./getimage.sh /home/labex/project/labex_lab1.md

これにより、labex_lab1.md ファイルに見つかったすべての画像 URL が 1 行に 1 つずつ出力されます。

たとえば、出力は次のようになるかもしれません。

https://doc.shiyanlou.com/document-uid13labid292timestamp14677222211211.png
https://doc.shiyanlou.com/document-uid13labid292timestamp14672311234511.png
https://doc.shiyanlou.com/document-uid13labid292timestamp14677029556772.png

まとめ

おめでとうございます!このプロジェクトを完了しました。実力を向上させるために、LabEx でさらに多くの実験を行って練習してください。

✨ 解答を確認して練習✨ 解答を確認して練習