Извлечение информации из текста

LinuxBeginner
Практиковаться сейчас

Введение

В этом проекте вы научитесь извлекать URL-адреса изображений из файлов Markdown с использованием Bash-скрипта. Это распространенная задача при работе с технической документацией, так как позволяет быстро определить и получить изображения, используемые в документе.

👀 Предварительный просмотр

$./getimage.sh labex_lab1.md
https://doc.shiyanlou.com/document-uid13labid292timestamp14677222211211.png
https://doc.shiyanlou.com/document-uid13labid292timestamp14672311234511.png
https://doc.shiyanlou.com/document-uid13labid292timestamp14677029556772.png

🎯 Задачи

В этом проекте вы научитесь:

  • Создавать Bash-скрипт для извлечения URL-адресов изображений из файла Markdown
  • Дать скрипту возможность выполняться и запускать его из командной строки
  • Настраивать скрипт для сохранения извлеченных URL-адресов в файл

🏆 Достижения

После завершения этого проекта вы сможете:

  • Автоматизировать процесс извлечения URL-адресов изображений из файлов Markdown
  • Включить этот скрипт в свой рабочий процесс при работе с технической документацией
  • Настраивать скрипт в соответствии с вашими конкретными потребностями и требованиями

Извлечение URL-адресов изображений из файла Markdown

В этом шаге вы научитесь извлекать все URL-адреса изображений из файла Markdown с использованием Bash-скрипта.

  1. Откройте текстовый редактор и создайте новый файл с именем getimage.sh.
  2. Добавьте в файл следующий код:
#!/bin/bash

## Extract image URL
image_urls=$(grep -o "\!\[.*]\(.*\)" "$1" | sed -E "s/(\!\[.*]\()(.+)(.*\))/\2/g")

## Print image URL
echo "$image_urls"

Этот скрипт использует команду grep для поиска всех строк в файле Markdown, содержащих ссылки на изображения, а затем использует команду sed для извлечения URL-адреса из каждой строки.

Запустите скрипт

Теперь, когда вы создали скрипт getimage.sh, вы можете запустить его, чтобы извлечь URL-адреса изображений из файла Markdown.

  1. Откройте терминал и перейдите в каталог, где вы сохранили скрипт getimage.sh.
  2. Запустите скрипт с путём к файлу Markdown в качестве аргумента:
./getimage.sh /home/labex/project/labex_lab1.md

Это выведет все найденные URL-адреса изображений в файле labex_lab1.md, по одному в строке.

Например, вывод может выглядеть так:

https://doc.shiyanlou.com/document-uid13labid292timestamp14677222211211.png
https://doc.shiyanlou.com/document-uid13labid292timestamp14672311234511.png
https://doc.shiyanlou.com/document-uid13labid292timestamp14677029556772.png

Резюме

Поздравляем! Вы завершили этот проект. Вы можете практиковаться в более многих лабораторных работах в LabEx, чтобы улучшить свои навыки.

✨ Проверить решение и практиковаться✨ Проверить решение и практиковаться