从文本中提取信息

LinuxBeginner
立即练习

介绍

在这个项目中,你将学习如何使用 Bash 脚本从 Markdown 文件中提取图像 URL。在处理技术文档时,这是一项常见的任务,因为它能让你快速识别和获取文档中使用的图像。

👀 预览

$./getimage.sh labex_lab1.md
https://doc.shiyanlou.com/document-uid13labid292timestamp14677222211211.png
https://doc.shiyanlou.com/document-uid13labid292timestamp14672311234511.png
https://doc.shiyanlou.com/document-uid13labid292timestamp14677029556772.png

🎯 任务

在这个项目中,你将学习:

  • 如何创建一个 Bash 脚本,从 Markdown 文件中提取图像 URL
  • 如何使脚本可执行并从命令行运行它
  • 如何定制脚本,将提取的 URL 保存到文件中

🏆 成果

完成这个项目后,你将能够:

  • 自动化从 Markdown 文件中提取图像 URL 的过程
  • 在处理技术文档时,将这个脚本纳入你的工作流程
  • 根据你的特定需求定制脚本

从 Markdown 文件中提取图像 URL

在这一步中,你将学习如何使用 Bash 脚本从 Markdown 文件中提取所有图像 URL。

  1. 打开一个文本编辑器,创建一个名为getimage.sh的新文件。
  2. 将以下代码添加到文件中:
#!/bin/bash

## 提取图像URL
image_urls=$(grep -o "\!\[.*]\(.*\)" "$1" | sed -E "s/(\!\[.*]\()(.+)(.*\))/\2/g")

## 打印图像URL
echo "$image_urls"

此脚本使用grep命令查找 Markdown 文件中所有包含图像链接的行,然后使用sed命令从每行中提取 URL。

运行脚本

既然你已经创建了getimage.sh脚本,就可以运行它来从 Markdown 文件中提取图像 URL 了。

  1. 打开一个终端,导航到保存getimage.sh脚本的目录。
  2. 以 Markdown 文件的路径作为参数运行脚本:
./getimage.sh /home/labex/project/labex_lab1.md

这将输出在labex_lab1.md文件中找到的所有图像 URL,每行一个。

例如,输出可能如下所示:

https://doc.shiyanlou.com/document-uid13labid292timestamp14677222211211.png
https://doc.shiyanlou.com/document-uid13labid292timestamp14672311234511.png
https://doc.shiyanlou.com/document-uid13labid292timestamp14677029556772.png

总结

恭喜你!你已经完成了这个项目。你可以在 LabEx 中练习更多实验来提升你的技能。

✨ 查看解决方案并练习✨ 查看解决方案并练习