Extracción de Información del Texto

LinuxBeginner
Practicar Ahora

Introducción

En este proyecto, aprenderás a extraer URLs de imágenes de archivos Markdown utilizando un script de Bash. Esta es una tarea común al trabajar con documentación técnica, ya que te permite identificar y recuperar rápidamente las imágenes utilizadas en un documento.

👀 Vista previa

$./getimage.sh labex_lab1.md
https://doc.shiyanlou.com/document-uid13labid292timestamp14677222211211.png
https://doc.shiyanlou.com/document-uid13labid292timestamp14672311234511.png
https://doc.shiyanlou.com/document-uid13labid292timestamp14677029556772.png

🎯 Tareas

En este proyecto, aprenderás:

  • Cómo crear un script de Bash para extraer URLs de imágenes de un archivo Markdown
  • Cómo hacer que el script sea ejecutable y lo ejecutes desde la línea de comandos
  • Cómo personalizar el script para guardar las URLs extraídas en un archivo

🏆 Logros

Después de completar este proyecto, podrás:

  • Automatizar el proceso de extracción de URLs de imágenes de archivos Markdown
  • Incorporar este script en tu flujo de trabajo al trabajar con documentación técnica
  • Personalizar el script para adaptarlo a tus necesidades y requisitos específicos

Extraer URLs de imágenes de un archivo Markdown

En este paso, aprenderás a extraer todas las URLs de imágenes de un archivo Markdown utilizando un script de Bash.

  1. Abre un editor de texto y crea un nuevo archivo llamado getimage.sh.
  2. Agrega el siguiente código al archivo:
#!/bin/bash

## Extraer URL de imagen
image_urls=$(grep -o "\!\[.*]\(.*\)" "$1" | sed -E "s/(\!\[.*]\()(.+)(.*\))/\2/g")

## Imprimir URL de imagen
echo "$image_urls"

Este script utiliza el comando grep para encontrar todas las líneas en el archivo Markdown que contienen enlaces a imágenes, y luego utiliza el comando sed para extraer la URL de cada línea.

Ejecutar el script

Ahora que has creado el script getimage.sh, puedes ejecutarlo para extraer las URLs de imágenes de un archivo Markdown.

  1. Abre una terminal y navega hasta el directorio donde guardaste el script getimage.sh.
  2. Ejecuta el script con la ruta al archivo Markdown como argumento:
./getimage.sh /home/labex/project/labex_lab1.md

Esto imprimirá todas las URLs de imágenes encontradas en el archivo labex_lab1.md, una por línea.

Por ejemplo, la salida podría ser así:

https://doc.shiyanlou.com/document-uid13labid292timestamp14677222211211.png
https://doc.shiyanlou.com/document-uid13labid292timestamp14672311234511.png
https://doc.shiyanlou.com/document-uid13labid292timestamp14677029556772.png

Resumen

¡Felicidades! Has completado este proyecto. Puedes practicar más laboratorios en LabEx para mejorar tus habilidades.

✨ Revisar Solución y Practicar✨ Revisar Solución y Practicar