텍스트에서 정보 추출하기

LinuxBeginner
지금 연습하기

소개

이 프로젝트에서는 Bash 스크립트를 사용하여 Markdown 파일에서 이미지 URL 을 추출하는 방법을 배우게 됩니다. 이는 기술 문서를 다룰 때 흔히 발생하는 작업으로, 문서에 사용된 이미지를 빠르게 식별하고 검색할 수 있도록 해줍니다.

👀 미리보기

$ ./getimage.sh labex_lab1.md
https://doc.shiyanlou.com/document-uid13labid292timestamp14677222211211.png
https://doc.shiyanlou.com/document-uid13labid292timestamp14672311234511.png
https://doc.shiyanlou.com/document-uid13labid292timestamp14677029556772.png

🎯 과제

이 프로젝트에서는 다음을 배우게 됩니다:

  • Markdown 파일에서 이미지 URL 을 추출하는 Bash 스크립트를 만드는 방법
  • 스크립트를 실행 가능하게 만들고 명령줄에서 실행하는 방법
  • 추출된 URL 을 파일에 저장하도록 스크립트를 사용자 정의하는 방법

🏆 성과

이 프로젝트를 완료하면 다음을 수행할 수 있습니다:

  • Markdown 파일에서 이미지 URL 을 추출하는 프로세스를 자동화할 수 있습니다.
  • 기술 문서를 다룰 때 이 스크립트를 워크플로우에 통합할 수 있습니다.
  • 특정 요구 사항에 맞게 스크립트를 사용자 정의할 수 있습니다.

Markdown 파일에서 이미지 URL 추출

이 단계에서는 Bash 스크립트를 사용하여 Markdown 파일에서 모든 이미지 URL 을 추출하는 방법을 배우게 됩니다.

  1. 텍스트 편집기를 열고 getimage.sh라는 새 파일을 만듭니다.
  2. 파일에 다음 코드를 추가합니다:
#!/bin/bash

## Extract image URL
image_urls=$(grep -o "\!\[.*]\(.*\)" "$1" | sed -E "s/(\!\[.*]\()(.+)(.*\))/\2/g")

## Print image URL
echo "$image_urls"

이 스크립트는 grep 명령을 사용하여 이미지 링크를 포함하는 Markdown 파일의 모든 줄을 찾은 다음, sed 명령을 사용하여 각 줄에서 URL 을 추출합니다.

스크립트 실행

getimage.sh 스크립트를 만들었으므로, 이제 Markdown 파일에서 이미지 URL 을 추출하기 위해 실행할 수 있습니다.

  1. 터미널을 열고 getimage.sh 스크립트를 저장한 디렉토리로 이동합니다.
  2. Markdown 파일의 경로를 인수로 사용하여 스크립트를 실행합니다:
./getimage.sh /home/labex/project/labex_lab1.md

이렇게 하면 labex_lab1.md 파일에서 발견된 모든 이미지 URL 이 한 줄에 하나씩 출력됩니다.

예를 들어, 출력 결과는 다음과 같을 수 있습니다:

https://doc.shiyanlou.com/document-uid13labid292timestamp14677222211211.png
https://doc.shiyanlou.com/document-uid13labid292timestamp14672311234511.png
https://doc.shiyanlou.com/document-uid13labid292timestamp14677029556772.png

요약

축하합니다! 이 프로젝트를 완료했습니다. LabEx 에서 더 많은 랩을 연습하여 기술을 향상시킬 수 있습니다.

✨ 솔루션 확인 및 연습✨ 솔루션 확인 및 연습