소개
오늘날 데이터 중심의 세상에서 대규모 데이터셋으로부터 특정 정보를 효율적으로 추출하는 능력은 매우 중요합니다. 빠르게 성장하는 전자상거래 기업의 데이터 분석가인 Bob은 방대한 고객 로그를 샅샅이 뒤져 가치 있는 통찰을 찾아내야 하는 흔한 과제에 직면했습니다. 로그에는 고객 ID와 거래 금액을 나타내는 숫자 데이터와 이메일 주소, 그리고 기타 잡다한 정보가 섞여 있습니다.
이번 챌린지에서 여러분은 Bob의 역할을 맡아 정규 표현식을 사용하여 이 중요한 정보를 추출하고 정리하게 됩니다. 이 작업은 회사의 고객 관계 관리 및 매출 분석 업무에 필수적입니다. 이러한 기술을 마스터하면 Bob을 도울 수 있을 뿐만 아니라, 기술 분야 전반에 걸쳐 활용 가능한 강력한 데이터 조작 기법을 습득하게 될 것입니다.
데이터 추출
Bob은 회사의 일일 로그 파일에서 숫자 데이터와 이메일 주소를 분리해야 합니다. 여러분의 과제는 정규 표현식을 사용하여 /home/labex/project/data 파일에서 이 정보를 추출하는 것입니다.
작업
- 숫자로 시작하는 행을 찾아 그 결과를
/home/labex/project/num파일에 저장하세요. - 올바른 이메일 주소 형식을 찾아 그 결과를
/home/labex/project/mail파일에 저장하세요.
요구 사항
- 이메일 주소 형식은 다양할 수 있으므로 주의하세요(예:
@gmail.com,@company.co.uk). - 특수 문자, 특히 점(
.) 처리에 주의하세요. data파일의 내용은 수정하지 마세요.
예시
num 파일의 내용:
123
456
789
...
mail 파일의 내용:
2133131@gmail.com
3312313213@gmail.com
testfile@outlook.com
...
요약
축하합니다! 챌린지를 성공적으로 완료하셨습니다. grep 명령어와 정규 표현식을 사용하여 파일에서 특정 데이터를 추출하는 방법을 배웠습니다. 이 기술은 다양한 프로그래밍 및 시스템 관리 작업에서 데이터 파싱과 분석을 수행하는 데 매우 중요합니다. 실제 업무 환경에서 이러한 기술은 데이터 처리 워크플로우를 크게 간소화하여 데이터 분석 프로젝트의 시간과 정확도를 개선하는 데 기여할 것입니다.



