이제 텍스트 처리에 유용한 몇 가지 명령어를 배워보겠습니다. 시작하기 전에, 실습할 파일을 생성해 보겠습니다. 다음 명령어를 복사하여 붙여넣으세요. 붙여넣은 후, "lazy"와 "dog" 사이에 리터럴 TAB 문자를 추가해야 합니다 (종종 Ctrl-v 를 누른 다음 TAB 을 눌러 수행할 수 있습니다).
echo 'The quick brown; fox jumps over the lazy dog' > sample.txt
우리가 탐구할 첫 번째 명령어는 파일에서 텍스트 부분을 추출하는 cut입니다.
문자로 자르기 (Cutting by Character)
-c 플래그를 사용하여 문자 위치를 기준으로 내용을 추출할 수 있습니다.
cut -c 5 sample.txt
이 명령어는 파일의 각 줄에서 5 번째 문자를 출력합니다. 이 경우 출력은 "q"입니다. 공백도 문자로 계산된다는 점에 유의하세요.
cut f 를 사용한 필드별 자르기 (Cutting by Field with cut f)
더 강력한 기능은 필드별로 자르는 것입니다. -f 플래그를 사용하는 cut f 구문은 필드 위치를 기준으로 텍스트를 추출할 수 있게 해줍니다. 기본적으로 cut은 TAB 문자를 구분 기호로 사용하므로, TAB 으로 구분된 모든 것이 별도의 필드로 간주됩니다.
필드를 기준으로 f 를 자르는 방법을 살펴보겠습니다.
cut -f 2 sample.txt
"lazy"와 "dog" 사이에 TAB 을 삽입했으므로, 이 명령어는 "dog"를 두 번째 필드로 처리합니다. 출력은 "dog"여야 합니다.
사용자 지정 구분 기호 사용 (Using Custom Delimiters)
필드 플래그를 구분 기호 플래그 (-d) 와 결합하여 사용자 지정 구분 기호를 지정할 수도 있습니다. 이는 쉼표나 세미콜론과 같은 문자로 데이터를 구분하는 파일을 다룰 때 유용합니다.
cut -f 1 -d ";" sample.txt
이 명령어는 구분 기호를 TAB 에서 세미콜론 (";") 으로 변경합니다. 첫 번째 필드 (-f 1) 를 자르고 있으므로 결과는 "The quick brown"이 됩니다.