Linux 文字変換

LinuxLinuxBeginner
今すぐ練習

💡 このチュートリアルは英語版からAIによって翻訳されています。原文を確認するには、 ここをクリックしてください

はじめに

tr コマンドは、Linux における強力なテキスト操作ツールで、ユーザーが標準入力から文字を変換、削除、および圧縮することを可能にします。これは、大文字と小文字の変換、特定の文字の削除、またはテキストファイルの書式を標準化するなどのタスクに特に役立ちます。

この実験では、様々なテキスト操作タスクに tr コマンドを使用する方法を学びます。主に 3 つの機能を探索します。1 つの文字セットから別の文字セットへの文字の変換、不要な文字の削除、および繰り返し文字の圧縮です。これらのスキルは、Linux 環境における効率的なテキスト処理とデータクリーニングに不可欠です。

この実験の終了時には、tr コマンドを自信を持って使用して、必要に応じてテキストデータを変換できるようになり、テキスト処理タスクをより効率的かつ正確に行うことができるようになります。


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL linux(("Linux")) -.-> linux/BasicSystemCommandsGroup(["Basic System Commands"]) linux(("Linux")) -.-> linux/BasicFileOperationsGroup(["Basic File Operations"]) linux(("Linux")) -.-> linux/TextProcessingGroup(["Text Processing"]) linux/BasicSystemCommandsGroup -.-> linux/echo("Text Display") linux/BasicFileOperationsGroup -.-> linux/cat("File Concatenating") linux/TextProcessingGroup -.-> linux/tr("Character Translating") subgraph Lab Skills linux/echo -.-> lab-271411{{"Linux 文字変換"}} linux/cat -.-> lab-271411{{"Linux 文字変換"}} linux/tr -.-> lab-271411{{"Linux 文字変換"}} end

tr コマンドの基本を理解する

Linux の tr コマンドは、標準入力から文字を変換、削除、または圧縮し、結果を標準出力に書き出すために使用されます。このステップでは、tr コマンドの基本的な構文と、小文字を大文字に変換する方法を学びます。

tr の基本構文

tr コマンドの基本構文は次の通りです。

tr [OPTION]... SET1 [SET2]

ここで、

  • SET1 は変換または削除する文字のセットです。
  • SET2SET1 の文字を置き換える文字のセットです。

サンプルテキストファイルの作成

まず、練習用のサンプルテキストファイルを作成しましょう。LabEx VM でターミナルを開き、次のコマンドを実行します。

echo 'industrial revolution' > ~/project/sample.txt

このコマンドは、/home/labex/project ディレクトリに "industrial revolution" というテキストを含む sample.txt という名前の新しいファイルを作成します。

小文字を大文字に変換する

では、tr コマンドを使用して、すべての小文字を大文字に変換しましょう。

tr 'a-z' 'A-Z' < ~/project/sample.txt

このコマンドを実行すると、次の出力が表示されるはずです。

INDUSTRIAL REVOLUTION

コマンドの理解

何が起こったかを分解してみましょう。

  • tr 'a-z' 'A-Z' は、各小文字 (a-z) を対応する大文字 (A-Z) に置き換えるようにコマンドに指示します。
  • < 記号は、~/project/sample.txt の内容を tr コマンドの入力としてリダイレクトします。
  • 結果はターミナルに表示されますが、ファイルには保存されません。

出力を新しいファイルに保存する

変換されたテキストを新しいファイルに保存したい場合は、出力リダイレクトを使用できます。

tr 'a-z' 'A-Z' < ~/project/sample.txt > ~/project/uppercase_sample.txt

新しいファイルの内容を確認するには、cat コマンドを使用します。

cat ~/project/uppercase_sample.txt

次のように表示されるはずです。

INDUSTRIAL REVOLUTION

これで、tr コマンドの基本機能を使用して、テキストを小文字から大文字に変換する方法を成功裏に学びました。

tr を使った文字の削除

tr コマンドの強力な機能の 1 つは、テキストから特定の文字を削除する能力です。この機能は、データファイルのクリーニングや、テキストストリームから不要な文字を取り除く際に特に有用です。

tr の削除オプション

tr コマンドを使って文字を削除するには、-d オプションを使用し、その後に削除したい文字のセットを指定します。

tr -d SET1

ここで、SET1 は削除したい文字のセットです。

数字を含むサンプルテキストファイルの作成

練習に使える数字を含むテキストのサンプルファイルを作成しましょう。

echo 'Factory 1 Output: 100 units, Factory 2 Output: 150 units' > ~/project/factory_output.txt

このコマンドは、/home/labex/project ディレクトリに数字を含むテキストが記載された factory_output.txt という名前のファイルを作成します。

テキストから数字を削除する

では、-d オプションを使って tr コマンドを使用し、テキストからすべての数字を削除しましょう。

tr -d '0-9' < ~/project/factory_output.txt

このコマンドを実行すると、次の出力が表示されるはずです。

Factory  Output:  units, Factory  Output:  units

テキストからすべての数字 (1, 2, 100, 150) が削除されたことに注意してください。

コマンドの理解

何が起こったかを分解してみましょう。

  • tr -d '0-9' は、コマンドに対して 0 - 9 の範囲のすべての文字 (つまりすべての数字) を削除するよう指示します。
  • < 記号は、~/project/factory_output.txt の内容を tr コマンドの入力としてリダイレクトします。
  • 結果はターミナルに表示されますが、ファイルには保存されません。

出力を新しいファイルに保存する

数字のない出力を新しいファイルに保存したい場合は、出力リダイレクトを使用できます。

tr -d '0-9' < ~/project/factory_output.txt > ~/project/no_digits_output.txt

新しいファイルの内容を確認するには、cat コマンドを使用します。

cat ~/project/no_digits_output.txt

次のように表示されるはずです。

Factory  Output:  units, Factory  Output:  units

複数の文字セットを削除する

1 つのコマンドで複数種類の文字を削除することもできます。たとえば、数字と句読点の両方を削除してみましょう。

tr -d '0-9:,;' < ~/project/factory_output.txt

これにより、テキストからすべての数字 (0 - 9) と、コロン、コンマ、セミコロンが削除されます。

これで、Linux でのデータクリーニングやテキスト処理に役立つ、tr コマンドを使ってテキストから特定の文字を削除する方法を知りました。

tr を使った文字の圧縮

tr コマンドのもう 1 つの便利な機能は、繰り返される文字を「圧縮」する能力です。つまり、同じ文字の連続した出現を 1 つのインスタンスに置き換えます。この機能は、過度の空白やその他の繰り返される文字を含むテキストを扱う際に特に有用です。

tr の圧縮オプション

tr コマンドを使って繰り返される文字を圧縮するには、-s オプションを使用し、その後に圧縮したい文字のセットを指定します。

tr -s SET1

ここで、SET1 は圧縮したい文字のセットです。

過度の空白を含むサンプルテキストファイルの作成

練習に使える、過度の空白を含むサンプルファイルを作成しましょう。

echo 'Error:    Too much    whitespace.' > ~/project/whitespace.txt

このコマンドは、/home/labex/project ディレクトリに、複数の連続した空白を含むテキストが記載された whitespace.txt という名前のファイルを作成します。

テキスト内の空白を圧縮する

では、-s オプションを使って tr コマンドを使用し、複数の空白を 1 つの空白に圧縮しましょう。

tr -s ' ' < ~/project/whitespace.txt

このコマンドを実行すると、次の出力が表示されるはずです。

Error: Too much whitespace.

単語間の複数の空白が 1 つの空白に減らされ、テキストがより読みやすくなったことに注意してください。

コマンドの理解

何が起こったかを分解してみましょう。

  • tr -s ' ' は、コマンドに対して空白文字の繰り返される出現を 1 つの空白に圧縮するよう指示します。
  • < 記号は、~/project/whitespace.txt の内容を tr コマンドの入力としてリダイレクトします。
  • 結果はターミナルに表示されますが、ファイルには保存されません。

出力を新しいファイルに保存する

空白が圧縮されたテキストを新しいファイルに保存したい場合は、出力リダイレクトを使用できます。

tr -s ' ' < ~/project/whitespace.txt > ~/project/clean_whitespace.txt

新しいファイルの内容を確認するには、cat コマンドを使用します。

cat ~/project/clean_whitespace.txt

次のように表示されるはずです。

Error: Too much whitespace.

tr の操作を組み合わせる

tr コマンドでは、操作を組み合わせることができます。たとえば、1 つのコマンドで文字を変換し、同時に圧縮することができます。

tr 'a-z' 'A-Z' -s ' ' < ~/project/whitespace.txt

このコマンドは、すべての小文字を大文字に変換し、同時に複数の空白を 1 つの空白に圧縮します。

より複雑な例の作成

練習のために、より複雑な例を作成しましょう。

echo 'log     entry:   error   code  404   not     found' > ~/project/complex.txt

では、tr を使用してすべての文字を大文字に変換し、空白を圧縮しましょう。

tr 'a-z' 'A-Z' -s ' ' < ~/project/complex.txt > ~/project/processed_complex.txt

結果を確認するには、次のコマンドを実行します。

cat ~/project/processed_complex.txt

次のように表示されるはずです。

LOG ENTRY: ERROR CODE 404 NOT FOUND

これで、tr コマンドを使ってテキスト内の繰り返される文字を圧縮する方法を学びました。これは、以前に学んだ変換と削除の機能と組み合わせることで、Linux でのテキスト操作に強力なツールキットを提供します。

高度なテキスト変換のための tr 操作の組み合わせ

このステップでは、複数の tr 操作を組み合わせて、より高度なテキスト変換を行う方法を学びます。異なる操作を連鎖させる能力により、tr は複雑なテキスト処理タスクに対して汎用性の高いツールとなります。

サンプルデータファイルの作成

大文字と小文字のアルファベット、数字、特殊文字が混在したサンプルデータファイルを作成しましょう。

echo 'User123: John_Doe@example.com - Last Login: 2023-10-15' > ~/project/user_data.txt

このコマンドは、/home/labex/project ディレクトリにサンプルのユーザーレコードが記載された user_data.txt という名前の新しいファイルを作成します。

パイプを使用した複数の操作

複数の変換を行う方法の 1 つは、パイプを使用して tr コマンドを連鎖させることです。

cat ~/project/user_data.txt | tr 'A-Z' 'a-z' | tr -d '0-9' | tr -s ' '

このコマンドは以下のことを行います。

  1. すべての大文字を小文字に変換する
  2. すべての数字を削除する
  3. 連続する空白を 1 つの空白に圧縮する

出力は次のようになるはずです。

user: john_doe@example.com - last login: --

拡張文字クラスを使用した tr

tr コマンドは、特定の特殊文字クラスをサポートしており、これにより変換をより簡潔に行うことができます。一般的な文字クラスには以下のようなものがあります。

  • [:alnum:] - すべての文字と数字
  • [:alpha:] - すべての文字
  • [:digit:] - すべての数字
  • [:lower:] - すべての小文字
  • [:upper:] - すべての大文字
  • [:space:] - すべての空白文字

これらの文字クラスを使用して、ユーザーデータを変換しましょう。

tr '[:upper:]' '[:lower:]' < ~/project/user_data.txt > ~/project/lowercase_user_data.txt

このコマンドは、すべての大文字を小文字に変換し、結果を新しいファイルに保存します。

新しいファイルの内容を確認するには、次のコマンドを実行します。

cat ~/project/lowercase_user_data.txt

次のように表示されるはずです。

user123: john_doe@example.com - last login: 2023-10-15

包括的な例の作成

練習のために、より複雑なファイルを作成しましょう。

echo '  LOG   ENTRY:  Error-404   Page    Not    Found   (HTTP)  ' > ~/project/log_entry.txt

では、一度に複数の変換を行いましょう。

cat ~/project/log_entry.txt | tr '[:upper:]' '[:lower:]' | tr -d '-()' | tr -s ' ' > ~/project/transformed_log.txt

このコマンドは以下のことを行います。

  1. すべての大文字を小文字に変換する
  2. ハイフン、括弧を削除する
  3. 連続する空白を 1 つの空白に圧縮する

結果を確認するには、次のコマンドを実行します。

cat ~/project/transformed_log.txt

次のように表示されるはずです。

 log entry: error404 page not found http

先頭と末尾に空白が残っていることに注意してください。これらを削除するには、sedawk などの追加のツールが必要ですが、これはこの実験の範囲外です。

これで、複数の tr 操作を組み合わせて複雑なテキスト変換を行う方法を学びました。これにより、テキスト処理タスクをより効率的かつ効果的に行うことができます。

まとめ

この実験では、Linux でのテキスト操作に汎用性の高いツールである tr コマンドの使い方を学びました。主な 3 つの機能を探索しました。

  1. 文字変換: 小文字を大文字に変換するなど、ある文字セットから別の文字セットに文字を変換する方法を学びました。この機能は、テキスト形式を標準化し、データを正規化するのに役立ちます。

  2. 文字削除: -d オプションを使用して、テキストから特定の文字を削除する方法を発見しました。この機能は、不要な文字を削除してデータをクリーンアップするのに特に有用です。

  3. 文字圧縮: -s オプションを使用して、繰り返される文字を 1 つのインスタンスに圧縮する方法を探索しました。この機能は、過度の空白を含むテキストを扱うのに特に役立ちます。

  4. 操作の組み合わせ: 複数の tr 操作を組み合わせて、複雑なテキスト変換を効率的に行う方法を学びました。

これらのスキルは、Linux 環境でのテキスト処理の堅固な基礎を提供します。tr コマンドは強力なツールであり、grepsedawk などの他の Linux コマンドと組み合わせることで、さまざまなデータ処理タスクに対する高度なテキスト操作が可能になります。

tr コマンドを習得することで、将来のプロジェクトでテキストデータをより効率的かつ正確に扱うのに役立つ重要なツールが Linux のツールボックスに加わりました。