Linux tr 命令:字符转换

LinuxBeginner
立即练习

简介

在本实验中,我们将探索 Linux 中的 tr 命令,这是一个用于在字符级别转换文本的多功能工具。tr 是“translate”(转换)的缩写,广泛用于转换大小写、删除特定字符以及基础数据清洗等任务。通过本实验,你将熟练掌握 tr 在各种文本操作场景下的应用。本实验专为初学者设计,如果你对 Linux 命令感到陌生也不必担心,我们将引导你完成每一个步骤。

理解 tr 的基础知识

首先,让我们了解 tr 命令的基本语法:

tr [OPTION]... SET1 [SET2]

tr 命令从标准输入(stdin)读取文本,根据指定的选项和字符集进行转换,并将结果写入标准输出(stdout)。

让我们从一个简单的例子开始。我们将创建一个名为 greeting.txt 的文件,其中包含一条简单的问候语,然后使用 tr 将所有小写字母转换为大写。

首先,创建文件:

echo "hello, world" > ~/project/greeting.txt

提示:你可以将文件创建命令复制并粘贴到终端中,以正确创建文件。

此命令会在你的项目目录(~/project/)中创建一个名为 greeting.txt 的新文件,内容为 "hello, world"。

现在,使用 tr 将所有小写字母转换为大写:

cat ~/project/greeting.txt | tr 'a-z' 'A-Z'

你应该会看到以下输出:

HELLO, WORLD

让我们拆解一下这个命令:

  1. cat ~/project/greeting.txt:读取文件内容。
  2. |:这是管道符号。它将左侧命令的输出作为输入传递给右侧的命令。
  3. tr 'a-z' 'A-Z':这是我们的 tr 命令。它将第一个集合('a-z',代表所有小写字母)中的每个字符转换为第二个集合('A-Z',代表所有大写字母)中的对应字符。

请注意,此命令不会修改原始文件。如果你想保存转换后的文本,需要将输出重定向到一个新文件。

使用 tr 删除字符

tr 命令还可以从输入中删除特定字符。当你需要通过移除不需要的字符来清理文本时,这非常有用。让我们创建一个包含标点符号的文件,然后将其删除。

首先,创建一个包含标点符号的文件:

echo "Hello, World! How are you?" > ~/project/punctuated.txt

提示:你可以将文件创建命令复制并粘贴到终端中,以正确创建文件。

现在,使用 tr 删除所有标点符号:

cat ~/project/punctuated.txt | tr -d '[:punct:]'

你应该会看到:

Hello World How are you

让我们拆解一下这个命令:

  1. cat ~/project/punctuated.txt:读取文件内容。
  2. |:将输出通过管道传递给 tr 命令。
  3. tr -d '[:punct:]'
    • -d 选项告诉 tr 删除指定的字符。
    • [:punct:] 是一个字符集,代表所有标点符号。字符集是预定义的字符集合,可以更方便地指定一组字符。

此命令会从文本中删除所有标点符号,只保留字母、数字和空格。

转换多个字符

现在让我们探索更复杂的转换。我们将创建一个包含编码文本的文件,并使用 tr 对其进行解码。这个例子展示了 tr 如何用于简单的加密和解密。

首先,创建一个包含编码文本的文件:

echo "Uijt jt b tfdsfu nfttbhf." > ~/project/encoded.txt

提示:你可以将文件创建命令复制并粘贴到终端中,以正确创建文件。

现在,对其进行解码:

cat ~/project/encoded.txt | tr 'b-zaB-ZA' 'a-zA-Z'

你应该会看到:

This is a secret message.

让我们拆解一下这个命令:

  1. cat ~/project/encoded.txt:读取编码文件的内容。
  2. |:将输出通过管道传递给 tr 命令。
  3. tr 'b-zaB-ZA' 'a-zA-Z'
    • 第一个集合 b-zaB-ZA 结合了两个偏移后的字母表:
      • b-za:小写字母 b 到 z,后面跟着 a
      • B-ZA:大写字母 B 到 Z,后面跟着 A
    • 它们共同覆盖了每个需要向后偏移一位的字母。
    • 第二个集合 a-zA-Z 是:小写字母 a 到 z,后面跟着大写字母 A 到 Z。
    • 这创建了一个映射,其中第一个集合中的每个字母都被第二个集合中的对应字母替换:
      • b(第一个集合的第 1 个)→ a(第二个集合的第 1 个)
      • c(第一个集合的第 2 个)→ b(第二个集合的第 2 个)
      • ...
      • a(第一个集合的第 26 个)→ z(第二个集合的第 26 个)
      • B(第一个集合的第 27 个)→ A(第二个集合的第 27 个)
      • ...
      • A(第一个集合的第 52 个)→ Z(第二个集合的第 52 个)
    • 这有效地将输入中的每个字母在字母表中向后移动了一位(对于大小写字母均适用),从而正确地解码了消息。

这种替换方式是一种非常简单的加密形式,称为凯撒密码。虽然它在实际应用中并不安全,但它是展示 tr 如何进行逐字符替换的一个极佳示例。

在 tr 中使用字符集

tr 命令支持各种字符集,即预定义的字符集合。这些对于更复杂的文本转换非常有用。让我们在实际场景中使用它们。

首先,创建一个包含混合内容的文件:

echo "User123 logged in at 09:45 AM on 2023-08-15" > ~/project/log_entry.txt

提示:你可以将文件创建命令复制并粘贴到终端中,以正确创建文件。

现在,从该日志条目中仅提取数字:

cat ~/project/log_entry.txt | tr -cd '[:digit:]'

你应该会看到:

12309452023815

让我们拆解一下这个命令:

  1. cat ~/project/log_entry.txt:读取日志文件内容。
  2. |:将输出通过管道传递给 tr 命令。
  3. tr -cd '[:digit:]'
    • -c 选项表示对集合取补集(即“不在该集合中”)。
    • -d 选项删除指定的字符。
    • [:digit:] 是一个代表所有数字(0-9)的字符集。
    • 合起来,-cd '[:digit:]' 的意思是“删除所有非数字字符”。

此命令对于从混合文本中提取数值数据非常有用,在日志分析或数据清洗任务中很有帮助。

使用 tr 压缩重复字符

tr 命令还可以将重复的字符“压缩”为单个字符。这对于清理包含不必要重复项的数据非常有用。让我们创建一个包含重复字符的文件,然后对其进行清理。

首先,创建一个包含重复空格的文件:

echo "This    is    a    test    with    extra    spaces." > ~/project/spaced.txt

提示:你可以将文件创建命令复制并粘贴到终端中,以正确创建文件。

现在,使用 tr 压缩重复的空格:

cat ~/project/spaced.txt | tr -s ' '

你应该会看到:

This is a test with extra spaces.

让我们拆解一下这个命令:

  1. cat ~/project/spaced.txt:读取包含多余空格的文件内容。
  2. |:将输出通过管道传递给 tr 命令。
  3. tr -s ' '
    • -s 选项将指定字符的重复项压缩为单个字符。
    • ' ' 指定我们要压缩空格字符。

当处理格式不佳的数据或需要规范化文本文件中的空白字符时,此命令特别有用。

总结

在本实验中,我们探索了 Linux 中功能强大的 tr 命令。我们学习了如何:

  1. 转换文本大小写
  2. 删除特定字符
  3. 转换多个字符
  4. 使用字符集
  5. 压缩重复字符

tr 命令是文本操作的利器。以下是我们未详细介绍的一些额外选项:

  • -c:对 string1 中的字符集取补集,即对所有不在 string1 中的字符进行操作
  • -t:将 string1 截断为与 string2 相同的长度

对于更高级的文本处理任务,你可能希望在未来的实验中探索 sedawk 等其他命令。