在 Linux 中使用 grep 搜索文本 | CompTIA Linux+

介绍

在本实验中，你将学习如何使用功能强大的 grep 命令在 Linux 系统中高效地搜索文件内容。首先，你将学习如何在单个和多个文件中搜索特定字符串的基础操作，并了解 grep 在跨多个位置搜索时如何显示匹配行以及标识源文件。

在此基础上，你将探索更高级的功能来精简搜索结果。你将学习如何显示行号以获取上下文信息，使用 ^ 和 $ 等锚点来匹配行首或行尾的模式，并利用基础和扩展正则表达式（Regular Expressions）的能力来执行复杂且灵活的模式匹配。

在文件中执行基础搜索

在这一步中，你将学习 grep 命令的基本用法，以便在文件中进行基础搜索。grep（Global Regular Expression Print）是一个强大的命令行工具，用于在一个或多个文件中搜索特定的字符串或模式，并显示包含该内容的行。

grep 的基本语法为：grep PATTERN [FILE...]

让我们从一个简单的任务开始：在系统的用户数据库文件中查找当前用户 labex 的信息。这些信息存储在 /etc/passwd 文件中。

在终端中执行以下命令，在 /etc/passwd 文件中查找包含字符串 labex 的行：

grep labex /etc/passwd

你应该会看到文件中包含你用户名 labex 的输出行。

labex:x:5000:5000::/home/labex:/usr/bin/zsh

grep 命令还可以同时在多个文件中进行搜索。现在，我们将在三个重要的系统配置文件中搜索字符串 labex：/etc/passwd、/etc/shadow（存储加密的用户账户信息）和 /etc/group（定义用户组）。

由于 /etc/shadow 文件包含敏感信息，你需要管理员权限才能读取它。你可以使用 sudo 命令以这些权限执行 grep。labex 用户已配置为拥有免密 sudo 访问权限。

执行以下命令在所有三个文件中搜索 labex：

sudo grep labex /etc/passwd /etc/shadow /etc/group

请注意，在多个文件中搜索时，grep 会在每个匹配行前加上找到该匹配项的文件名。

/etc/passwd:labex:x:5000:5000::/home/labex:/usr/bin/zsh
/etc/shadow:labex:$y$j9T$L6UYJUCu2XytrdFToEOw.1$yp2xAOVTbIPmbABMnS/xDsyce7xayU80JgIs3lrqw4B:20265:0:99999:7:::
/etc/group:sudo:x:27:labex
/etc/group:ssl-cert:x:121:labex
/etc/group:labex:x:5000:
/etc/group:public:x:5002:labex

这向你展示了这三个文件中所有与用户 labex 相关的行。

使用 -n 选项显示行号

在这一步中，你将学习如何通过显示匹配项所在的行号来增强 grep 的输出。当你需要在大型文件中定位某个模式以便进行编辑或进一步分析时，这非常有用。-n 选项告诉 grep 在每行输出前加上其在输入文件中对应的行号。

让我们在之前步骤的命令基础上进行扩展。你已经在三个系统文件中搜索了用户 labex。现在，你将执行相同的搜索，但同时显示每个匹配项的行号。

在之前执行的命令中添加 -n 选项。记得使用 sudo，因为你仍然在访问受限的 /etc/shadow 文件。

在终端中执行以下命令：

sudo grep -n labex /etc/passwd /etc/shadow /etc/group

你会看到与之前类似的输出，但现在每行前面都多了文件名和匹配发生的行号，并用冒号分隔。

/etc/passwd:32:labex:x:5000:5000::/home/labex:/usr/bin/zsh
/etc/shadow:32:labex:$y$j9T$L6UYJUCu2XytrdFToEOw.1$yp2xAOVTbIPmbABMnS/xDsyce7xayU80JgIs3lrqw4B:20265:0:99999:7:::
/etc/group:21:sudo:x:27:labex
/etc/group:60:ssl-cert:x:121:labex
/etc/group:61:labex:x:5000:
/etc/group:62:public:x:5002:labex

注意输出中的数字，如 32、32、21、60、61 和 62。这些就是行号。例如，字符串 labex 出现在 /etc/passwd 的第 32 行和 /etc/shadow 的第 32 行。这个简单的选项使 grep 成为导航和理解文件内容更有效的工具。

使用 ^ 和 $ 锚点匹配行位置

在这一步中，你将通过学习使用锚点（Anchors）来提升你的 grep 技能。锚点是正则表达式中的特殊字符，它们不匹配具体的字符，而是匹配行内的位置。这允许你创建更精确、更强大的搜索模式。两个最常用的锚点是：

^（脱字符）：匹配行首。
$（美元符号）：匹配行尾。

让我们通过 /etc/passwd 文件来看看它们是如何工作的。

首先，考虑在 /etc/passwd 中简单搜索字符串 root：

grep root /etc/passwd

你可能会在输出中得到多行，因为其他条目也可能包含字符串「root」。

root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin

现在，让我们精简一下。在 /etc/passwd 文件中，每条记录的第一个字段是用户名。要专门查找用户 root 的记录，你可以使用 ^ 将搜索锚定到行首。

执行以下命令。模式 ^root 告诉 grep 只匹配那些以 root 开头的行。

grep ^root /etc/passwd

这一次，输出变得非常精确，只显示了 root 用户的行。

root:x:0:0:root:/root:/bin/bash

接下来，让我们使用行尾锚点 $。/etc/passwd 记录中的最后一个字段指定了用户的默认登录 Shell。我们可以利用这一点来查找所有将 /bin/bash 作为默认 Shell 的用户。

模式 bash$ 将匹配任何以字符串 bash 结尾的行。

grep bash$ /etc/passwd

此命令将显示所有分配了 /bin/bash Shell 的用户条目。

root:x:0:0:root:/root:/bin/bash

（注意：如果系统上的其他用户也使用 bash 作为默认 Shell，你的输出可能会有所不同。）

通过使用 ^ 和 $ 锚点，你可以显著缩小搜索结果的范围，从而准确找到你想要的内容。

使用基础正则表达式匹配模式

在这一步中，你将探索如何通过 grep 使用基础正则表达式（Basic Regular Expressions，简称 BRE）来创建更灵活的搜索模式。在 BRE 中，某些被称为元字符（Metacharacters）的字符具有超出其字面值的特殊含义。这允许你匹配某种模式，而不仅仅是固定字符串。

我们将探索两个基础元字符：*（星号）和 .（点号）。

首先，让我们看看星号（*）。这个元字符匹配其前面的字符零次或多次。为了观察其效果，请执行以下命令。我们将模式括在单引号中（'roo*'），以确保 Shell 将其视为字面模式，而不会尝试将 * 扩展为文件通配符。

grep 'roo*' /etc/passwd

输出可能会显示多行：

root:x:0:0:root:/root:/bin/bash
proxy:x:13:13:proxy:/bin:/usr/sbin/nologin
systemd-timesync:x:104:110:systemd Time Synchronization,,,:/run/systemd:/usr/sbin/nologin
rtkit:x:108:113:RealtimeKit,,,:/proc:/usr/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin

让我们分析一下这个结果。模式 'roo*' 搜索包含 ro 且后面跟着零个或多个 o 的行。

root 行匹配，因为它包含 roo（ro 后跟一个 o）。
proxy 行匹配，因为它在「proxy」中包含 ro（ro 后跟零个 o）。
systemd-timesync 行匹配，因为它在「Synchronization」中包含 ro。
rtkit 行匹配，因为它在「proc」中包含 ro。
operator 行匹配，因为它在「operator」和「/root」中都包含 ro。

现在，让我们看看点号（.）元字符。点号匹配任意单个字符。执行以下命令看看它的行为有何不同：

grep 'ro.' /etc/passwd

这一次，输出显示了几个匹配项：

root:x:0:0:root:/root:/bin/bash
proxy:x:13:13:proxy:/bin:/usr/sbin/nologin
systemd-timesync:x:104:110:systemd Time Synchronization,,,:/run/systemd:/usr/sbin/nologin
rtkit:x:108:113:RealtimeKit,,,:/proc:/usr/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin

模式 'ro.' 搜索包含 ro 且后面紧跟恰好一个任意字符的行。

root 行匹配，因为在「root」中 ro 后面跟着 o。
proxy 行匹配，因为在「proxy」中 ro 后面跟着 x。
systemd-timesync 行匹配，因为在「Synchronization」中 ro 后面跟着 n。
rtkit 行匹配，因为在「proc」中 ro 后面跟着 c。
operator 行匹配，因为在「operator」和「/root」中 ro 后面都跟着另一个字符。

通过对比输出，你可以清楚地看到正则表达式的威力。模式 'roo*' 和 'ro.' 都匹配了多行，展示了不同的元字符如何让你以不同的方式微调搜索。

使用扩展正则表达式进行复杂搜索

在这一步中，你将学习使用扩展正则表达式（Extended Regular Expressions，简称 ERE）来执行更复杂、更强大的搜索。ERE 比基础正则表达式（BRE）提供了更丰富的元字符集。要启用 ERE，你可以使用 grep -E 命令或其传统的别名 egrep。使用 grep -E 是更现代且推荐的方法。

首先，让我们探索量词（Quantifiers）。在 ERE 中，你可以使用花括号 {} 指定一个字符应该出现的精确次数。例如，要查找任何包含连续两个小写字母「o」的行，你可以使用模式 o{2}。

执行以下命令。我们将模式括在单引号中，以防止 Shell 误解这些特殊字符。

grep -E 'o{2}' /etc/passwd

输出将显示包含「oo」的多行：

root:x:0:0:root:/root:/bin/bash
lp:x:7:7:lp:/var/spool/lpd:/usr/sbin/nologin
news:x:9:9:news:/var/spool/news:/usr/sbin/nologin
uucp:x:10:10:uucp:/var/spool/uucp:/usr/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin

此命令之所以有效，是因为模式 o{2} 专门匹配两个连续的「o」字符，这些字符存在于「root」、「spool」和其他条目中。

接下来，让我们看看分支（Alternation）。这个强大的 ERE 功能允许你使用管道符号 | 搜索多个可能的模式之一，管道符号的作用类似于「或」（OR）运算符。

例如，如果你想查找 root 或 Root 的用户记录（以防你不确定大小写），你可以使用以下命令：

grep -E 'root|Root' /etc/passwd

此命令搜索包含字符串 root 或字符串 Root 的任何行。输出显示：

root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin

root 用户行和 operator 行都匹配，因为它们都包含小写字符串「root」。

通过 grep -E 启用的扩展正则表达式为构建复杂的搜索模式提供了更具表现力和更强大的语法，使 grep 成为文本处理中不可或缺的工具。

总结

在本实验中，你学习了如何使用 grep 命令在 Linux 中执行基础文本搜索。你首先学习了在单个文件中搜索特定字符串的基础操作，然后扩展到跨多个文件搜索，并观察了 grep 如何在匹配行前加上相应的文件名。你还学习了使用 -n 选项来显示每个匹配项的行号，这对于在文件中定位模式非常有用。

此外，你还通过使用锚点来查找行首（^）或行尾（$）的文本，探索了更高级的模式匹配功能。实验进阶到了基础和扩展正则表达式的使用，使你能够构建更复杂、更强大的搜索模式，从而在文件中查找特定的信息。