Linux 高级文本处理：Grep、Sed 和 Awk

介绍

在本实验中，我们将探索 Linux 中强大的文本处理技术，重点学习正则表达式。我们将使用各种命令来搜索、过滤和操作文本，为你提供在类 Unix 操作系统中处理文本数据所需的核心技能。无论你是初学者还是希望提升技能的进阶用户，本实验都将为你打下文本处理和正则表达式的坚实基础。

使用 Grep 理解正则表达式

正则表达式（regex）是用于匹配字符串中字符组合的模式。它们是 Linux 中许多文本处理任务的基础。我们将从使用 grep 配合基础正则表达式开始。

首先，让我们创建一个简单的文本文件来进行练习：

cd ~/project
echo -e "labex\nexlab\nlab*\nLABEX\nLab" > practice.txt

此命令在当前目录下创建一个名为 practice.txt 的文件，其中包含五行文本。-e 选项允许我们使用转义字符（如 \n 表示换行）。

现在，让我们使用 grep 配合一个基础正则表达式：

grep "lab" practice.txt

你应该会看到：

labex
exlab
lab*

此命令匹配所有包含「lab」的行。请注意，它是区分大小写的，因此「LABEX」和「Lab」没有包含在输出中。

让我们尝试一个更具体的正则表达式：

grep "^lab" practice.txt

你应该会看到：

labex
lab*

^ 符号匹配行首，因此此命令仅匹配以「lab」开头的行。

现在，让我们让搜索不区分大小写：

grep -i "lab" practice.txt

这应该会匹配文件中的所有五行。

解释：

grep 是我们用来搜索模式的命令。
我们要搜索的模式被包裹在引号中。
practice.txt 是我们要搜索的文件。
-i 选项使搜索不区分大小写。

Grep 的高级用法

让我们探索一些更高级的 grep 功能，它们可以让你的文本搜索更强大、更高效。

显示行号：
```
grep -n "lab" practice.txt
```
这将显示匹配项的行号。-n 选项告诉 grep 在输出的每一行前加上该行在文本文件中的行号。
显示匹配项前后的行：
```
grep -C 1 "exlab" practice.txt
```
-C 1 选项显示匹配行前后各 1 行的上下文。你可以调整数字以显示更多或更少的上下文行。
反向匹配：
```
grep -v "lab" practice.txt
```
-v 选项执行反向匹配，显示不包含该模式的行。当你想要从结果中排除某些模式时，这非常有用。
使用正则表达式：
```
grep "lab[ex]*" practice.txt
```
这个正则表达式匹配「lab」后面跟着任意数量的「e」或「x」字符。它展示了如何在搜索中使用更复杂的模式。

解释：

-n 选项在每个输出行前加上其在文件中的行号。
-C 1 显示匹配项前后的一行上下文，帮助你理解背景。
-v 反向匹配，显示不符合模式的行。
[ex]* 是一个正则表达式，匹配零个或多个「e」或「x」。

尝试这些命令并观察结果。理解这些选项将大大增强你有效搜索和过滤文本的能力。

Sed 入门

sed（流编辑器）是一个用于解析和转换文本的强大工具。它通常用于对文件或输出流进行自动化编辑。让我们从一些基础的 sed 操作开始。

理解 Sed 语法

在深入示例之前，理解 sed 命令的基础语法至关重要，特别是定界符和特殊字符的使用。

Sed 命令结构

sed 替换命令的基本结构是：

sed 's/pattern/replacement/flags' filename

语法拆解：

s = 替换（substitute）命令
/ = 定界符（分隔模式、替换内容和标志）
pattern = 要搜索的内容
replacement = 要替换成的内容
flags = 选项，如 g（全局）、i（不区分大小写）

理解定界符：正斜杠 (/) 与反斜杠 ()

正斜杠 (/) 作为定界符：

用于分隔替换命令的不同部分
格式：s/search/replace/flags
/ 字符不是搜索模式或替换文本的一部分
示例：s/Hello/Hi/g 表示「在全局范围内将 Hello 替换为 Hi」

反斜杠 () 用于转义：

用于转义特殊字符或表示字面解释
与 i\（插入）和 a\（追加）等命令配合使用
示例：1i\First line 表示「在第 1 行之前插入 'First line'」

关键区别：

/ = 命令各部分之间的分隔符
\ = 转义字符或命令终止符

首先，创建一个新文件进行操作：

echo -e "Hello, world\nThis is a test\nHello, labex\nWorld of Linux" > sed_test.txt

这会在当前目录下创建一个名为 sed_test.txt 的文件，包含四行文本。

现在，让我们使用 sed 来替换文本：

sed 's/Hello/Hi/' sed_test.txt

拆解此命令：

s = 替换命令
第一个 / = 开始搜索模式
Hello = 要搜索的文本
第二个 / = 分隔搜索模式与替换内容
Hi = 替换文本
第三个 / = 结束替换（后面没有标志）

此命令替换每一行中第一次出现的「Hello」为「Hi」。默认情况下，sed 只替换每行中的第一个匹配项。

注意： 在这个例子中，由于「Hello」在每行只出现一次，所以即使没有 g 标志，看起来也像是替换了所有实例。

为了更好地理解 g 标志的作用，让我们修改 sed_test.txt，使同一行中出现多次「Hello」：

echo -e "Hello, world. Hello everyone\nThis is a test\nHello, labex says Hello\nWorld of Linux" > sed_test.txt

现在，sed_test.txt 的内容是：

Hello, world. Hello everyone
This is a test
Hello, labex says Hello
World of Linux

再次运行不带 g 标志的替换命令：

sed 's/Hello/Hi/' sed_test.txt

输出将是：

Hi, world. Hello everyone
This is a test
Hi, labex says Hello
World of Linux

你可以看到，每行只有第一个「Hello」被替换了。

现在，使用 g 标志执行全局替换：

sed 's/Hello/Hi/g' sed_test.txt

输出将是：

Hi, world. Hi everyone
This is a test
Hi, labex says Hi
World of Linux

这一次，每行中所有的「Hello」都被替换成了「Hi」。

详细解释：

sed 's/Hello/Hi/'：替换每行中第一个匹配的「Hello」。
- 结构：s（替换）+ /Hello/（搜索模式）+ Hi/（替换内容）
- 三个 / 字符是定界符，不是文本的一部分
sed 's/Hello/Hi/g'：替换每行中所有匹配的「Hello」。
- 结构：s（替换）+ /Hello/（搜索模式）+ Hi/（替换内容）+ g（全局标志）
- g 标志代表「global」（全局），表示替换应针对行内的每一次出现进行。

备选定界符用法： 如果你的文本中包含正斜杠，你可以使用其他字符作为定界符。例如：

sed 's#/path/to/file#/new/path#g' filename

这里使用 # 代替 / 作为定界符，这在处理文件路径时非常有用。

请注意，这些命令不会修改文件本身；它们只是将修改后的文本打印到终端。要就地编辑文件，请使用 -i 选项：

sed -i 's/Hello/Hi/g' sed_test.txt

现在，检查文件内容以查看更改：

cat sed_test.txt

Sed 的高级用法

既然我们已经了解了 sed 的基础知识，让我们探索一些使其成为强大文本操作工具的高级功能。

删除行：
```
sed '2d' sed_test.txt
```
这将删除文件的第二行。sed 中的 d 命令代表「delete」（删除）。
插入文本：
```
sed '1i\First line' sed_test.txt
```
拆解此命令：
- 1 = 行号（在第 1 行之前插入）
- i = 插入（insert）命令
- \ = 命令终止符（不像替换命令中那样是定界符）
- First line = 要插入的文本
这会在文件的第一行之前插入「First line」。i 命令代表「insert」。
追加文本：
```
sed '$a\Last line' sed_test.txt
```
拆解此命令：
- $ = 代表最后一行
- a = 追加（append）命令
- \ = 命令终止符（标志着命令结束，文本开始）
- Last line = 要追加的文本
这会在文件末尾追加「Last line」。a 命令代表「append」。
多个命令：
```
sed -e 's/Hi/Hello/g' -e 's/labex/LabEx/g' sed_test.txt
```
这在一个命令中应用了多个替换。-e 选项允许你指定多个 sed 命令。
使用正则表达式：
```
sed 's/[Ww]orld/Universe/g' sed_test.txt
```
这使用正则表达式同时匹配「World」和「world」，并将它们替换为「Universe」。

命令语法解释：

2d 删除第二行。你可以更改数字来删除不同的行。
- 结构：行号 + d（删除命令）
1i\ 在第一行之前插入文本。更改数字可以在不同位置插入。
- 结构：行号 + i（插入） + \（命令终止符） + 文本
- 重要提示： 这里的 \ 不是定界符，它是将命令与文本分隔开的终止符。
$a\ 在文件末尾追加文本。
- 结构：$（最后一行） + a（追加） + \（命令终止符） + 文本
- 重要提示： 同样，\ 终止了命令，它不是定界符。
-e 允许你在单行中指定多个 sed 命令。
[Ww] 是一个正则表达式，匹配大写「W」或小写「w」。

Sed 中定界符用法总结：

替换命令 (s)： 使用 / 作为定界符：s/pattern/replacement/flags
插入/追加命令 (i/a)： 使用 \ 作为命令终止符：i\text 或 a\text
其他定界符： 在替换命令中，你可以使用备选字符，如 #、| 或 :。

理解定界符的实践练习：

让我们创建一个包含路径的文件，看看备选定界符的实际应用：

echo -e "/home/user/documents\n/var/log/messages\n/etc/passwd" > paths.txt

现在尝试使用不同的定界符替换路径：

## 使用 / 作为定界符（在处理路径时会很混乱）
sed 's/\/home\/user/\/home\/newuser/g' paths.txt

## 使用 ## 作为定界符（处理路径时清晰得多）
sed 's#/home/user#/home/newuser#g' paths.txt

## 使用 | 作为定界符（同样很清晰）
sed 's|/home/user|/home/newuser|g' paths.txt

这三个命令的作用相同，但在处理文件路径时，后两个命令的可读性要好得多！

尝试这些命令并观察结果。请记住，除非使用 -i 选项，否则这些更改不会保存到文件中。

Awk 入门

awk 是一个强大的文本处理工具，特别擅长处理结构化数据。它将每一行输入视为一条记录，将行上的每个单词视为一个字段。让我们从一些基础的 awk 操作开始。

首先，创建一个包含结构化数据的新文件：

echo -e "Name Age Country\nAlice 25 USA\nBob 30 Canada\nCharlie 35 UK\nDavid 28 Australia" > awk_test.txt

这会创建一个名为 awk_test.txt 的文件，包含一个标题行和四个数据行。

现在，让我们使用 awk 来打印特定字段：

awk '{print $1}' awk_test.txt

这会打印每行的第一个字段（列）。在 awk 中，$1 指代第一个字段，$2 指代第二个，依此类推。$0 指代整行。

要打印多个字段：

awk '{print $1, $2}' awk_test.txt

这会打印每行的第一和第二个字段。

我们还可以使用条件：

awk '$2 > 28 {print $1 " is over 28"}' awk_test.txt

这会打印年龄超过 28 岁的人的名字。

让我们尝试一些更复杂的：

awk 'NR > 1 {sum += $2} END {print "Average age:", sum/(NR-1)}' awk_test.txt

这会计算并打印平均年龄，跳过标题行。

解释：

在 awk 中，每行会自动被分割成字段，通常是以空格分隔。
$1、$2 等指代每行中的第一、第二等字段。
NR 是一个内置变量，代表当前记录（行）号。
END 块在处理完所有行后执行。
sum += $2 将第二个字段（年龄）的值累加到总和中。

尝试这些命令并观察结果。awk 在数据处理任务中极其强大。

总结

在本实验中，你学习了 Linux 中三个强大文本处理命令的基础知识：

**grep**：用于使用正则表达式搜索文本模式。
**sed**：用于流编辑和文本转换。
**awk**：用于高级文本处理和数据提取。

特别是在使用 sed 时，我们深入研究了 g 标志的作用。如果不带 g 标志，sed 仅替换每行中第一个匹配的实例；带有 g 标志时，它会替换每行中所有匹配的实例。通过修改示例文件以在同一行包含多个匹配项，我们清晰地观察到了 g 标志的效果。

这些工具对于任何 Linux 用户或系统管理员来说都是必不可少的。它们允许你高效地搜索文件、修改文本以及从结构化文本文件中提取特定数据。随着你对这些命令越来越熟悉，你会发现它们可以极大地简化日常 Linux 系统工作中的许多文本处理任务。

请记住，练习是掌握这些工具的关键。尝试在不同场景中使用它们，并查阅它们的手册页（man grep、man sed、man awk）以了解更多高级功能和选项。这些命令中的每一个都拥有比我们这里介绍的更多的功能，学会有效地使用它们可以显著提高你在 Linux 中处理文本文件的效率。

文本处理与正则表达式

介绍

使用 Grep 理解正则表达式

Grep 的高级用法

Sed 入门

理解 Sed 语法

Sed 命令结构

理解定界符：正斜杠 (/) 与反斜杠 ()

Sed 的高级用法

Awk 入门

总结