Linux 自定义词表管理

引言

在本实验中，你将探索使用标准的 Linux 命令行工具创建和管理自定义词表（wordlists）的基础技术。词表在各种网络安全和数据处理任务中至关重要，从密码暴力破解到应用程序模糊测试（fuzzing）和文本数据分析。你将学习如何生成简单的词表、合并多个列表、删除重复条目、按字母顺序排序以及根据长度进行过滤。在本实验结束时，你将对如何高效地操作文本文件以创建满足你特定需求的定制词表有扎实的理解。

生成自定义词表

在本步骤中，你将学习如何使用 echo 命令和重定向来创建一个基本的自定义词表。这是生成包含少量单词（每行一个）的文件的最简单方法。

首先，如果尚未进入你的项目目录，请导航至该目录：

cd ~/project

现在，创建一个名为 my_wordlist.txt 的简单词表，其中包含几个单词：

echo -e "apple\nbanana\norange\ngrape" > my_wordlist.txt

-e 选项启用对反斜杠转义字符的解释，\n 创建一个新行。> 将输出重定向到指定文件，如果文件不存在则创建它，如果存在则覆盖它。

要验证你新创建的词表内容，请使用 cat 命令：

cat my_wordlist.txt

你应该会看到以下输出：

apple
banana
orange
grape

接下来，让我们在不覆盖现有内容的情况下向同一个词表添加更多单词。我们将使用 >> 运算符进行追加。

echo -e "kiwi\nstrawberry\nblueberry" >> my_wordlist.txt

验证更新后的内容：

cat my_wordlist.txt

输出现在应该包含新添加的单词：

apple
banana
orange
grape
kiwi
strawberry
blueberry

此方法对于快速生成小型自定义词表或向现有词表添加条目非常有用。

合并多个词表

在本步骤中，你将学习如何将多个词表的内容合并到一个统一的词表中。当你拥有不同来源的单词需要合并时，这是一项常见的任务。

首先，让我们创建另一个名为 additional_words.txt 的小型词表：

echo -e "melon\npeach\nplum" > additional_words.txt

验证其内容：

cat additional_words.txt

你应该会看到：

melon
peach
plum

现在，我们将 my_wordlist.txt 和 additional_words.txt 合并到一个名为 combined_wordlist.txt 的新文件中。我们将使用 cat 命令来连接这些文件并将输出重定向。

cat my_wordlist.txt additional_words.txt > combined_wordlist.txt

检查 combined_wordlist.txt 的内容：

cat combined_wordlist.txt

输出将显示两个文件中所有的单词，按照它们被连接的顺序：

apple
banana
orange
grape
kiwi
strawberry
blueberry
melon
peach
plum

此技术非常灵活，可用于合并任意数量的词表。

从词表中移除重复项

词表通常包含重复的条目，尤其是在合并多个来源之后。在本步骤中，你将学习如何使用 sort 和 uniq 命令移除这些重复项。uniq 命令只能检测相邻的重复行，因此首先对文件进行排序至关重要。

让我们故意向 combined_wordlist.txt 添加一些重复条目来演示这一点。

echo -e "apple\nbanana\nmelon" >> combined_wordlist.txt

现在，查看 combined_wordlist.txt 的内容以查看重复项：

cat combined_wordlist.txt

你会注意到 apple、banana 和 melon 出现了多次。

要移除重复项，我们首先对文件进行排序，然后将输出通过管道传递给 uniq。我们将结果保存到一个新文件 unique_wordlist.txt 中。

sort combined_wordlist.txt | uniq > unique_wordlist.txt

现在，检查 unique_wordlist.txt：

cat unique_wordlist.txt

输出现在应该只包含唯一的条目，并按字母顺序排序：

apple
banana
blueberry
grape
kiwi
melon
orange
peach
plum
strawberry

这是用于清理词表的强大命令组合。

按字母顺序对词表进行排序

按字母顺序对词表进行排序通常有助于组织、提高可读性，并且是执行其他操作（如移除重复项，如上一步所示）的前提条件。在本步骤中，你将显式地对词表进行排序。

我们将对 unique_wordlist.txt 使用 sort 命令，并将排序后的输出保存到 sorted_wordlist.txt。尽管 unique_wordlist.txt 已经排序，但此步骤独立演示了 sort 命令。

sort unique_wordlist.txt > sorted_wordlist.txt

现在，查看 sorted_wordlist.txt 的内容：

cat sorted_wordlist.txt

输出将是按字母顺序排列的单词：

apple
banana
blueberry
grape
kiwi
melon
orange
peach
plum
strawberry

sort 命令有许多选项，例如用于反向字母顺序的 -r，或用于数字排序的 -n。例如，要按反向顺序排序：

sort -r unique_wordlist.txt

这将输出：

strawberry
plum
peach
orange
melon
kiwi
grape
blueberry
banana
apple

在本实验中，我们将坚持使用默认的字母顺序排序。

按长度过滤词表

有时你需要根据单词的长度来过滤词表。例如，你可能只想保留长度在 5 到 8 个字符之间的单词。在本步骤中，你将使用 awk 命令按长度过滤单词。

我们将过滤 sorted_wordlist.txt，只包含长度在 5 到 7 个字符（包含）之间的单词。awk 中的 length($0) 函数返回当前行（单词）的长度。

awk 'length($0) >= 5 && length($0) <= 7' sorted_wordlist.txt > filtered_wordlist.txt

现在，检查 filtered_wordlist.txt 的内容：

cat filtered_wordlist.txt

输出应仅包含符合长度条件的单词：

apple
banana
orange
grape
melon
peach

让我们分解一下 awk 命令：

awk: 用于文本处理的命令行实用程序。
'length($0) >= 5 && length($0) <= 7': 这是 awk 程序。
- length($0): 返回整行（$0 指的是整行）的长度。
- >= 5: 检查长度是否大于或等于 5。
- &&: 逻辑与（AND）运算符。
- <= 7: 检查长度是否小于或等于 7。
- 如果条件为真，awk 默认会打印该行。
sorted_wordlist.txt: 输入文件。
> filtered_wordlist.txt: 将输出重定向到一个新文件。

这种过滤能力对于为特定目的优化词表非常强大。

总结

在本实验中，你已成功学会了如何使用各种基本的 Linux 命令行工具来创建和管理自定义词表。你首先使用 echo 和重定向生成简单的词表，然后使用 cat 合并多个列表。你掌握了通过组合 sort 和 uniq 来移除重复条目的关键技术，并练习了按字母顺序对词表进行排序。最后，你使用 awk 根据特定的长度标准过滤词表。这些技能对于任何处理文本数据的人来说都是基础，尤其是在网络安全领域，用于密码破解、模糊测试和数据分析等任务。你现在已经为根据不同需求操作和优化词表打下了坚实的基础。