理解 John the Ripper 分布式破解

引言

在本实验中，你将探索使用 John the Ripper 进行分布式密码破解的概念性方面。虽然由于复杂性和资源要求，我们不会搭建一个实时的分布式环境，但你将对分布式破解的工作原理、涉及的工具以及它带来的挑战和优势有扎实的理解。对于任何对网络安全、渗透测试或密码安全感兴趣的人来说，这种概念性的理解至关重要。你将学习到分布式破解任务背后的原理、不同的工具如何为此目的与 John the Ripper 集成，以及影响此类系统性能的因素。

理解分布式破解概念

在本步骤中，你将学习分布式密码破解的基本概念。分布式破解涉及使用多个计算资源（机器、CPU、GPU）协同工作，以破解一组密码哈希。与使用单台机器相比，这种方法显著缩短了破解密码所需的时间，特别是对于复杂或长密码。

核心思想是将工作负载分配给多个“节点”或“工作节点”。每个工作节点接收一部分密码空间（例如，一系列可能的密码或哈希的子集），并独立尝试破解它们。一旦工作节点找到一个破解的密码，它就会将其报告给一个中央“主节点”或“协调节点”。

关键概念包括：

**工作负载分配 (Workload Distribution)**：如何将破解任务分配给多台机器。这可以通过为每个工作节点分配字典的不同部分、不同的字符集或不同的哈希子集来实现。
**集中式与分布式控制 (Centralized vs. Decentralized Control)**：工作节点如何通信和报告结果。在集中式模型中，一个主节点管理所有工作节点。在分布式模型中，工作节点可能直接通信或通过共享数据库通信。
**可扩展性 (Scalability)**：增加更多工作节点以提高破解速度的能力。
**容错性 (Fault Tolerance)**：系统即使在某些工作节点失败时也能继续运行的能力。
**网络延迟 (Network Latency)**：节点之间通信的延迟，这会影响整体性能。

设想一个场景，你需要破解一个大型密码哈希列表。与其让一台强大的机器尝试所有可能的组合，不如让十台性能稍弱的机器，每台尝试 1/10 的组合。这种并行处理极大地加快了过程。

为了说明这一点，让我们考虑字典攻击是如何分布的。如果你有一个字典文件，你可以将其分割成几个较小的文件，每个工作节点可以处理这些较小的字典文件之一，针对目标哈希进行破解。

概念示例：
主节点：
  - 接收密码哈希。
  - 将字典文件分割成块（例如，dict_chunk_A, dict_chunk_B）。
  - 将 dict_chunk_A 分配给工作节点 1。
  - 将 dict_chunk_B 分配给工作节点 2。
  - 从工作节点收集破解的密码。

工作节点 1：
  - 接收 dict_chunk_A 和哈希。
  - 使用 dict_chunk_A 和哈希运行 John the Ripper。
  - 将破解的密码报告给主节点。

工作节点 2：
  - 接收 dict_chunk_B 和哈希。
  - 使用 dict_chunk_B 和哈希运行 John the Ripper。
  - 将破解的密码报告给主节点。

这种概念性的理解构成了在后续步骤中探索特定工具和技术的基础。

探索使用 John the Ripper 进行分布式破解的工具

在本步骤中，你将探索用于促进 John the Ripper 分布式破解的各种工具和方法。虽然 John the Ripper 本身是一个强大的单节点破解器，但它不像某些其他工具那样（例如 Hashcat 的 hashcat-utils 用于分布式会话）原生内置分布式破解功能。因此，使用 John the Ripper 进行分布式破解通常涉及外部编排工具或自定义脚本。

常见的方法和工具包括：

**自定义脚本 (Bash/Python)**：最灵活的方法是编写自定义脚本来管理任务的分配。这包括：
- 分割大型密码列表或哈希文件。
- 将数据复制到工作节点（例如，使用 scp 或 rsync）。
- 在远程节点上执行 John the Ripper 命令（例如，使用 ssh）。
- 从工作节点收集结果。
- 示例：一个主脚本可以 ssh 到工作机器，运行 john --wordlist=part_X.txt hashes.txt，然后将 john.pot 文件通过 scp 传回。
**分布式计算框架 (Distributed Computing Frameworks)**：对于更复杂的设置，可以采用通用的分布式计算框架。虽然它们并非专门为密码破解设计，但可以管理集群中的任务。示例包括：
- **Celery (Python)**：一个分布式任务队列，可用于将 John the Ripper 命令作为任务分发给工作节点。
- Apache Spark：虽然对于简单的破解来说功能过剩，但理论上可用于大规模、数据密集型的破解操作。
**专用破解编排工具 (Specialized Cracking Orchestration Tools)**：一些工具旨在管理分布式破解，通常支持多种破解引擎。
- Hashcat 的 hashcat-utils（特别是 hccapx2john 和 potfile_merge）：虽然主要用于 Hashcat，但为分布式破解准备数据和合并结果的概念是相似的。对于 John，你将专注于分发输入文件和合并 john.pot 文件。
- 自定义 Web 界面/API：对于大型团队，可以构建一个基于 Web 的界面来提交破解作业、监控进度以及从 John the Ripper 实例集群中检索结果。

让我们考虑一个使用 ssh 和 scp 进行简单分布式设置的概念性示例：

## 概念主脚本（在主机器上）
## 此脚本仅用于概念理解，不会被执行。

## 假设 worker1 和 worker2 可通过 SSH 访问
WORKERS="worker1 worker2"
HASH_FILE="hashes.txt"
DICTIONARY_FILE="rockyou.txt" ## 大型字典

## 步骤 1：分割字典文件
## 这将在主机器或共享存储上完成
## 为简单起见，我们假设将其分割成 2 部分
## split -l 5000000 $DICTIONARY_FILE dict_part_

## 步骤 2：将哈希文件和字典部分分发到工作节点
for WORKER in $WORKERS; do
  echo "Distributing files to $WORKER..."
  ## scp $HASH_FILE $WORKER:~/project/
  ## scp dict_part_aa $WORKER:~/project/ ## 用于工作节点 1
  ## scp dict_part_ab $WORKER:~/project/ ## 用于工作节点 2
done

## 步骤 3：在工作节点上启动破解作业
## 这将通过 SSH 完成
## ssh worker1 "cd ~/project && john --wordlist=dict_part_aa $HASH_FILE" &
## ssh worker2 "cd ~/project && john --wordlist=dict_part_ab $HASH_FILE" &

## 步骤 4：监控和收集结果
## 这将涉及检查工作节点上的 john.pot 文件并合并它们
## scp worker1:~/project/john.pot john_worker1.pot
## scp worker2:~/project/john.pot john_worker2.pot
## cat john_worker1.pot john_worker2.pot > merged.pot

这个概念性脚本突显了在多台机器上编排 John the Ripper 所涉及的手动工作。更复杂的工具可以自动化这些步骤。

设置简单的分布式破解环境（概念性）

在本步骤中，你将概念性地设置一个简单的分布式破解环境。由于这是一个概念性实验，我们不会配置实际的虚拟机或物理硬件。相反，我们将概述设置此类环境的步骤和注意事项，重点关注逻辑架构。

典型的概念性设置包括：

**主节点 (Master Node)**：
- 充当中央控制点。
- 存储原始哈希文件以及可能的完整字典/密码列表。
- 管理任务向工作节点的分配。
- 收集和汇总来自工作节点的结果。
- 需要 ssh 客户端、scp 和脚本能力（Bash、Python）。
工作节点 (Worker Nodes)（2 个或更多）：
- 执行实际的破解工作。
- 从主节点接收哈希的子集或密码空间的一部分。
- 运行 John the Ripper 实例。
- 存储其 john.pot 文件（破解的密码）。
- 将结果报告给主节点。
- 需要 ssh 服务器、已安装的 John the Ripper 以及足够的 CPU/GPU 资源。

概念性设置步骤：

**网络配置 (Network Configuration)**：确保所有主节点和工作节点能够相互通信。这通常涉及设置本地网络或确保在使用云实例时配置了正确防火墙规则。为简单起见，假设它们位于同一子网或可以通过 IP 地址/主机名相互访问。
**基于 SSH 密钥的身份验证 (SSH Key-based Authentication)**：为了实现自动化脚本，从主节点到所有工作节点设置基于 SSH 密钥的身份验证至关重要。这允许主节点在无需手动输入密码的情况下执行命令和传输文件。

在主节点上：ssh-keygen
将公钥复制到工作节点：ssh-copy-id user@worker_ip

**John the Ripper 安装（概念性）(John the Ripper Installation (Conceptual))**：在每个工作节点上，都需要安装 John the Ripper。对于这个概念性实验，我们假设它可用。
共享目录 (Shared Directory)（可选但推荐）：对于更大的设置，可以使用共享网络文件系统（NFS、SMB）来存储哈希文件、字典和 john.pot 文件，从而简化数据分发和收集。但是，对于较小的设置，scp 通常已足够。

让我们考虑主节点上一个概念性的 ~/.ssh/config 文件，以简化 SSH 连接：

## 主节点上的概念性 ~/.ssh/config
## 此文件仅用于概念理解。

Host worker1
    Hostname 192.168.1.101
    User labex
    IdentityFile ~/.ssh/id_rsa

Host worker2
    Hostname 192.168.1.102
    User labex
    IdentityFile ~/.ssh/id_rsa

有了此配置，你就可以简单地使用 ssh worker1 而不是 ssh labex@192.168.1.101。

概念性设置强调了在启动任何破解作业之前所需的底层基础架构和连接性。分布式破解的效率在很大程度上取决于配置良好且稳定的底层环境。

管理分布式破解作业

在本步骤中，你将概念性地学习如何在设置好环境后管理分布式破解作业。有效的作业管理对于最大化效率、监控进度和处理分布式破解设置中的结果至关重要。

管理分布式破解作业的关键方面包括：

**作业提交 (Job Submission)**：
- **定义任务 (Defining the Task)**：要破解的哈希、要使用的破解模式（字典、暴力破解）、要使用的规则以及要使用的字典/字符集。
- **分割工作负载 (Splitting the Workload)**：这是最关键的部分。对于字典攻击，你可能需要将字典文件分割成多个块。对于暴力破解，你可能需要分配不同的字符范围（例如，将 a-m 分配给 worker1，将 n-z 分配给 worker2）。
- **分发输入文件 (Distributing Input Files)**：确保每个工作节点都拥有必要的哈希文件、字典块或规则文件。
**监控进度 (Monitoring Progress)**：
- **远程 john 状态 (Remote john Status)**：John the Ripper 可以将其状态输出到控制台。你需要一种方法在每个工作节点上远程检查此状态。
- **日志文件 (Log Files)**：将 John 的输出重定向到每个工作节点上的日志文件，然后从主节点定期获取或跟踪这些日志。
- 集中式仪表板 (Centralized Dashboard)（高级）：对于非常大的设置，自定义的 Web 仪表板可以显示所有工作节点的状、已破解的哈希以及剩余的估计时间。
**收集和合并结果 (Collecting and Merging Results)**：
- **john.pot 文件 ( john.pot Files)**：工作节点上的每个 John the Ripper 实例都会生成自己的 john.pot 文件，其中包含破解的密码。
- **检索 john.pot (Retrieving john.pot)**：使用 scp 或共享文件系统将所有 john.pot 文件传回主节点。
- **合并 john.pot 文件 (Merging john.pot Files)**：John the Ripper 内置了合并 john.pot 文件的机制。你可以简单地将它们连接起来，然后对合并后的文件使用 john --show，或者对合并的 john.pot 文件使用 john --restore，因为 John 会自动处理重复项。

让我们考虑一个管理分布式字典攻击的概念性工作流程：

概念性作业管理工作流程：

1. 准备哈希：
   - 主节点拥有 `target_hashes.txt`。

2. 准备字典：
   - 主节点将 `large_dictionary.txt` 分割成 `dict_part_01`、`dict_part_02` 等。
   - 命令：`split -l 1000000 large_dictionary.txt dict_part_`

3. 分发文件：
   - 主节点将 `target_hashes.txt` 通过 `scp` 发送到所有工作节点。
   - 主节点将 `dict_part_XX` 通过 `scp` 发送到相应的工作节点（例如，将 `dict_part_01` 发送到 worker1，将 `dict_part_02` 发送到 worker2）。

4. 启动破解作业：
   - 主节点通过 `ssh` 连接到每个工作节点并启动 John：
     `ssh worker1 "cd ~/project && john --wordlist=dict_part_01 target_hashes.txt --format=raw-md5"`
     `ssh worker2 "cd ~/project && john --wordlist=dict_part_02 target_hashes.txt --format=raw-md5"`
   - 使用 `nohup` 和 `&` 在后台运行，以防止在 SSH 断开连接时终止。

5. 监控进度（概念性）：
   - 定期 `ssh` 连接到工作节点并检查 `john.log` 或 `john --status`。
   - `ssh worker1 "cat ~/project/john.log"`

6. 收集结果：
   - 作业完成后或暂停时，将每个工作节点的 `john.pot` 文件通过 `scp` 传回主节点：
     `scp worker1:~/project/john.pot worker1_pot.txt`
     `scp worker2:~/project/john.pot worker2_pot.txt`

7. 合并结果：
   - 在主节点上连接所有 `pot` 文件：
     `cat worker1_pot.txt worker2_pot.txt > combined.pot`
   - John 在显示 `combined.pot` 的结果时会处理重复项：
     `john --show combined.pot`

这个概念性工作流程展示了涉及的手动步骤。在实际场景中，这些步骤将通过脚本或专用编排工具进行自动化。

分析分布式破解的性能

在本步骤中，你将概念性地分析分布式密码破解的性能方面。理解性能对于优化你的设置和做出有关资源分配的明智决策至关重要。

几个因素会影响分布式破解系统的性能：

**工作节点数量 (Number of Workers)**：通常，更多的工作节点意味着更快的破解速度。然而，由于网络延迟和协调等开销，会存在收益递减的情况。
**工作节点硬件 (Worker Hardware)**：单个工作节点的处理能力（CPU 核心、GPU 功能）直接影响其破解速度。如果 John the Ripper 支持特定哈希类型的 GPU 破解，使用 GPU 可以显著提高速度。
**网络延迟和带宽 (Network Latency and Bandwidth)**：主节点与工作节点之间，或工作节点之间（如果它们需要通信）的高延迟或低带宽可能成为瓶颈，尤其是在传输大型字典文件或结果时。
**工作负载分配策略 (Workload Distribution Strategy)**：工作如何有效地在工作节点之间分配。不均衡的分配（某些工作节点比其他工作节点提前完成）会导致资源闲置并降低整体效率。
**哈希类型复杂度 (Hash Type Complexity)**：某些哈希类型比其他哈希类型在计算上更密集，这会影响整体时间，而与分布无关。
**John the Ripper 配置 (John the Ripper Configuration)**：每个工作节点上最优的 John the Ripper 设置（例如，单台机器上多核 CPU 的 --fork 选项、特定规则或字典）可以显著影响单个工作节点的性能。

**概念性性能指标 (Conceptual Performance Metrics)**：

**每秒哈希数 (Hashes per Second (H/s))**：破解速度的主要指标。在分布式设置中，你将所有活动工作节点的 H/s 相加，以获得系统的总 H/s。
**破解时间 (Time to Crack)**：破解特定哈希集所花费的总时间。这是效率的最终衡量标准。
**资源利用率 (Resource Utilization)**：监控每个工作节点和主节点上的 CPU、GPU、内存和网络使用情况，以识别瓶颈。

**概念性优化策略 (Conceptual Optimization Strategies)**：

**负载均衡 (Load Balancing)**：确保工作节点之间的工作分配均衡。对于字典攻击，这意味着将字典分割成大致相等的部分。对于暴力破解，分配均衡的字符范围。
**最小化网络流量 (Minimize Network Traffic)**：仅传输必要的数据。例如，如果字典是静态的，则传输一次并将其保留在工作节点上。
**利用 GPU (Utilize GPUs)**：如果 John the Ripper 支持你的目标哈希类型的 GPU 破解，请利用工作节点上的 GPU 来实现巨大的速度提升。
**监控和调整 (Monitor and Adjust)**：持续监控分布式系统的性能，并根据需要调整工作负载分配或添加/删除工作节点。

考虑一个概念性场景：你拥有 10 个工作节点，每个节点能够处理 100,000 H/s。总理论 H/s = 10 * 100,000 H/s = 1,000,000 H/s (1 MH/s)。然而，由于网络开销和协调，实际有效 H/s 可能为 800,000 H/s。性能分析的目标是识别并缩小这一差距。

概念性性能分析：

## 在每个工作节点上，John the Ripper 的状态输出将显示 H/s：
## 来自工作节点 'john --status' 的示例输出：
## 0g 0:00:00:05 DONE (2023-10-27 10:30) 0g/s 100000p/s 100000c/s 100000C/s ...

## 主节点将汇总这些：
## Worker1 H/s: 100,000
## Worker2 H/s: 95,000 （可能由于硬件差异略慢）
## Worker3 H/s: 102,000
## ...
## Total System H/s = 所有工作节点 H/s 的总和。

## 如果一个工作节点持续显示较低的 H/s，可能表明存在瓶颈
## （例如，硬件性能较低、网络问题或工作负载不均衡）。

通过理解这些性能因素和指标，你可以设计和管理一个更高效的分布式破解环境。

总结

在本实验中，你对使用 John the Ripper 进行分布式密码破解有了全面的概念性理解。你探索了分布式破解任务的基础概念，包括工作负载分配、可扩展性和容错性。然后，你深入研究了用于编排的各种工具和方法，从使用 ssh 和 scp 的自定义脚本到分布式计算框架的潜在使用。

你还了解了分布式破解环境的概念性设置，确定了主节点和工作节点的角色以及网络配置和基于 SSH 密钥的身份验证的重要性。此外，你理解了管理分布式破解作业的关键方面，包括作业提交、进度监控以及结果的收集和合并。最后，你分析了影响分布式破解系统性能的关键因素，例如工作节点的数量、硬件能力、网络状况和工作负载分配策略。

虽然本实验侧重于概念性理解而非实际操作，但获得的知识为任何希望深入了解大规模密码破解操作的实际方面或理解此类强大技术安全影响的人提供了坚实的基础。

John the Ripper 与分布式破解 (概念性)

引言

理解分布式破解概念

探索使用 John the Ripper 进行分布式破解的工具

设置简单的分布式破解环境（概念性）

管理分布式破解作业

分析分布式破解的性能

总结