Häufige Muster finden mit sort und uniq
In diesem Schritt lernen Sie, mehrere Befehle mithilfe von Pipes zu kombinieren, um Muster in Logdaten zu analysieren. Dies ist eine gängige Aufgabe in der Systemadministration und Datenanalyse.
Ziel
Finden Sie die Top 5 der am häufigsten vorkommenden IP-Adressen in der Access-Logdatei.
Hintergrund
Die Log-Analyse beinhaltet oft das Finden von Mustern und Häufigkeiten. Durch die Kombination von cut, sort, uniq und anderen Befehlen können Sie aussagekräftige Erkenntnisse aus Textdaten gewinnen. Diese Technik ist wertvoll, um Traffic-Muster zu identifizieren, Anomalien zu erkennen oder das Benutzerverhalten zu verstehen.
Aufgabe
Finden Sie die 5 am häufigsten vorkommenden IP-Adressen in /home/labex/project/access.log und speichern Sie nur die IP-Adressen (ohne die Anzahl) in task2_output.txt.
Anforderungen
- Arbeiten Sie im Verzeichnis
/home/labex/project/.
- Extrahieren Sie die IP-Adressen aus dem ersten Feld der Logdatei.
- Zählen Sie die Häufigkeit jeder IP-Adresse.
- Sortieren Sie nach Häufigkeit in absteigender Reihenfolge.
- Nehmen Sie die obersten 5 Ergebnisse.
- Speichern Sie nur die IP-Adressen (nicht die Häufigkeitszahlen) in
task2_output.txt.
Hinweise
- Verwenden Sie
cut -d' ' -f1, um das erste Feld (IP-Adressen) zu extrahieren.
- Verwenden Sie
sort, um identische Einträge zu gruppieren.
- Verwenden Sie
uniq -c, um die Vorkommen zu zählen.
- Verwenden Sie
sort -rn, um numerisch und umgekehrt (absteigend) zu sortieren.
- Verwenden Sie
head -n 5, um die ersten 5 Ergebnisse zu erhalten.
- Verwenden Sie
awk '{print $2}', um nur die IP-Adressen aus der Häufigkeitsausgabe zu extrahieren.
Erwartete Ausgabe
Ihre Datei task2_output.txt sollte 5 IP-Adressen enthalten:
$ cat task2_output.txt
255.1.2.3
255.4.2.9
255.4.1.9
255.4.1.1
255.1.4.5
Hinweis: Die tatsächlichen IP-Adressen können aufgrund der zufälligen Datengenerierung abweichen.