## Création d'un script pratique d'analyse de logs Maintenant que vous avez appris diverses techniques pour traiter des fichiers ligne par ligne en Bash, appliquons ces connaissances pour créer un script pratique d'analyse de logs. Ce script analysera un fichier de logs d'un serveur web d'exemple pour extraire et résumer des informations utiles. ### Création d'un fichier de logs d'exemple Tout d'abord, créons un fichier de logs d'accès d'un serveur web d'exemple : 1. Accédez à notre répertoire de travail : ```bash cd ~/project/file_processing ``` 2. Créez un fichier de logs d'accès d'exemple : ```bash cat > access.log << EOF 192.168.1.100 - - [10/Oct/2023:13:55:36 -0700] "GET /index.html HTTP/1.1" 200 2326 192.168.1.101 - - [10/Oct/2023:13:56:12 -0700] "GET /about.html HTTP/1.1" 200 1821 192.168.1.102 - - [10/Oct/2023:13:57:34 -0700] "GET /images/logo.png HTTP/1.1" 200 4562 192.168.1.100 - - [10/Oct/2023:13:58:45 -0700] "GET /css/style.css HTTP/1.1" 200 1024 192.168.1.103 - - [10/Oct/2023:13:59:01 -0700] "GET /login.php HTTP/1.1" 302 0 192.168.1.103 - - [10/Oct/2023:13:59:02 -0700] "GET /dashboard.php HTTP/1.1" 200 3652 192.168.1.104 - - [10/Oct/2023:14:00:15 -0700] "POST /login.php HTTP/1.1" 401 285 192.168.1.105 - - [10/Oct/2023:14:01:25 -0700] "GET /nonexistent.html HTTP/1.1" 404 876 192.168.1.102 - - [10/Oct/2023:14:02:45 -0700] "GET /contact.html HTTP/1.1" 200 1762 192.168.1.106 - - [10/Oct/2023:14:03:12 -0700] "GET /images/banner.jpg HTTP/1.1" 200 8562 192.168.1.100 - - [10/Oct/2023:14:04:33 -0700] "GET /products.html HTTP/1.1" 200 4521 192.168.1.107 - - [10/Oct/2023:14:05:16 -0700] "POST /subscribe.php HTTP/1.1" 500 652 192.168.1.108 - - [10/Oct/2023:14:06:27 -0700] "GET /api/data.json HTTP/1.1" 200 1824 192.168.1.103 - - [10/Oct/2023:14:07:44 -0700] "GET /logout.php HTTP/1.1" 302 0 192.168.1.109 - - [10/Oct/2023:14:08:55 -0700] "GET / HTTP/1.1" 200 2326 EOF ``` ### Création d'un script d'analyse de logs de base Créons un script pour analyser ce fichier de logs et extraire des informations utiles : ```bash cat > analyze_log.sh << EOF #!/bin/bash ## Script to analyze a web server access log file log_file="access.log" echo "Analyzing log file: \$log_file" echo "======================================" ## Count total number of entries total_entries=\$(wc -l < "\$log_file") echo "Total log entries: \$total_entries" echo "--------------------------------------" ## Count unique IP addresses echo "Unique IP addresses:" echo "--------------------------------------" unique_ips=0 declare -A ip_count while read -r line; do ## Extract IP address (first field in each line) ip=\$(echo "\$line" | awk '{print \$1}') ## Count occurrences of each IP if [ -n "\$ip" ]; then if [ -z "\${ip_count[\$ip]}" ]; then ip_count[\$ip]=1 unique_ips=\$((unique_ips + 1)) else ip_count[\$ip]=\$((ip_count[\$ip] + 1)) fi fi done < "\$log_file" ## Display the IP addresses and their counts for ip in "\${!ip_count[@]}"; do echo "\$ip: \${ip_count[\$ip]} requests" done echo "--------------------------------------" echo "Total unique IP addresses: \$unique_ips" echo "--------------------------------------" ## Count HTTP status codes echo "HTTP Status Code Distribution:" echo "--------------------------------------" declare -A status_codes while read -r line; do ## Extract status code (9th field in typical Apache log format) status=\$(echo "\$line" | awk '{print \$9}') ## Count occurrences of each status code if [ -n "\$status" ]; then if [ -z "\${status_codes[\$status]}" ]; then status_codes[\$status]=1 else status_codes[\$status]=\$((status_codes[\$status] + 1)) fi fi done < "\$log_file" ## Display the status codes and their counts for status in "\${!status_codes[@]}"; do case "\$status" in 200) description="OK" ;; 302) description="Found/Redirect" ;; 401) description="Unauthorized" ;; 404) description="Not Found" ;; 500) description="Internal Server Error" ;; *) description="Other" ;; esac echo "Status \$status (\$description): \${status_codes[\$status]} requests" done echo "--------------------------------------" ## Identify requested resources echo "Top requested resources:" echo "--------------------------------------" declare -A resources while read -r line; do ## Extract the requested URL (typical format: "GET /path HTTP/1.1") request=\$(echo "\$line" | awk -F'"' '{print \$2}') method=\$(echo "\$request" | awk '{print \$1}') resource=\$(echo "\$request" | awk '{print \$2}') ## Count occurrences of each resource if [ -n "\$resource" ]; then if [ -z "\${resources[\$resource]}" ]; then resources[\$resource]=1 else resources[\$resource]=\$((resources[\$resource] + 1)) fi fi done < "\$log_file" ## Display the top resources ## For simplicity, we'll just show all resources for resource in "\${!resources[@]}"; do echo "\$resource: \${resources[\$resource]} requests" done echo "======================================" echo "Analysis complete!" EOF ``` 3. Rendez le script exécutable et exécutez-le : ```bash chmod +x analyze_log.sh ./analyze_log.sh ``` La sortie fournira une analyse détaillée du fichier de logs d'accès, y compris : - Le nombre total d'entrées de logs - Les adresses IP uniques et le nombre de requêtes associées - La distribution des codes de statut HTTP - Les ressources les plus demandées ### Amélioration du script d'analyse de logs Améliorons notre script pour inclure des analyses supplémentaires utiles : ```bash cat > enhanced_log_analyzer.sh << EOF #!/bin/bash ## Enhanced script to analyze a web server access log file log_file="access.log" echo "Enhanced Log File Analysis: \$log_file" echo "======================================" ## Count total number of entries total_entries=\$(wc -l < "\$log_file") echo "Total log entries: \$total_entries" echo "--------------------------------------" ## Count unique IP addresses echo "Unique IP addresses:" echo "--------------------------------------" unique_ips=0 declare -A ip_count while read -r line; do ## Extract IP address (first field in each line) ip=\$(echo "\$line" | awk '{print \$1}') ## Count occurrences of each IP if [ -n "\$ip" ]; then if [ -z "\${ip_count[\$ip]}" ]; then ip_count[\$ip]=1 unique_ips=\$((unique_ips + 1)) else ip_count[\$ip]=\$((ip_count[\$ip] + 1)) fi fi done < "\$log_file" ## Display the IP addresses and their counts for ip in "\${!ip_count[@]}"; do echo "\$ip: \${ip_count[\$ip]} requests" done echo "--------------------------------------" echo "Total unique IP addresses: \$unique_ips" echo "--------------------------------------" ## Count HTTP status codes echo "HTTP Status Code Distribution:" echo "--------------------------------------" declare -A status_codes while read -r line; do ## Extract status code (9th field in typical Apache log format) status=\$(echo "\$line" | awk '{print \$9}') ## Count occurrences of each status code if [ -n "\$status" ]; then if [ -z "\${status_codes[\$status]}" ]; then status_codes[\$status]=1 else status_codes[\$status]=\$((status_codes[\$status] + 1)) fi fi done < "\$log_file" ## Display the status codes and their counts for status in "\${!status_codes[@]}"; do case "\$status" in 200) description="OK" ;; 302) description="Found/Redirect" ;; 401) description="Unauthorized" ;; 404) description="Not Found" ;; 500) description="Internal Server Error" ;; *) description="Other" ;; esac echo "Status \$status (\$description): \${status_codes[\$status]} requests" done echo "--------------------------------------" ## Analyze HTTP methods echo "HTTP Methods:" echo "--------------------------------------" declare -A methods while read -r line; do ## Extract the HTTP method request=\$(echo "\$line" | awk -F'"' '{print \$2}') method=\$(echo "\$request" | awk '{print \$1}') ## Count occurrences of each method if [ -n "\$method" ]; then if [ -z "\${methods[\$method]}" ]; then methods[\$method]=1 else methods[\$method]=\$((methods[\$method] + 1)) fi fi done < "\$log_file" ## Display the HTTP methods and their counts for method in "\${!methods[@]}"; do echo "\$method: \${methods[\$method]} requests" done echo "--------------------------------------" ## Identify requested resources echo "Top requested resources:" echo "--------------------------------------" declare -A resources while read -r line; do ## Extract the requested URL request=\$(echo "\$line" | awk -F'"' '{print \$2}') resource=\$(echo "\$request" | awk '{print \$2}') ## Count occurrences of each resource if [ -n "\$resource" ]; then if [ -z "\${resources[\$resource]}" ]; then resources[\$resource]=1 else resources[\$resource]=\$((resources[\$resource] + 1)) fi fi done < "\$log_file" ## Display the resources for resource in "\${!resources[@]}"; do echo "\$resource: \${resources[\$resource]} requests" done echo "--------------------------------------" ## Find error requests echo "Error Requests (4xx and 5xx):" echo "--------------------------------------" error_count=0 while read -r line; do ## Extract the status code and URL status=\$(echo "\$line" | awk '{print \$9}') request=\$(echo "\$line" | awk -F'"' '{print \$2}') resource=\$(echo "\$request" | awk '{print \$2}') ip=\$(echo "\$line" | awk '{print \$1}') ## Check if status code begins with 4 or 5 (client or server error) if [[ "\$status" =~ ^[45] ]]; then echo "[\$status] \$ip requested \$resource" error_count=\$((error_count + 1)) fi done < "\$log_file" if [ \$error_count -eq 0 ]; then echo "No error requests found." fi echo "======================================" echo "Enhanced analysis complete!" EOF ``` Rendez le script exécutable et exécutez-le : ```bash chmod +x enhanced_log_analyzer.sh ./enhanced_log_analyzer.sh ``` Ce script amélioré fournit des informations supplémentaires, y compris les méthodes HTTP utilisées et une liste des requêtes d'erreur. ### Faire en sorte que le script accepte des arguments en ligne de commande Enfin, modifions notre script pour qu'il accepte le chemin d'un fichier de logs en tant qu'argument en ligne de commande, le rendant ainsi plus polyvalent : ```bash cat > log_analyzer_cli.sh << EOF #!/bin/bash ## Log analyzer that accepts a log file path as command-line argument ## Usage: ./log_analyzer_cli.sh ## Check if log file path is provided if [ \$## -eq 0 ]; then echo "Error: No log file specified" echo "Usage: \$0 " exit 1 fi log_file="\$1" ## Check if the specified file exists if [ ! -f "\$log_file" ]; then echo "Error: File '\$log_file' does not exist" exit 1 fi echo "Log File Analysis: \$log_file" echo "======================================" ## Count total number of entries total_entries=\$(wc -l < "\$log_file") echo "Total log entries: \$total_entries" echo "--------------------------------------" ## Count unique IP addresses echo "Unique IP addresses:" echo "--------------------------------------" unique_ips=0 declare -A ip_count while read -r line; do ## Extract IP address (first field in each line) ip=\$(echo "\$line" | awk '{print \$1}') ## Count occurrences of each IP if [ -n "\$ip" ]; then if [ -z "\${ip_count[\$ip]}" ]; then ip_count[\$ip]=1 unique_ips=\$((unique_ips + 1)) else ip_count[\$ip]=\$((ip_count[\$ip] + 1)) fi fi done < "\$log_file" ## Display the IP addresses and their counts for ip in "\${!ip_count[@]}"; do echo "\$ip: \${ip_count[\$ip]} requests" done echo "--------------------------------------" echo "Total unique IP addresses: \$unique_ips" echo "--------------------------------------" ## Count HTTP status codes echo "HTTP Status Code Distribution:" echo "--------------------------------------" declare -A status_codes while read -r line; do ## Extract status code (9th field in typical Apache log format) status=\$(echo "\$line" | awk '{print \$9}') ## Count occurrences of each status code if [ -n "\$status" ]; then if [ -z "\${status_codes[\$status]}" ]; then status_codes[\$status]=1 else status_codes[\$status]=\$((status_codes[\$status] + 1)) fi fi done < "\$log_file" ## Display the status codes and their counts for status in "\${!status_codes[@]}"; do case "\$status" in 200) description="OK" ;; 302) description="Found/Redirect" ;; 401) description="Unauthorized" ;; 404) description="Not Found" ;; 500) description="Internal Server Error" ;; *) description="Other" ;; esac echo "Status \$status (\$description): \${status_codes[\$status]} requests" done echo "======================================" echo "Analysis complete!" EOF ``` Rendez le script exécutable et testez-le avec notre fichier de logs d'accès : ```bash chmod +x log_analyzer_cli.sh ./log_analyzer_cli.sh access.log ``` Le script devrait produire une sortie similaire à nos exemples précédents, mais est maintenant plus flexible car il peut analyser n'importe quel fichier de logs spécifié en tant qu'argument en ligne de commande. ### Conclusion Dans cette étape, vous avez appliqué les techniques de traitement de fichiers apprises dans les étapes précédentes pour créer un outil pratique d'analyse de logs. Cela démontre à quel point Bash peut être puissant pour traiter et analyser des fichiers texte comme les fichiers de logs. Vous avez appris à : 1. Analyser et extraire des informations à partir de fichiers de logs structurés 2. Compter et analyser divers éléments dans le fichier de logs 3. Créer un outil flexible en ligne de commande qui accepte des arguments Ces compétences peuvent être appliquées à un large éventail de tâches de traitement de fichiers au-delà de l'analyse de logs, vous rendant plus compétent dans la programmation Bash et la gestion de fichiers.