Практическое применение в анализе данных
Теперь, когда вы понимаете, как использовать команду head
, давайте применим ее к более реальной ситуации анализа данных. На этом этапе мы создадим более крупный набор данных и используем head
для первичного осмотра данных.
- Сначала создадим директорию для наших наборов данных:
mkdir -p ~/project/data
- Теперь сгенерируем имитированный экспериментальный набор данных из 100 строк:
echo "Timestamp,Voltage,Current,Temperature,Efficiency" > ~/project/data/experiment_results.csv
for i in {1..100}; do
timestamp=$(date -d "2023-01-01 +$i hours" "+%Y-%m-%d %H:00:00")
voltage=$(echo "scale=2; 220 + (RANDOM % 10) - 5" | bc)
current=$(echo "scale=3; 0.5 + (RANDOM % 100) / 1000" | bc)
temp=$(echo "scale=1; 25 + (RANDOM % 50) / 10" | bc)
efficiency=$(echo "scale=2; 0.85 + (RANDOM % 10) / 100" | bc)
echo "$timestamp,$voltage,$current,$temp,$efficiency" >> ~/project/data/experiment_results.csv
done
- Чтобы провести первичный осмотр этого набора данных, используем команду
head
:
head ~/project/data/experiment_results.csv
Вы должны увидеть строку заголовка, за которой следуют первые 9 записей:
Timestamp,Voltage,Current,Temperature,Efficiency
2023-01-01 01:00:00,220.xx,0.xxx,xx.x,0.xx
2023-01-01 02:00:00,220.xx,0.xxx,xx.x,0.xx
...
- Чтобы сосредоточиться только на заголовках и понять структуру данных:
head -n 1 ~/project/data/experiment_results.csv
В результате будет отображено:
Timestamp,Voltage,Current,Temperature,Efficiency
- Чтобы проверить несколько записей после заголовка и понять формат данных:
head -n 4 ~/project/data/experiment_results.csv
Это предоставит достаточно данных для понимания формата, не перегружая вас информацией:
Timestamp,Voltage,Current,Temperature,Efficiency
2023-01-01 01:00:00,220.xx,0.xxx,xx.x,0.xx
2023-01-01 02:00:00,220.xx,0.xxx,xx.x,0.xx
2023-01-01 03:00:00,220.xx,0.xxx,xx.x,0.xx
Команда head
бесценна для первичного исследования данных. Вы можете быстро изучить структуру файла, проверить форматы данных и получить представление о наборе данных, не загружая весь файл в память и не дожидаясь полного отображения большого файла.