Введение
Python — это мощный и гибкий язык программирования, ставший стандартом в области анализа данных и статистических вычислений. Его богатая экосистема включает библиотеки, специально разработанные для анализа текстов и обработки естественного языка (NLP), что делает его идеальным выбором для извлечения информации из текстовых массивов.
В рамках этого испытания вы воспользуетесь возможностями Python для проведения статистического анализа коллекции текстовых файлов. Мы научимся извлекать значимые аналитические данные из неструктурированного текста.
Общий подсчет слов
В папке home/labex/files вы найдете несколько текстовых файлов.
Ваша задача — написать скрипт на Python под названием word_count.py, который прочитает все эти файлы и вычислит общее количество слов во всех документах вместе взятых.
Обратите внимание, что знаки препинания не должны считаться словами. Например, в файле "java" содержится 111 слов.
Требования
- При запуске скрипт должен выводить общее количество слов в консоль.
Самые часто встречающиеся слова
После успешного подсчета общего количества слов ваша следующая задача — определить топ-3 самых часто встречающихся слов во всех текстовых файлах. Вам нужно написать скрипт top_3_high_frequencies.py, который найдет эти слова и выведет их вместе с частотой упоминания в консоль в порядке убывания.
Пример ожидаемого вывода:
python top_3_high_frequencies.py
## print word and frequency in console
word1 20
word2 15
word3 13
Требования
- Скрипт должен выводить три самых популярных слова и их количество в консоль.
- Подсчет слов чувствителен к регистру: "Слово" и "слово" считаются разными словами.
- Знаки препинания не считаются частью слова и должны быть исключены из подсчета.
Порядковая группировка слов
Теперь давайте поработаем со структурой файлов. Представьте, что нам нужно собрать первое слово из каждого файла, затем второе слово из каждого файла и так далее.
Ваша задача — написать скрипт step3_code.py, который берет n-е слово из каждого входного файла и записывает их в новый файл с именем output/n. Здесь «n» — это порядковый номер слова (начиная с 1). Результирующие файлы должны быть созданы в директории /home/labex/project/output/.
Например, если мы берем первые слова из каждого файла, содержимое output/1 должно выглядеть так:
## output/1, start count with 1.
CentOS Java A Python Ubuntu
Аналогично, для сотых слов (если они существуют в файле), содержимое output/100 может быть таким:
## output/100, the 100-th file, only java, linux and program have 100-th word.
applications and the
Требования
- Папка
outputдолжна находиться по пути/home/labex/project/. - Порядок чтения файлов не имеет значения; важен только порядок слов внутри каждого конкретного файла.
- Знаки препинания не считаются частью слов и должны быть удалены.
Резюме
В этом испытании вы научились использовать Python для базового анализа текстовых данных. Вы попрактиковались в подсчете общего количества слов, определении наиболее часто встречающихся лексем и извлечении слов по их позиции из нескольких файлов с последующим сохранением результатов. Выполнение этих задач заложило фундамент для работы с текстовыми данными, что необходимо для решения более сложных задач в области обработки естественного языка и интеллектуального анализа текстов в будущем.



