Изучение текстовых данных с помощью Python

Введение

Python — это мощный и гибкий язык программирования, ставший стандартом в области анализа данных и статистических вычислений. Его богатая экосистема включает библиотеки, специально разработанные для анализа текстов и обработки естественного языка (NLP), что делает его идеальным выбором для извлечения информации из текстовых массивов.

В рамках этого испытания вы воспользуетесь возможностями Python для проведения статистического анализа коллекции текстовых файлов. Мы научимся извлекать значимые аналитические данные из неструктурированного текста.

Общий подсчет слов

В папке home/labex/files вы найдете несколько текстовых файлов.

Ваша задача — написать скрипт на Python под названием word_count.py, который прочитает все эти файлы и вычислит общее количество слов во всех документах вместе взятых.

Обратите внимание, что знаки препинания не должны считаться словами. Например, в файле "java" содержится 111 слов.

Требования

При запуске скрипт должен выводить общее количество слов в консоль.

Самые часто встречающиеся слова

После успешного подсчета общего количества слов ваша следующая задача — определить топ-3 самых часто встречающихся слов во всех текстовых файлах. Вам нужно написать скрипт top_3_high_frequencies.py, который найдет эти слова и выведет их вместе с частотой упоминания в консоль в порядке убывания.

Пример ожидаемого вывода:

python top_3_high_frequencies.py

## print word and frequency in console
word1 20
word2 15
word3 13

Требования

Скрипт должен выводить три самых популярных слова и их количество в консоль.
Подсчет слов чувствителен к регистру: "Слово" и "слово" считаются разными словами.
Знаки препинания не считаются частью слова и должны быть исключены из подсчета.

Порядковая группировка слов

Теперь давайте поработаем со структурой файлов. Представьте, что нам нужно собрать первое слово из каждого файла, затем второе слово из каждого файла и так далее.

Ваша задача — написать скрипт step3_code.py, который берет n-е слово из каждого входного файла и записывает их в новый файл с именем output/n. Здесь «n» — это порядковый номер слова (начиная с 1). Результирующие файлы должны быть созданы в директории /home/labex/project/output/.

Например, если мы берем первые слова из каждого файла, содержимое output/1 должно выглядеть так:

## output/1, start count with 1.
CentOS Java A Python Ubuntu

Аналогично, для сотых слов (если они существуют в файле), содержимое output/100 может быть таким:

## output/100, the 100-th file, only java, linux and program have 100-th word.
applications and the

Требования

Папка output должна находиться по пути /home/labex/project/.
Порядок чтения файлов не имеет значения; важен только порядок слов внутри каждого конкретного файла.
Знаки препинания не считаются частью слов и должны быть удалены.

Резюме

В этом испытании вы научились использовать Python для базового анализа текстовых данных. Вы попрактиковались в подсчете общего количества слов, определении наиболее часто встречающихся лексем и извлечении слов по их позиции из нескольких файлов с последующим сохранением результатов. Выполнение этих задач заложило фундамент для работы с текстовыми данными, что необходимо для решения более сложных задач в области обработки естественного языка и интеллектуального анализа текстов в будущем.

Работа с текстовыми данными

Введение

Общий подсчет слов

Требования

Самые часто встречающиеся слова

Требования

Порядковая группировка слов

Требования

Резюме