Explore Dados de Texto com Python

Introdução

O Python é uma linguagem de programação robusta e flexível, muito utilizada em análise de dados e computação estatística. Seu ecossistema rico inclui bibliotecas desenvolvidas especificamente para análise de texto e processamento de linguagem natural (NLP), tornando-o uma escolha excelente para lidar com dados textuais.

Neste desafio, utilizaremos os recursos do Python para realizar análises estatísticas baseadas em texto em uma coleção de arquivos. Vamos explorar como extrair insights significativos de dados textuais usando programação.

Contagem Total de Palavras

Você encontrará diversos arquivos de texto localizados na pasta home/labex/files.

Sua tarefa é escrever um script Python, chamado word_count.py, que leia todos esses arquivos de texto e calcule o número total de palavras contidas em todos eles somados.

É importante observar que pontuações não devem ser consideradas como palavras. Por exemplo, no arquivo "java", existem 111 palavras.

Requisitos

O script deve exibir a contagem total de palavras no console ao ser executado.

Palavras de Alta Frequência

Após contar o total de palavras com sucesso, sua próxima tarefa é identificar as 3 palavras mais frequentes em todos os arquivos de texto. Você deve escrever um script Python, top_3_high_frequencies.py, para realizar essa tarefa. O script deve imprimir essas 3 palavras principais junto com suas respectivas frequências no console, em ordem decrescente.

Por exemplo, a saída deve seguir este formato:

python top_3_high_frequencies.py

## print word and frequency in console
word1 20
word2 15
word3 13

Requisitos

O script deve imprimir as 3 palavras mais comuns e suas contagens no console ao ser executado.
A contagem de palavras diferencia maiúsculas de minúsculas (case-sensitive), ou seja, "Palavra" e "palavra" são tratadas como termos distintos.
Pontuações não são consideradas parte das palavras e devem ser excluídas da contagem.

Alinhamento de Palavras em Ordem

Agora, vamos considerar a ordem das palavras dentro de cada arquivo. E se quiséssemos coletar a primeira palavra de cada arquivo, depois a segunda palavra de cada arquivo, e assim por diante?

Sua tarefa é escrever um script Python, step3_code.py, que extraia a n-ésima palavra de cada arquivo de entrada e as escreva em um novo arquivo chamado output/n. Aqui, 'n' representa a posição da palavra (começando em 1). Os arquivos de saída devem ser criados no diretório /home/labex/project/output/.

Por exemplo, se considerarmos as primeiras palavras de cada arquivo, o conteúdo de output/1 deve ser:

## output/1, start count with 1.
CentOS Java A Python Ubuntu

Da mesma forma, para as centésimas palavras (caso existam), o conteúdo de output/100 seria:

## output/100, the 100-th file, only java, linux and program have 100-th word.
applications and the

Requisitos

A pasta output deve estar localizada em /home/labex/project/.
A ordem em que os arquivos são lidos não importa; apenas a ordem das palavras dentro de cada arquivo é relevante.
Pontuações não são consideradas parte das palavras e devem ser excluídas.

Resumo

Neste desafio de Python, você aprendeu a utilizar a linguagem para análises básicas de dados textuais. Você praticou a contagem total de palavras, a identificação de termos de alta frequência e a extração de palavras com base em sua posição em múltiplos arquivos, salvando os resultados em arquivos de saída distintos. Ao concluir este desafio, você adquiriu habilidades valiosas para manipular dados de texto em Python, fortalecendo sua capacidade de realizar análises estatísticas textuais. Essas competências servem como base para tarefas mais avançadas de processamento de texto no futuro.

Brincando com seus Dados de Texto

Introdução

Contagem Total de Palavras

Requisitos

Palavras de Alta Frequência

Requisitos

Alinhamento de Palavras em Ordem

Requisitos

Resumo