Um Corte em Dois

Iniciante

Neste projeto, você aprenderá como implementar um tokenizador de subpalavras, um passo crucial em tarefas de processamento de linguagem natural. A tokenização é o processo de dividir uma string de texto em unidades menores, chamadas tokens, que podem ser palavras individuais, caracteres ou subpalavras. Este projeto se concentra na tokenização em nível de subpalavra, comumente usada em inglês e outras línguas baseadas no latim.

pythondata-science

💡 Este tutorial foi traduzido do inglês com assistência de IA. Para ver o original, você pode mudar para a versão em inglês

Introdução

Neste projeto, você aprenderá como implementar um tokenizador de subpalavras (subword tokenizer), que é um passo crucial em tarefas de processamento de linguagem natural (natural language processing - NLP). A tokenização é o processo de dividir uma string de texto em unidades menores, chamadas de tokens, que podem ser palavras individuais, caracteres ou subpalavras. Este projeto se concentra na tokenização em nível de subpalavra, que é comumente usada em inglês e outras línguas baseadas no latim.

👀 Visualização

['I', 'studied', 'in', 'LabEx', 'for', '1', '0', 'days', 'and', 'completed', 'the', '[UNK]', '[UNK]', 'course', '.']

🎯 Tarefas

Neste projeto, você aprenderá:

  • Como implementar uma função de tokenizador de subpalavras que realiza tokenização em nível de caractere usando o algoritmo ganancioso (greedy) de correspondência mais longa primeiro (longest-match-first).
  • Como testar o tokenizador de subpalavras com um exemplo fornecido e analisar a saída.
  • Como entender o algoritmo de tokenização e sua implementação.

🏆 Conquistas

Após concluir este projeto, você será capaz de:

  • Entender a importância da tokenização em tarefas de processamento de linguagem natural.
  • Implementar um componente central de um pipeline de processamento de linguagem natural.
  • Diferenciar entre tokenização em nível de caractere e em nível de subpalavra.
  • Aplicar o algoritmo ganancioso de correspondência mais longa primeiro para tokenizar texto em subpalavras.

Professor

labby
Labby
Labby is the LabEx teacher.