Introdução
Neste projeto, você aprenderá como implementar um tokenizador de subpalavras (subword tokenizer), que é um passo crucial em tarefas de processamento de linguagem natural (natural language processing - NLP). A tokenização é o processo de dividir uma string de texto em unidades menores, chamadas de tokens, que podem ser palavras individuais, caracteres ou subpalavras. Este projeto se concentra na tokenização em nível de subpalavra, que é comumente usada em inglês e outras línguas baseadas no latim.
👀 Visualização
['I', 'studied', 'in', 'LabEx', 'for', '1', '0', 'days', 'and', 'completed', 'the', '[UNK]', '[UNK]', 'course', '.']
🎯 Tarefas
Neste projeto, você aprenderá:
- Como implementar uma função de tokenizador de subpalavras que realiza tokenização em nível de caractere usando o algoritmo ganancioso (greedy) de correspondência mais longa primeiro (longest-match-first).
- Como testar o tokenizador de subpalavras com um exemplo fornecido e analisar a saída.
- Como entender o algoritmo de tokenização e sua implementação.
🏆 Conquistas
Após concluir este projeto, você será capaz de:
- Entender a importância da tokenização em tarefas de processamento de linguagem natural.
- Implementar um componente central de um pipeline de processamento de linguagem natural.
- Diferenciar entre tokenização em nível de caractere e em nível de subpalavra.
- Aplicar o algoritmo ganancioso de correspondência mais longa primeiro para tokenizar texto em subpalavras.





