Introduction
Dans ce projet, vous allez apprendre à implémenter un subword tokenizer, qui est une étape cruciale dans les tâches de traitement du langage naturel. La tokenization est le processus consistant à diviser une chaîne de texte en unités plus petites, appelées tokens, qui peuvent être des mots individuels, des caractères ou des sous-mots. Ce projet se concentre sur la tokenization au niveau des sous-mots, qui est couramment utilisée en anglais et dans d'autres langues à base latine.
👀 Aperçu
['I','studied', 'in', 'LabEx', 'for', '1', '0', 'days', 'and', 'completed', 'the', '[UNK]', '[UNK]', 'course', '.']
🎯 Tâches
Dans ce projet, vous allez apprendre :
- à implémenter une fonction de subword tokenizer qui effectue une tokenization au niveau des caractères en utilisant l'algorithme glouton du plus long motif correspondant d'abord
- à tester le subword tokenizer avec un exemple fourni et à analyser la sortie
- à comprendre l'algorithme de tokenization et son implantation
🏆 Réalisations
Après avoir terminé ce projet, vous serez capable de :
- comprendre l'importance de la tokenization dans les tâches de traitement du langage naturel
- implémenter un composant clé d'un pipeline de traitement du langage naturel
- différencier entre la tokenization au niveau des caractères et la tokenization au niveau des sous-mots
- appliquer l'algorithme glouton du plus long motif correspondant d'abord pour tokenizer le texte en sous-mots