소개
이 프로젝트에서는 자연어 처리 (Natural Language Processing, NLP) 작업에서 중요한 단계인 서브워드 토크나이저 (subword tokenizer) 를 구현하는 방법을 배우게 됩니다. 토큰화 (Tokenization) 는 텍스트 문자열을 개별 단어, 문자 또는 서브워드 (subword) 와 같은 더 작은 단위인 토큰 (token) 으로 분해하는 과정입니다. 이 프로젝트는 영어 및 기타 라틴어 기반 언어에서 일반적으로 사용되는 서브워드 수준의 토큰화에 중점을 둡니다.
👀 미리보기
['I', 'studied', 'in', 'LabEx', 'for', '1', '0', 'days', 'and', 'completed', 'the', '[UNK]', '[UNK]', 'course', '.']
🎯 과제
이 프로젝트에서는 다음을 배우게 됩니다:
- 탐욕적 최장 일치 우선 알고리즘 (greedy longest-match-first algorithm) 을 사용하여 문자 수준 토큰화를 수행하는 서브워드 토크나이저 함수를 구현하는 방법
- 제공된 예시로 서브워드 토크나이저를 테스트하고 출력을 분석하는 방법
- 토큰화 알고리즘과 구현을 이해하는 방법
🏆 성과
이 프로젝트를 완료하면 다음을 수행할 수 있습니다:
- 자연어 처리 작업에서 토큰화의 중요성을 이해합니다.
- 자연어 처리 파이프라인 (pipeline) 의 핵심 구성 요소를 구현합니다.
- 문자 수준 토큰화와 서브워드 수준 토큰화를 구별합니다.
- 탐욕적 최장 일치 우선 알고리즘을 적용하여 텍스트를 서브워드로 토큰화합니다.





