프로젝트 의 Python 스킬 트리

하나를 둘로 자르기

초급

이 프로젝트에서는 자연어 처리 작업에서 중요한 단계인 서브워드 토크나이저를 구현하는 방법을 배우게 됩니다. 토큰화는 텍스트 문자열을 개별 단어, 문자 또는 서브워드와 같은 더 작은 단위인 토큰으로 분해하는 과정입니다. 이 프로젝트는 영어 및 기타 라틴어 기반 언어에서 일반적으로 사용되는 서브워드 수준 토큰화에 중점을 둡니다.

pythondata-science

💡 이 튜토리얼은 영어로 번역되었습니다. 원본을 보려면 영어로 전환

소개

이 프로젝트에서는 자연어 처리 (Natural Language Processing, NLP) 작업에서 중요한 단계인 서브워드 토크나이저 (subword tokenizer) 를 구현하는 방법을 배우게 됩니다. 토큰화 (Tokenization) 는 텍스트 문자열을 개별 단어, 문자 또는 서브워드 (subword) 와 같은 더 작은 단위인 토큰 (token) 으로 분해하는 과정입니다. 이 프로젝트는 영어 및 기타 라틴어 기반 언어에서 일반적으로 사용되는 서브워드 수준의 토큰화에 중점을 둡니다.

👀 미리보기

['I', 'studied', 'in', 'LabEx', 'for', '1', '0', 'days', 'and', 'completed', 'the', '[UNK]', '[UNK]', 'course', '.']

🎯 과제

이 프로젝트에서는 다음을 배우게 됩니다:

  • 탐욕적 최장 일치 우선 알고리즘 (greedy longest-match-first algorithm) 을 사용하여 문자 수준 토큰화를 수행하는 서브워드 토크나이저 함수를 구현하는 방법
  • 제공된 예시로 서브워드 토크나이저를 테스트하고 출력을 분석하는 방법
  • 토큰화 알고리즘과 구현을 이해하는 방법

🏆 성과

이 프로젝트를 완료하면 다음을 수행할 수 있습니다:

  • 자연어 처리 작업에서 토큰화의 중요성을 이해합니다.
  • 자연어 처리 파이프라인 (pipeline) 의 핵심 구성 요소를 구현합니다.
  • 문자 수준 토큰화와 서브워드 수준 토큰화를 구별합니다.
  • 탐욕적 최장 일치 우선 알고리즘을 적용하여 텍스트를 서브워드로 토큰화합니다.

강사

labby
Labby
Labby is the LabEx teacher.