하나를 둘로 자르기

초급

이 프로젝트에서는 자연어 처리 작업에서 중요한 단계인 서브워드 토크나이저를 구현하는 방법을 배우게 됩니다. 토큰화는 텍스트 문자열을 개별 단어, 문자 또는 서브워드와 같은 더 작은 단위인 토큰으로 분해하는 과정입니다. 이 프로젝트는 영어 및 기타 라틴어 기반 언어에서 일반적으로 사용되는 서브워드 수준 토큰화에 중점을 둡니다.

pythondata-science

💡 이 튜토리얼은 영어로 번역되었습니다. 원본을 보려면 영어로 전환

이전 과정 다음 과정