@@ -170,11 +170,10 @@ <h1>Getting Started<a class="headerlink" href="#getting-started" title="Permalin
170
170
< div class ="highlight-default notranslate "> < div class ="highlight "> < pre > < span > </ span > < span class ="kn "> from</ span > < span class ="nn "> pythainlp.tokenize</ span > < span class ="k "> import</ span > < span class ="n "> word_tokenize</ span >
171
171
< span class ="n "> text</ span > < span class ="o "> =</ span > < span class ="s1 "> 'ผมรักคุณนะครับโอเคบ่พวกเราเป็นคนไทยรักภาษาไทยภาษาบ้านเกิด'</ span >
172
172
< span class ="n "> a</ span > < span class ="o "> =</ span > < span class ="n "> word_tokenize</ span > < span class ="p "> (</ span > < span class ="n "> text</ span > < span class ="p "> ,</ span > < span class ="n "> engine</ span > < span class ="o "> =</ span > < span class ="s1 "> 'icu'</ span > < span class ="p "> )</ span > < span class ="c1 "> # ['ผม', 'รัก', 'คุณ', 'นะ', 'ครับ', 'โอ', 'เค', 'บ่', 'พวก', 'เรา', 'เป็น', 'คน', 'ไทย', 'รัก', 'ภาษา', 'ไทย', 'ภาษา', 'บ้าน', 'เกิด']</ span >
173
- < span class ="n "> b</ span > < span class ="o "> =</ span > < span class ="n "> word_tokenize</ span > < span class ="p "> (</ span > < span class ="n "> text</ span > < span class ="p "> ,</ span > < span class ="n "> engine</ span > < span class ="o "> =</ span > < span class ="s1 "> 'dict'</ span > < span class ="p "> )</ span > < span class ="c1 "> # ['ผม', 'รัก', 'คุณ', 'นะ', 'ครับ', 'โอเค', 'บ่', 'พวกเรา', 'เป็น', 'คนไทย', 'รัก', 'ภาษาไทย', 'ภาษา', 'บ้านเกิด']</ span >
174
- < span class ="n "> c</ span > < span class ="o "> =</ span > < span class ="n "> word_tokenize</ span > < span class ="p "> (</ span > < span class ="n "> text</ span > < span class ="p "> ,</ span > < span class ="n "> engine</ span > < span class ="o "> =</ span > < span class ="s1 "> 'mm'</ span > < span class ="p "> )</ span > < span class ="c1 "> # ['ผม', 'รัก', 'คุณ', 'นะ', 'ครับ', 'โอเค', 'บ่', 'พวกเรา', 'เป็น', 'คนไทย', 'รัก', 'ภาษาไทย', 'ภาษา', 'บ้านเกิด']</ span >
175
- < span class ="n "> d</ span > < span class ="o "> =</ span > < span class ="n "> word_tokenize</ span > < span class ="p "> (</ span > < span class ="n "> text</ span > < span class ="p "> ,</ span > < span class ="n "> engine</ span > < span class ="o "> =</ span > < span class ="s1 "> 'pylexto'</ span > < span class ="p "> )</ span > < span class ="c1 "> # ['ผม', 'รัก', 'คุณ', 'นะ', 'ครับ', 'โอเค', 'บ่', 'พวกเรา', 'เป็น', 'คนไทย', 'รัก', 'ภาษาไทย', 'ภาษา', 'บ้านเกิด']</ span >
176
- < span class ="n "> e</ span > < span class ="o "> =</ span > < span class ="n "> word_tokenize</ span > < span class ="p "> (</ span > < span class ="n "> text</ span > < span class ="p "> ,</ span > < span class ="n "> engine</ span > < span class ="o "> =</ span > < span class ="s1 "> 'newmm'</ span > < span class ="p "> )</ span > < span class ="c1 "> # ['ผม', 'รัก', 'คุณ', 'นะ', 'ครับ', 'โอเค', 'บ่', 'พวกเรา', 'เป็น', 'คนไทย', 'รัก', 'ภาษาไทย', 'ภาษา', 'บ้านเกิด']</ span >
177
- < span class ="n "> g</ span > < span class ="o "> =</ span > < span class ="n "> word_tokenize</ span > < span class ="p "> (</ span > < span class ="n "> text</ span > < span class ="p "> ,</ span > < span class ="n "> engine</ span > < span class ="o "> =</ span > < span class ="s1 "> 'wordcutpy'</ span > < span class ="p "> )</ span > < span class ="c1 "> # ['ผม', 'รัก', 'คุณ', 'นะ', 'ครับ', 'โอเค', 'บ่', 'พวกเรา', 'เป็น', 'คน', 'ไทย', 'รัก', 'ภาษา', 'ไทย', 'ภาษา', 'บ้านเกิ</ span >
173
+ < span class ="n "> b</ span > < span class ="o "> =</ span > < span class ="n "> word_tokenize</ span > < span class ="p "> (</ span > < span class ="n "> text</ span > < span class ="p "> ,</ span > < span class ="n "> engine</ span > < span class ="o "> =</ span > < span class ="s1 "> 'mm'</ span > < span class ="p "> )</ span > < span class ="c1 "> # ['ผม', 'รัก', 'คุณ', 'นะ', 'ครับ', 'โอเค', 'บ่', 'พวกเรา', 'เป็น', 'คนไทย', 'รัก', 'ภาษาไทย', 'ภาษา', 'บ้านเกิด']</ span >
174
+ < span class ="n "> c</ span > < span class ="o "> =</ span > < span class ="n "> word_tokenize</ span > < span class ="p "> (</ span > < span class ="n "> text</ span > < span class ="p "> ,</ span > < span class ="n "> engine</ span > < span class ="o "> =</ span > < span class ="s1 "> 'pylexto'</ span > < span class ="p "> )</ span > < span class ="c1 "> # ['ผม', 'รัก', 'คุณ', 'นะ', 'ครับ', 'โอเค', 'บ่', 'พวกเรา', 'เป็น', 'คนไทย', 'รัก', 'ภาษาไทย', 'ภาษา', 'บ้านเกิด']</ span >
175
+ < span class ="n "> d</ span > < span class ="o "> =</ span > < span class ="n "> word_tokenize</ span > < span class ="p "> (</ span > < span class ="n "> text</ span > < span class ="p "> ,</ span > < span class ="n "> engine</ span > < span class ="o "> =</ span > < span class ="s1 "> 'newmm'</ span > < span class ="p "> )</ span > < span class ="c1 "> # ['ผม', 'รัก', 'คุณ', 'นะ', 'ครับ', 'โอเค', 'บ่', 'พวกเรา', 'เป็น', 'คนไทย', 'รัก', 'ภาษาไทย', 'ภาษา', 'บ้านเกิด']</ span >
176
+ < span class ="n "> e</ span > < span class ="o "> =</ span > < span class ="n "> word_tokenize</ span > < span class ="p "> (</ span > < span class ="n "> text</ span > < span class ="p "> ,</ span > < span class ="n "> engine</ span > < span class ="o "> =</ span > < span class ="s1 "> 'wordcutpy'</ span > < span class ="p "> )</ span > < span class ="c1 "> # ['ผม', 'รัก', 'คุณ', 'นะ', 'ครับ', 'โอเค', 'บ่', 'พวกเรา', 'เป็น', 'คน', 'ไทย', 'รัก', 'ภาษา', 'ไทย', 'ภาษา', 'บ้านเกิ</ span >
178
177
</ pre > </ div >
179
178
</ div >
180
179
< p > Thai has historically faced a lot of NLP challenges. A quick list of them include as follows:</ p >
0 commit comments