add whitespace+newline in pythainlp.tokenize.sent_tokenize

wannaphong · wannaphong · commit 64e283bff05d · 2017-08-28T23:56:02.000+07:00
diff --git a/docs/pythainlp-1-5-eng.md b/docs/pythainlp-1-5-eng.md
@@ -41,6 +41,19 @@ d=word_tokenize(text,engine='pylexto') # ['ผม', 'รัก', 'คุณ', '
 e=word_tokenize(text,engine='newmm') # ['ผม', 'รัก', 'คุณ', 'นะ', 'ครับ', 'โอเค', 'บ่', 'พวกเรา', 'เป็น', 'คนไทย', 'รัก', 'ภาษาไทย', 'ภาษา', 'บ้านเกิด']
 ```
 
+#### sent_tokenize
+
+Thai Sentence Tokenizer
+
+```python
+sent_tokenize(text,engine='whitespace')
+```
+
+engine :
+
+- whitespace
+- whitespace+newline
+
 #### Thai Character Clusters (TCC)
 
 TCC : Mr.Jakkrit TeCho
diff --git a/docs/pythainlp-1-5-thai.md b/docs/pythainlp-1-5-thai.md
@@ -89,9 +89,12 @@ sent_tokenize(text,engine='whitespace')
 
 text คือ ข้อความในรูปแบบสตริง
 
-engine คือ เครื่องมือสำหรับใช้ตัดประโยค ปัจจุบันรองรับเฉพาะ whitespace ตัดประโยคจากช่องว่าง
+engine คือ เครื่องมือสำหรับใช้ตัดประโยค
 
-คืนค่า ออกเป็น list
+- whitespace ตัดประโยคจากช่องว่าง
+- whitespace+newline ตัดประโยคจากช่องว่างและตัดจากการขึ้นบรรทัดใหม่
+
+คืนค่า ออกมาเป็น list
 
 #### WhitespaceTokenizer
 
diff --git a/pythainlp/tokenize/__init__.py b/pythainlp/tokenize/__init__.py
@@ -1,6 +1,7 @@
 # -*- coding: utf-8 -*-
 from __future__ import absolute_import,unicode_literals
 import nltk
+import re
 from six.moves import zip
 def word_tokenize(text,engine='icu'):
 	"""
@@ -72,6 +73,8 @@ def sent_tokenize(text,engine='whitespace'):
 	'''
 	if engine=='whitespace':
 		data=nltk.tokenize.WhitespaceTokenizer().tokenize(text)
+	elif engine=='whitespace+newline':
+		data=re.sub(r'\n+|\s+','|',text,re.U).split('|')
 	return data
 def wordpunct_tokenize(text):
 	'''