3
私は、任意の句読点なしでアラビア語テキストからのトークンを返すためにregexp_tokenize()
を使用しています:regexp_tokenizeとアラビア語のテキスト
import re,string,sys
from nltk.tokenize import regexp_tokenize
def PreProcess_text(Input):
tokens=regexp_tokenize(Input, r'[،؟!.؛]\s*', gaps=True)
return tokens
H = raw_input('H:')
Cleand= PreProcess_text(H)
print '\n'.join(Cleand)
それはうまく働いたが、私はテキストを印刷しようとすると問題があります。
テキストايمان،سعد
用出力:
?يم
?ن
?
?
?
が、テキストもアラビア語句読点で、英語であれば、それは正しい結果を出力します。
テキストhi،eman
用出力:
hi
eman
あなたのアラビア語のテキストの予想出力は何ですか? – NullUserException
おそらくアラビア語が後方に印刷されているという事実です。 perlでは、私は の出力を得て、سعد – sln
あなたはPython 2.xを使用していますか? Python 3.4では、 'ايمان、سعد'と入力すると'ايمان'と 'سعد'が得られます。 –