にスペースのない明瞭な2文は、私は、データセット内の2つの文を持つことはできません。 #期間後の空白なし
w2 =私は猫を飼っています。あたしは可愛いよ。 #期間の後にスペースを入れてくださいNLTKのトークナイザとスタンフォードcorenlpのトークナイザは、期間
NKTLトークナイザ(wordとsentの両方)を使用すると、nltkはcat.Iの間を区別できません。ここで
が
>>> nltk.word_tokenize(w1, 'english')
['I', 'am', 'Pusheen', 'the', 'cat.I', 'am', 'so', 'cute']
>>> nltk.word_tokenize(w2, 'english')
['I', 'am', 'Pusheen', 'the', 'cat', '.', 'I', 'am', 'so', 'cute']
と
>>> nltk.sent_tokenize(w1, 'english')
['I am Pusheen the cat.I am so cute']
>>> nltk.sent_tokenize(w2, 'english')
['I am Pusheen the cat.', 'I am so cute']
トークン化送られたトークン化の単語である私はそれを修正する方法をお願いしたいと思いますか?すなわち、nlktをw2として検出しますが、私のデータセットでは、単語と句読点が混在することがあります。 '':
アップデート '猫' など しようとしましたスタンフォードCoreNLP 3.7.0、彼らもできない明確な 'CAT.I'、 '私はそれが目的でこの方法を実施しています
[email protected]:~/projects/stanfordcorenlp$ java edu.stanford.nlp.process.PTBTokenizer sample.txt
I
am
Pusheen
the
cat.I
am
so
cute
.
PTBTokenizer tokenized 9 tokens at 111.21 tokens per second.
唯一。 – Anthon