2016-06-01 7 views
-1

http://nlp.stanford.edu/software/tokenizer.html 文書が処理され、すべての略語ドットと完全停止が異なる方法で認識されます。私はこの背後で使われている論理やプロセスを知りたい。説明してください。stanford-nlpが短縮ドットと完全停止を区別する方法は?このリンクの

+0

トークナイザについて知りたい場合は、edu/stanford/nlp/process/PTBLexer.flexというファイルを調べる必要があります。あなたはここにGitHubの上でそのファイルへのリンクを見つけることができます:https://github.com/stanfordnlp/CoreNLP/blob/master/src/edu/stanford/nlp/process/PTBLexer.flexを – StanfordNLPHelp

答えて

-2

あなたは(スタンフォードまたは他のツール、例えばthisを使用して)文章にドキュメントを分割することができます。文末の点は完全に停止していることは明らかです。

+0

それはどのマシンに明確ではありませんドットは文末にあります。したがって、OPの質問。 – diasks2

+0

?なぜそれはマシンのために明確ではないのですか? – Daniel

+0

例: 'Hello world。私の名前はスミスです。私は米国政府のために働き、私はニューヨークに住んでいる米国に住んでいます。これは決して略語ドットと完全停止を区別するための簡単な作業ではありません。これは、異なるセグメンテーションツールが異なる精度を持ち、異なる結果をもたらす理由です。 – diasks2

関連する問題